Немаловажной задачей при машинном анализе текстов является разбиения текста на предложения. От результатов работы этого этапа автоматической обработки текста напрямую зависит работа синтаксического и семантического анализатора, которые, как правило, работают с текстом, уже сегментированным на отдельные предложения. Поэтому неверное разбиение анализируемого текста на предложения повлечет за собой ошибки в синтаксическом и семантическом разборе, что отрицательно скажется на результате работы системы в целом.


В настоящее время в Internet можно найти достаточно много простейших программ, разбивающих входной текст на предложения, в основе работы которых лежит определение конца предложения по терминальному знаку препинания (точка, вопросительный или восклицательный знак). Однако, сегментация текста только лишь по терминальному знаку для серьезной системы автоматического анализа текста недопустима. В подтверждение этому рассмотрим текст: «О. М. Герасимов и мр. Грей, жившие в соседних домах на берегу оз. Бокки, не понимали друг друга т. к. разговаривали на разных языках!». При сегментации этого текста по терминальному знаку мы получим 7 различных предложений:
1. О.
2. М.
3. Герасимов и мр.
4. Грей, жившие в соседних домах на берегу оз.
5. Бокки, не понимали друг друга т.
6. к.
7. разговаривали на разных языках!


    В целом свободнораспростроняемые программные решения задачи сегментации русскоязычного текста на предложения значительно проигрывают своим бесплатным англоязычным аналогам. Следует отметить, что не смотря на сходные, казалось бы, правила разделения текста на предложения для русского и английского языков, программы-сегментаторы, работающие с английским текстом не могут корректно выявить концы предложений русскоязычного текста. Это связано в первую очередь с тем, что при анализе текста программой-разделителем необходимо использовать базу сокращений, учитывать особенности написания именованных сущностей, в названии которых могут присутствовать знаки препинания, в том числе и терминальные.