Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397

Номер 8 2014 год

УДК: 004.912
К вычислению смысловой близости предложений
К. В. Лунев, студент, программист, МГУ им. М. В. Ломоносова, e-mail: kirilllunev@gmail.com

Представлены результаты начального этапа исследований на направлении поиска моделей, алгоритмов и программных средств для определения семантической близости двух предложений. Результаты исследований могут использоваться в поисковых системах для выдачи более релевантного контента, а также для решения задач кластеризации, обобщения, индексирования текстов и многих других. В предлагаемом автором подходе предполагается, что предложения можно разбить на три части, каждая из которых является описанием некоторого факта, а именно — что произошло, где и когда. Алгоритм разделения предложения на такие части на данном этапе исследования не рассматривается. Предложены метрики, на основе которых определяется смысловая близость частей предложений. Данные о близости частей предложений в свою очередь используют для нахождения семантической схожести целых предложений. Для этого применяют: семантическую сеть WordNet; поисковую систему Яндекс; сервис геокодирования Google Geocoding; собственные алгоритмы.

Ключевые слова: обработка естественного языка, смысловая близость предложений, алгоритмы, поисковые системы, геокодирование
Стр. 30–39