Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397
Номер 8 2014 год
Представлены результаты начального этапа исследований на направлении поиска моделей, алгоритмов и программных средств для определения семантической близости двух предложений. Результаты исследований могут использоваться в поисковых системах для выдачи более релевантного контента, а также для решения задач кластеризации, обобщения, индексирования текстов и многих других. В предлагаемом автором подходе предполагается, что предложения можно разбить на три части, каждая из которых является описанием некоторого факта, а именно — что произошло, где и когда. Алгоритм разделения предложения на такие части на данном этапе исследования не рассматривается. Предложены метрики, на основе которых определяется смысловая близость частей предложений. Данные о близости частей предложений в свою очередь используют для нахождения семантической схожести целых предложений. Для этого применяют: семантическую сеть WordNet; поисковую систему Яндекс; сервис геокодирования Google Geocoding; собственные алгоритмы.