Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397

Номер 6 2021 год

DOI: 10.17587/prin.12.283-294
УДК: 004.912
Алгоритм автоматизированной генерации обучающей выборки для решения задачи выявления семантической близости между парой ключевых слов методами машинного обучения
К. В. Лунев, аспирант, kirilllunev@gmail.com, Механико-математический факультет, Институт механики, МГУ имени М. В. Ломоносова

В настоящее время машинное обучение является эффективным подходом к решению множества задач информационно-аналитических систем. Для использования таких подходов требуется обучающее множество примеров. Сбор обучающего набора данных обычно является трудоемким процессом. Как правило, для его реализации требуется участие нескольких экспертов в предметной области, для которой собирается тренировочное множество. Более того, для некоторых задач, в число которых входит и задача определения семантической близости пар ключевых слов, является сложным даже правильно составить инструкцию для экспертов для адекватной оценки тестируемых примеров. Причина таких затруднений заключается в том, что семантическая близость — субъективная величина, которая сильно зависит от области применения, контекста, человека и задачи. В статье представлены результаты исследований на направлении поиска моделей, алгоритмов и программных средств для автоматизированного формирования объектов обучающей выборки в задаче определения семантической близости пары слов. Кроме того, модели, построенные по автоматизированной обучающей выборке, позволяют решать не только задачу определения семантической близости, но и произвольную задачу классификации ребер в графе. Методы, использованные в работе, основаны на теоретико-графовых алгоритмах.

Ключевые слова: семантическая близость, обработка естественного языка, алгоритмы на графах, теория графов, машинное обучение
Стр. 283–294