Официальный сайт журнала "Программная инженерия" | Алгоритм автоматизированной генерации обучающей выборки для решения задачи выявления семантической близости между парой ключевых слов методами машинного обучения

Главная

Новый номер

Архив

Популярные статьи

Главный редактор

Редколлегия

Авторам

Этика публикаций

Рецензирование

Издательство

Старая версия сайта

English

Номер 6 2021 год

DOI: 10.17587/prin.12.283-294

УДК: 004.912

Алгоритм автоматизированной генерации обучающей выборки для решения задачи выявления семантической близости между парой ключевых слов методами машинного обучения

К. В. Лунев, аспирант, kirilllunev@gmail.com, Механико-математический факультет, Институт механики, МГУ имени М. В. Ломоносова

В настоящее время машинное обучение является эффективным подходом к решению множества задач информационно-аналитических систем. Для использования таких подходов требуется обучающее множество примеров. Сбор обучающего набора данных обычно является трудоемким процессом. Как правило, для его реализации требуется участие нескольких экспертов в предметной области, для которой собирается тренировочное множество. Более того, для некоторых задач, в число которых входит и задача определения семантической близости пар ключевых слов, является сложным даже правильно составить инструкцию для экспертов для адекватной оценки тестируемых примеров. Причина таких затруднений заключается в том, что семантическая близость — субъективная величина, которая сильно зависит от области применения, контекста, человека и задачи. В статье представлены результаты исследований на направлении поиска моделей, алгоритмов и программных средств для автоматизированного формирования объектов обучающей выборки в задаче определения семантической близости пары слов. Кроме того, модели, построенные по автоматизированной обучающей выборке, позволяют решать не только задачу определения семантической близости, но и произвольную задачу классификации ребер в графе. Методы, использованные в работе, основаны на теоретико-графовых алгоритмах.

Ключевые слова: семантическая близость, обработка естественного языка, алгоритмы на графах, теория графов, машинное обучение

Стр. 283–294