Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397
Номер 6 2021 год
В настоящее время машинное обучение является эффективным подходом к решению множества задач информационно-аналитических систем. Для использования таких подходов требуется обучающее множество примеров. Сбор обучающего набора данных обычно является трудоемким процессом. Как правило, для его реализации требуется участие нескольких экспертов в предметной области, для которой собирается тренировочное множество. Более того, для некоторых задач, в число которых входит и задача определения семантической близости пар ключевых слов, является сложным даже правильно составить инструкцию для экспертов для адекватной оценки тестируемых примеров. Причина таких затруднений заключается в том, что семантическая близость — субъективная величина, которая сильно зависит от области применения, контекста, человека и задачи. В статье представлены результаты исследований на направлении поиска моделей, алгоритмов и программных средств для автоматизированного формирования объектов обучающей выборки в задаче определения семантической близости пары слов. Кроме того, модели, построенные по автоматизированной обучающей выборке, позволяют решать не только задачу определения семантической близости, но и произвольную задачу классификации ребер в графе. Методы, использованные в работе, основаны на теоретико-графовых алгоритмах.