Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397
Номер 6 2018 год
Представлены результаты исследований на направлении поиска моделей, алгоритмов и программных средств для определения семантической близости между двумя ключевыми словами. Методы, использованные в работе, основаны на теоретико-графовых алгоритмах. Документ представляется в виде множества ключевых слов, ассоциированных с этим документом. Определена мера контекстной близости пары ключевых слов. По заданной коллекции документов строится граф ключевых слов. Вершины этого графа соответствуют ключевым словам, а ребра отражают факт контекстной близости пары слов. Далее представлен метод кластеризации построенного графа. Ключевые слова, входящие в один кластер, обладают свойством семантической близости, что является важным результатом настоящей работы. Программная реализация разработанных моделей протестирована на коллекциях ключевых слов к научным публикациям, а также на коллекции тегов к постам в социальной сети ВКонтакте..