Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397

Номер 6 2019 год

DOI: 10.17587/prin.10.265-273
УДК: 004.75 + 004.41
Об изменении размерности векторного представления текстовых данных
А. С. Шундеев, канд. физ.-мат. наук, вед. науч. сотр., e-mail: alex.shundeev@gmail.com, МГУ имени М. В. Ломоносова

В настоящее время интеллектуальный анализ данных является основой для построения широкого спектра прикладных информационных систем. Современным и бурно развивающимся подходом в области анализа текстовых данных является использование векторных представлений слов и текстов. Векторные представления изначально применяли для решения задач определения смысловой близости слов и поиска аналогий, однако они оказались востребованными также и в области решения задачи классификации текстов. Применительно к этой задаче векторные представления рассматриваются в настоящей работе. Предложен подход к построению векторных представлений текстов, базирующийся на трансформации согласованных с ними векторных представлений слов. Подобные трансформации подразумевают изменение исходной модели и размерности векторного представления и реализуются в виде решения задачи восстановления многомерной регрессии. Проведенные над тестовыми наборами данных эксперименты позволяют сделать следующие выводы. Построенные с помощью трансформаций векторные представления документов могут иметь меньшую размерность. При этом их использование в решении задачи классификации текстов в большинстве случаев дает более точный результат, чем при использовании исходных векторных представлений.

Ключевые слова: векторное представление слов, векторное представление документов, классификация текстов, регрессия
Стр. 265–273