Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397

Номер 1 2021 год

DOI: 10.17587/prin.12.48-57
УДК: 004.75 + 004.41
Уменьшение размерности векторного представления документов с помощью метода главных компонент
А. С. Шундеев, канд. физ.-мат. наук, вед. науч. сотр., alex.shundeev@gmail.com, Д. Д. Заславский, студент, zabaf@ya.ru, С. И. Пехтерев, студент, stas-19000@mail.ru, Московский государственный университет им. М. В. Ломоносова

Векторные представления слов являются популярным объектом исследований, и эффективным средством анализа текстовых данных начиная с 1970-х годов. В частности, с их помощью удалось формализовать и дать решения задачам определения смысловой близости слов и поиска аналогий. В данной статье векторные представления слов рассматриваются с точки зрения решения задачи классификации текстовых документов. Популярным средством, используемым для снижения размерности данных, является метод главных компонент. В том числе он применяется и к векторным представлениям слов. В последнее время появился ряд работ, в которых исследуется не совсем традиционный подход к применению данного метода. В них предлагается удалять проекции не на последние, а на первые главные компоненты. Проводимые на этом направлении экспериментальные исследования показывают, что точность решения задач определения смысловой близости слов и поиска аналогий при этом может увеличиться. Целью исследования, описанного в данной работе, является проверка того, сохраняется ли подобный эффект при решении задачи классификации текстовых документов.

Ключевые слова: векторное представление слов, векторное представление документов, классификация текстов, Word2Vec, GloVe, fastText, дистрибутивная гипотеза, пост-обработка, метод главных компонент
Стр. 48–57