Официальный сайт журнала "Программная инженерия" | Анализ методов преобразования текстов в форму объектов векторного пространства

Главная

Новый номер

Архив

Популярные статьи

Главный редактор

Редколлегия

Авторам

Этика публикаций

Рецензирование

Издательство

Старая версия сайта

English

Номер 1 2019 год

DOI: 10.17587/prin.10.30-37

УДК: 004.89

Анализ методов преобразования текстов в форму объектов векторного пространства

Е. И. Бурлаева, аспирант, e-mail: ekaterina0853@mail.ru, В. Н. Павлыш, д-р техн. наук, проф., зав. кафедрой, e-mail: pavlyshvn@mail.ru, Донецкий национальный технический университет

Одной из востребованных технологий обработки текстовой информации является автоматическая классификация документов, представленных в текстовом виде. Традиционное представление документа в форме последовательности символов затрудняет работу с ним как с объектом классификации. Большинство алгоритмов машинного обучения работают с такими документами как с элементами векторного пространства, вследствие чего появляется необходимость соответствующего преобразования текстов в форму векторного объекта. В статье представлен подход к преобразованию текста в форму векторного объекта, использующий композицию методов. На основании проведенных экспериментов, позволяющих сравнивать эффективности методов векторизации и морфологического разбора, выбран подход к сокращению размерности векторов, использующий сочетание методов "стемминг", "стоп-слова" и tf-idf. Такая композиция, как показали эксперименты, позволяет облегчить работу с использованием метода tf-idf, избавляя текст от неинформативных слов и преобразуя слова к общей форме.

Ключевые слова: векторное представление, текстовый документ, слово, композиция методов, tf-idf, классификация, стемминг, стоп-слова, нижняя граница

Стр. 30–37