Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397

Номер 1 2019 год

DOI: 10.17587/prin.10.30-37
УДК: 004.89
Анализ методов преобразования текстов в форму объектов векторного пространства
Е. И. Бурлаева, аспирант, e-mail: ekaterina0853@mail.ru, В. Н. Павлыш, д-р техн. наук, проф., зав. кафедрой, e-mail: pavlyshvn@mail.ru, Донецкий национальный технический университет

Одной из востребованных технологий обработки текстовой информации является автоматическая классификация документов, представленных в текстовом виде. Традиционное представление документа в форме последовательности символов затрудняет работу с ним как с объектом классификации. Большинство алгоритмов машинного обучения работают с такими документами как с элементами векторного пространства, вследствие чего появляется необходимость соответствующего преобразования текстов в форму векторного объекта. В статье представлен подход к преобразованию текста в форму векторного объекта, использующий композицию методов. На основании проведенных экспериментов, позволяющих сравнивать эффективности методов векторизации и морфологического разбора, выбран подход к сокращению размерности векторов, использующий сочетание методов "стемминг", "стоп-слова" и tf-idf. Такая композиция, как показали эксперименты, позволяет облегчить работу с использованием метода tf-idf, избавляя текст от неинформативных слов и преоб­разуя слова к общей форме.

Ключевые слова: векторное представление, текстовый документ, слово, композиция методов, tf-idf, классификация, стемминг, стоп-слова, нижняя граница
Стр. 30–37