Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397
Номер 1 2019 год
Одной из востребованных технологий обработки текстовой информации является автоматическая классификация документов, представленных в текстовом виде. Традиционное представление документа в форме последовательности символов затрудняет работу с ним как с объектом классификации. Большинство алгоритмов машинного обучения работают с такими документами как с элементами векторного пространства, вследствие чего появляется необходимость соответствующего преобразования текстов в форму векторного объекта. В статье представлен подход к преобразованию текста в форму векторного объекта, использующий композицию методов. На основании проведенных экспериментов, позволяющих сравнивать эффективности методов векторизации и морфологического разбора, выбран подход к сокращению размерности векторов, использующий сочетание методов "стемминг", "стоп-слова" и tf-idf. Такая композиция, как показали эксперименты, позволяет облегчить работу с использованием метода tf-idf, избавляя текст от неинформативных слов и преобразуя слова к общей форме.