Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397

Номер 7 2017 год

DOI: 10.17587/prin.8.328-336
УДК: 004.89
Обзор методов классификации текстовых документов на основе подхода машинного обучения
Е. И. Бурлаева, аспирант, e-mail: ekaterina0853@mail.ru, Донецкий национальный технический университет

Одной из технологий обработки текстовой информации является автоматическая классификация текстовых документов. Важным этапом при решении задачи классификации текста является выбор метода машинного обучения, который будет применяться к векторному представлению документа. В данной статье приведен анализ различных методов машинного обучения, которые используются для многоклассовой классификации текстовых документов. На основе опубликованных результатов проведен анализ алгоритмов классификации, в результате которого сделан вывод о необходимости повышения качества и скорости классификации текста за счет комбинирования преимуществ этих методов машинного обучения.

Ключевые слова: автоматическая классификация документов, машинное обучение, метод опорных векторов (SVM), латентно-семантический анализ (LSA), деревья решений, наивный Байесовский классификатор
Стр. 328–336