Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397

Номер 11 2025 год

DOI: 10.17587/prin.16.583-593
УДК: 004.912
Интеллектуальная система классификации текстов в условиях лингвистической неопределенности
А. А. Скворцов, канд. пед. наук, доц. кафедры, skvor_88@mail.ru, М. С. Анурьева, канд. пед. наук, доц. кафедры, anuryeva@mail.ru, А. Н. Солодовников, вед. специалист IT-центра, bearbearovich@gmail.com, ФГБОУ ВО «Тамбовский государственный университет имени Г. Р. Державина»

Представлен сравнительный анализ современных моделей векторизации текста (TF-IDF, FastText и BERT) применительно к задаче интеллектуальной классификации пользовательских текстов из социальных сетей по тематике интересов, в частности, их отношению к сфере информационных технологий. Рассматриваемые модели охватывают различные подходы к представлению текстов: от частотных моделей до контекстно-зависимых трансформеров. В рамках исследования проанализированы особенности и ограничения каждой модели в условиях лексической вариативности, свойственной пользовательскому контенту, включая неформальные выражения, опечатки и синтаксические искажения. Оценка устойчивости моделей проводилась на выборках текстов с различными уровнями искусственных искажений. Разработана система для автоматизированной классификации пользователей на основе текстовых данных, которая включает модуль сбора информации и модуль классификации текста. Разработанный веб-сервис может применяться в профориентации, работе кадровых подразделений и образовательной аналитике.

Ключевые слова: векторизация текста, интеллектуальная классификация, обработка естественного языка, лингвистическая неопределенность, социальные сети
Стр. 583—593
Ссылка для цитирования:
Скворцов А. А., Анурьева М. С., Солодовников А. Н. Интеллектуальная система классификации текстов в условиях лингвистической неопределенности // Программная инженерия. 2025. Том 16, № 11. С. 583—593. DOI: 10.17587/prin.16.583-593.