
Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397
Номер 11 2025 год
Представлен сравнительный анализ современных моделей векторизации текста (TF-IDF, FastText и BERT) применительно к задаче интеллектуальной классификации пользовательских текстов из социальных сетей по тематике интересов, в частности, их отношению к сфере информационных технологий. Рассматриваемые модели охватывают различные подходы к представлению текстов: от частотных моделей до контекстно-зависимых трансформеров. В рамках исследования проанализированы особенности и ограничения каждой модели в условиях лексической вариативности, свойственной пользовательскому контенту, включая неформальные выражения, опечатки и синтаксические искажения. Оценка устойчивости моделей проводилась на выборках текстов с различными уровнями искусственных искажений. Разработана система для автоматизированной классификации пользователей на основе текстовых данных, которая включает модуль сбора информации и модуль классификации текста. Разработанный веб-сервис может применяться в профориентации, работе кадровых подразделений и образовательной аналитике.