Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397

Номер 5 2022 год

DOI: 10.17587/prin.13.239-246
УДК: 004.9
An Algorithm for Finding Contradictions in Multiformat Data using Apache Spark
А. А. Воробьев, канд. техн. наук, доц., awa@mail.ru, С. М. Макеев, канд. техн. наук, сотр., maksm57@yandex.ru, Академия Федеральной службы охраны Российской Федерации, Орел

На качество принятия управленческих решений существенно оказывают влияние противоречивость и разнородность информации, получаемой из различных источников, с невозможностью однозначного определения их достоверности, например, социальные сети, электронные СМИ, социологические опросы, а также применяемых видов представлений, например, текстов, графиков или таблиц. Цель работы, результаты которой представлены в статье, — проведение теоретических и экспериментальных исследований, обеспечивающих выбор методов и их реализации в алгоритме обработки разноформатных данных для решения проблемы противоречивости и разнородности информации. В результате исследований в рамках решения проблемы поиска противоречий для обработки публикаций СМИ предложено последовательно использовать латентно-семантический анализ для отбора статей по заданной тематике, а затем метод определения тональности статей, а для обработки результатов социологических опросов — метод расчета интегрального показателя по выбранному из анкеты вопросу.

Ключевые слова: разнородная информация, латентно-семантический анализ, тональность текста, алгоритм поиска, Apache Spark
Стр. 239—246