Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397

Номер 11 2013 год

УДК: 004.85; 004.91
Семантический анализ как основа для выявления дублирующих фрагментов текста
Н. А. Сергиевский, стар. науч. сотр., Государственный институт информационных и телекоммуникационных технологий "Информика", г. Москва, А. А. Харламов, д-р техн. наук, стар. науч. сотр., e-mail: kharlamov@analyst.ru, Институт высшей нервной деятельности и нейрофизиологии PАН, г. Москва

Представлены методы и средства поиска нечетких дубликатов фраг-ментов текста на основе анализа семантической сети текста. В их основе — выявление смыслового портрета текстов в виде их семантических сетей, которые строятся с помощью технологии автоматического смыслового анализа текстов TextAnalyst, с последующим их использованием для сравнения смыслов текстов. Предлагаемый подход подразумевает несколько уровней "просеивания" текстов для быстрого и точного поиска дубликатов: быстрое сравнение семантических сетей, поиск нечетких копий фрагментов текста.

Ключевые слова: нечеткие дубликаты текста, семантическая сеть, сравнение смыслов, поиск нечетких копий
Стр. 22–31
Статья написана в ходе выполнения работ по проекту "Исследование и разработка программного обеспечения понимания неструктурированной текстовой информации на русском и английском языках на базе создания методов компьютерного полного лингвистического анализа", грант Минобрнауки 2012-1.4-07-514-0018.