Официальный сайт журнала "Программная инженерия" | Семантический анализ как основа для выявления дублирующих фрагментов текста

Главная

Новый номер

Архив

Популярные статьи

Главный редактор

Редколлегия

Авторам

Этика публикаций

Рецензирование

Издательство

Старая версия сайта

English

Номер 11 2013 год

УДК: 004.85; 004.91

Семантический анализ как основа для выявления дублирующих фрагментов текста

Н. А. Сергиевский, стар. науч. сотр., Государственный институт информационных и телекоммуникационных технологий "Информика", г. Москва, А. А. Харламов, д-р техн. наук, стар. науч. сотр., e-mail: kharlamov@analyst.ru, Институт высшей нервной деятельности и нейрофизиологии PАН, г. Москва

Представлены методы и средства поиска нечетких дубликатов фраг-ментов текста на основе анализа семантической сети текста. В их основе — выявление смыслового портрета текстов в виде их семантических сетей, которые строятся с помощью технологии автоматического смыслового анализа текстов TextAnalyst, с последующим их использованием для сравнения смыслов текстов. Предлагаемый подход подразумевает несколько уровней "просеивания" текстов для быстрого и точного поиска дубликатов: быстрое сравнение семантических сетей, поиск нечетких копий фрагментов текста.

Ключевые слова: нечеткие дубликаты текста, семантическая сеть, сравнение смыслов, поиск нечетких копий

Стр. 22–31

Статья написана в ходе выполнения работ по проекту "Исследование и разработка программного обеспечения понимания неструктурированной текстовой информации на русском и английском языках на базе создания методов компьютерного полного лингвистического анализа", грант Минобрнауки 2012-1.4-07-514-0018.