Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397
Номер 11 2013 год
Представлены методы и средства поиска нечетких дубликатов фраг-ментов текста на основе анализа семантической сети текста. В их основе — выявление смыслового портрета текстов в виде их семантических сетей, которые строятся с помощью технологии автоматического смыслового анализа текстов TextAnalyst, с последующим их использованием для сравнения смыслов текстов. Предлагаемый подход подразумевает несколько уровней "просеивания" текстов для быстрого и точного поиска дубликатов: быстрое сравнение семантических сетей, поиск нечетких копий фрагментов текста.