метод шинглів

Модифікація алгоритму пошуку нечітких дублікатів у текстах українською мовою

Розглянуті найпопулярніші алгоритми пошуку нечітких дублікатів. Було запропоновано модифікацію алгоритму пошуку нечітких дублікатів для текстових ресурсів, що ґрунтується на методі шинглів. Розроблений метод вирішує проблему чутливості до перестановки слів у класичному алгоритмі шинглів, що існує для текстів українською та іншими мовами слов'янської групи. Результати експериментів, що наведені роботі, показали приріст швидкості пошуку нечітких дублікатів