Модифікація алгоритму пошуку нечітких дублікатів у текстах українською мовою

Authors:

Гриненко А.Ю., Петрашенко А.В., Замятін Д.С.

НТУУ “КПІ”

Розглянуті найпопулярніші алгоритми пошуку нечітких дублікатів. Було запропоновано модифікацію алгоритму пошуку нечітких дублікатів для текстових ресурсів, що ґрунтується на методі шинглів. Розроблений метод вирішує проблему чутливості до перестановки слів у класичному алгоритмі шинглів, що існує для текстів українською та іншими мовами слов'янської групи. Результати експериментів, що наведені роботі, показали приріст швидкості пошуку нечітких дублікатів

пошук нечітких дублікатів

метод шинглів

1. Duplicate and Near Duplicate Documents Detection: A Review.[Електронний ресурс ] / J. Prasanna Kumar, P. Govindarajulu // European Journal of Scientific Research, EuroJournals Publishing, pp. 514–527: http://www.eurojournals.com/ejsr_32_4_08.pdf 2. Сравнительный анализ методов определения нечетких дубликатов для Web-документов. [Електронний ресурс] / Зеленков Ю.Г., Сегалович И.В.: http://rcdl2007.pereslavl.ru/papers/paper_65_v1.pdf 3. Finding Similar Files in a Large File System / U. Manber // Winter USENIX Technical Conference, 1994. – pp. 1–10. 4. Scalable Document Fingerprinting.[Електронний ресурс ] / Nevin Heintze // Proc USENIX Workshop on Electronic Commerce (1996): http://www.mendeley.com/research/scalable-document-fingerprinting 5. Syntactic clustering of the Web. [Електронний ресурс ] / A. Broder, S. Glassman, M. Manasse and G. Zweig. // Proc. of the 6th International World Wide Web Conference, April 1997. – pp. 1–13: http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=6E6FE4B04E54CD09... i=10.1.1.134.4842&rep=rep1&type=pdf 6. Improved Robustness of Signature-Based Near-Replica Detection via Lexicon Randomization / A. Kolcz, A. Chowdhury, J. Alspector // KDD 2004. – pp. 1–6.: http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=6E6FE4B04E54CD09... i=10.1.1.134.4842&rep=rep1&type=pdf 7. Detecting duplicate and near-duplicate files.[Електронний ресурс ] / W. Pugh // US Patent 6,658,423 pp. 1–25: http://www.cs.umd.edu/~pugh/google/Duplicates.pdf 8. An efficient method to detect duplicates of Web documents with the use of inverted index. / S. Ilyinsky, M. Kuzmin, A. Melkov, I. Segalovich. // WWW Conference 2002. – pp. 1–6. 9. Проблема дублирования страниц и поиска нечетких дубликатов в сайтах по экономической тематике. [Електронний ресурс ] / Руслан Ф. Кузнецов: http://st.free-lance.ru/users/rusl_ir/upload/f_4a97d3d360d0e.doc 10. What is CUDA. [Електронний ресурс] // NVIDIA Developer Zone: http://developer.nvidia.com/what-cuda.