Про можливість використання методів пошуку нечітких дублікатів для автоматизації перевірки тестових завдань

Authors:

¹В. Яковина, ²Т. Смірнова, ¹В. Смірнов

Національний університет «Львівська політехніка»,
¹кафедра програмного забезпечення,
²кафедра напівпровідникової електроніки

Розглянуто основні методи пошуку нечітких дублікатів засновані як на синтаксичному, так і на лексичному підходах. Показано, що за відповідної модифікації ці методи можуть бути використані для автоматизації перевірки відповідей на тестові завдання у відкритій формі.

The main methods of near-duplicates searching based on both syntactic and the lexical approach are reviewed. It is shown that by appropriate modification of these methods, they can be used to automate the checking of quiz answers in an open form.

Аванесов В. С. Научные проблемы тестового контроля знаний. – М. : Исслед. центр, 1994. – 135 с.
Челышкова Н. Б. Теория и практика конструирования педагогических тестов: учеб. пособие / Н. Б. Челышкова. – М. : Логос, 2002. – 432 с.
Майоров А. Н. Теория и практика создания тестов для системы образования. (Как выбирать, создавать и использовать тесты для целей образования) / А. Н. Майоров. – М. : Интеллект-центр, 2001. – 296 с.
Ингекамп К. Педагогическая диагностика / К. Ингекамп. – М. : Педагогика, 1991. – 240 с.
Яковина В.С. Методи та засоби організації тестування у віртуальному навчальному середовищі Львівської політехніки // Вісник Нац. ун-ту «Львівська політехніка» Інформатизація вищого навчального закладу. – № 703 (2011). – С. 65–68.
Шкіль О.С. Єдиний тестовий сервер вищого навчального закладу як основа якісного проведення тестувань // Вісник Нац. ун-ту «Львівська політехніка» Інформатизація вищого навчального закладу. – № 703 (2011). – С. 54–59.
U. Manber. Finding Similar Files in a Large File System. // WTEC'94 Proceedings of the USENIX Winter 1994 Technical Conference, p. 2.
W. Pugh, M.H. Henzinger Detecting duplicate and near-duplicate files // US Patent 6658423 (2003). 9. A. Broder, Identifying and Filtering Near-Duplicate Documents // LNCS, Vol. 1848 (2000). – pp. 1–10.
S. Ilyinsky, M. Kuzmin, A. Melkov, I. Segalovich. An efficient method to detect duplicates of Web documents with the use of inverted index. // Proc. 11th Int. World Wide Web Conference (WWW’2002).
G. Grahne and J. Zhu, Efficiently Using Prefix-trees in Mining Frequent Itemsets // Proceedings of FIMI'03 Workshop on Frequent Itemset Mining Implementations, 2003. – pp. 125–134.
A. Broder, S. Glassman, M. Manasse and G. Zweig. Syntactic clustering of the Web. // Computer Networks and ISDN Systems, Vol. 29 (1997), Issues 8–13. – pp. 1157–1166.
N. Heintze. Scalable document fingerprinting. // Proc USENIX Workshop on Electronic Commerce (1996). – pp. 191–200.
Д. Гасфилд. Строки, деревья и последовательности в алгоритмах. – СПб.: Невский диалект, 2003. – 656 с.
A. Broder. On the resemblance and containment of documents. // Proceedings of the Compression and Complexity of Sequences 1997. – pp. 21–29.
Игнатов Д.И., Кузнецов С.О. О поиске сходства Интернет-документов с помощью частых замкнутых множеств признаков // Труды 10-й национальной конференции по искусственному интеллекту с международным участием (КИИ’06). – М.: Физматлит, 2006, Т.2. – С.249–258.
I.S. Dhillon, Co-clustering documents and words using bipartite spectral graph partitioning // In Knowledge Discovery and Data Mining. – pp. 269-274, 2001.
Y.Zhao and G. Karypis, Empirical and Theoretical Comparison of Selected Criterion Functions for Document Clustering // Machine Learning, Vol. 55 (2004). – pp. 311–331.
A. Chowdhury, O. Frieder, D. Grossman, M. McCabe. Collection statistics for fast duplicate document detection. // ACM Transactions on Information Systems, Vol. 20 (2002), Issue 2. – pp. 171–191.
A. Kolcz, A. Chowdhury, J. Alspector. Improved Robustness of Signature-Based Near-Replica Detection via Lexicon Randomization. // Proc. 10th ACM Int. Conference on Knowledge discovery and data mining (KDD'04). – pp. 605–610.