Експериментальне дослідження пошуку значущих ключових слів україномовного контенту

2015;
: сс. 255 - 272
Автори: 
Бісікало О.В. Висоцька В.А.

Вінницький національний технічний університет, кафедра автоматики та інформаційно-вимірювальної техніки, Національний університет «Львівська політехніка», кафедра інформаційних систем та мереж

Проведено порівняльне експериментальне дослідження методів пошуку значущих ключових слів україномовного контенту. В основу підходу до автоматичного визначення ключових слів покладено стемінг Портера слів української мови за відстанню Левенштейна, враховано можливості використання тематичного словника та вилучення заблокованих слів. На експериментальній базі зі 100 наукових публікацій технічного спрямування порівняно з авторськими варіантами отримано числові статистичні характеристики точності результатів пошуку.

1. Вероятностныйморфологическийанализаторрусскогоиукраинскогоязыков. — Режимдоступу: http://www.keva.ru/stemka/stemka.html. — Назвазтитул. екрана. 2. Вірогіднийморфоло-гічнийаналізаторросійськоїтаукраїнської. — Режимдоступу: http://www.keva.ru/stemka/ stemka.html. — Назвазтитул. екрана. 3. ВычислениерасстоянияЛевенштейнамеждудвумястроками. — Режимдоступу: http://wm-help.net/lib/b/book/827961078/78. — Назвазтитул. екрана. 4. ЗадачаорасстоянииДамерау-Левенштейна / Режимдоступу: http://neerc.ifmo.ru/ wiki/index.php? title=%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B0_%D0%BE_%D1%80%D0%B0%D1%81%D1%81 %D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B8 _%D0%94%D0%B0%D0%BC%D0%B5% D1%80%D0%B0%D1%83-%D0%9B%D0%B5%D0%B2%D0%B5%D0%BD%D1%88%D1%82%D0% B5% D0%B9%D0%BD%D0%B0. — Назвазтиту л. екрана. 5. Левенштейн, которыйсравниваетстроки / Веб-разработка. — Режимдоступу: http://dayte2.com/levenshtein. — Назвазтитул. екрана. 6. МодульDrupal длястемінгаукраїнською. НовиймодульдляалгоритмуСтемадляукраїнськогопошукузвиділеннямкоренів / Режимдоступу: http://drupal.ua/node/1170. — Назвазтитул. екрана. 7. Найефективнішіметодизалученняпотенційнихклієнтів / Центрресурсівякостітрафікуоголошень, Google AdWords. — Режимдоступу: http://www.google.com/intl/uk_ALL/ads/adtrafficquality/ advertisers/best-practices-for-generating-leads.html. — Назвазтитул. екрана. 8. НасоновД. ФункцияЛевенштейна / Д. Насонов. — Режимдоступу: http://rain.ifmo.ru/cat/data/theory/unsorted/levenshtein-2006/article.pdf. — Назвазтитул. екрана. 9. Нечёткийпоисквтекстеисловаре. — Режимдоступу: http://habrahabr.ru/post/114997/. — Назвазтитул. екрана. 10. Реализацииалгоритмов. РасстояниеЛевенштейна. — Режимдоступу: http://ru.wikibooks.org/wiki/Реализации_алгоритмов/ Расстояние_ Левенштейна. — Назвазтитул. екрана. 11. СеникМ. Вільнийалгоритмстемінгудляукраїнськоїмови / М. Се ник. — Режимдоступу: http://www.senyk.poltava.ua/projects/ ukr_stemming/stemming_about. html. — Назвазтитул. екрана. 12. СеникМ. Інструментдляпошукуслівзоднаковимизакінченнями / М. Сеник. — Режимдоступу: http://www.senyk.poltava.ua/projects/ ukr_stemming/word_by_ending.html. — Назвазтитул. екрана. 13. СеникМ. Статичнедеревозакінчень / М. Сеник. — Режимдоступу: http://www.senyk.poltava.ua/projects/ukr_stemming/ ukr_endings.html#dyn. — Назвазтитул. екрана. 14. СеникМ. Демостемінгудляукраїнськоїмови / М. Сеник. — Режимдоступу: http://www.senyk. poltava.ua/projects/ukr_stemming/demo.html. — Назвазтитул. екрана. 15. Стемінг. — Режимдоступу: https://uk.wikipedia.org/wiki/Стемінг. — Назвазтитул. екрана. 16. СтемінгПортерадляукраїнськоїмови. — Режимдоступу: http://www.marazm.org.ua/document/stemer_ua/. — Назвазтитул. екрана. 17. Стемминг. — Режимдоступу: https://ru.wikipedia.org/wiki/Стемминг. — Назвазтитул. екрана. 18. СтеммерПотера. — Режимдоступу: http://labs.abcvg.com/stemmer/index.php. — Назвазтитул. екрана. 19. Hardcoded stemmer for Ukrainian. — Режимдоступу: https://github.com/vgrichina/ukrainian-stemmer. — Назвазтитул. екрана. 20. Julie Beth Lovins (1968). Development of a stemming algorithm. Mechanical Translation and Computational Linguistics 11:22–31. 21. Jongejan, B. and H. Dalianis. Automatic training of lemmatization rules that handle morphological changes in pre-, in- and suffixes alike // In the Proceeding of the ACL-2009, Joint conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, Singapore, August 2-7, 2009. — P. 145–153. — Режимдоступу: http://www.aclweb.org/anthology/P/P09/P09-1017.pdf. — Назвазтитул. екрана. 22. Moseіchuk V. СтемінгПортерадляукраїнськоїмови.СтеммингПортерадляукраинскогоязыка. Porter stemming algorithm for Ukrainian languages / V. Moseіchuk. — Режимдоступу: http://www. marazm.org.ua/document/stemer_ua/. — Назвазтитул. екрана. 23. Perestoronin P. СтеммерПортерадлярусскогоязыка / P. Perestoronin. — Режимдоступу: http://blog.eigene.in/post/49598738049/ snowball. — Назвазтитул. екрана. 24. Porter stemmer — реализацияалгоритмастеммераПортерадлярусскогоязыканачистомфункциональномязыке Clojure. — Режимдоступу: https://github.com/ allaud/porter-stemmer. — Назвазтитул. екрана. 25. Porter M. F. An algorithm for suffix stripping (англ.) / M. F. Porter // Program. — 1980. — Т. 14. — No 3. — С. 130–137. (оригинальнаяпубликацияПортера). — Режимдоступу: http://telemat.det.unifi.it/book/2001/wchange/download/stem_porter.html. — Назвазтитул. екра на. 25. Russian stemming algorithm. — Режимдоступу: http://snowball.tartarus. org/algorithms/russian/ stemmer.html. — Назвазтитул. екрана. 27. The Porter Stemming Algorithm — Porter’s homepage. (англ.). — Режимдоступу: http://tartarus.org/~martin/PorterStemmer/. — Назвазтитул. екрана. 28. The Porter Stemming Algorithm — Project «Snowball» (англ.). — Режимдоступу: http://snowball.tartarus.org/algorithms/porter/stemmer.html. — Назвазтитул. екрана. 29. The English (Porter2) stemming algorithm (улучшеннаяверсияалгоритма) — Project «Snowball» (англ.). — Режимдоступу: http://snowball.tartarus.org/algorithms/english/stemmer.html. — Назвазтитул. екрана. 30. Willett P. The Porter stemming algorithm: then and now (англ.) / P. Willett // Program: Electronic Library and Information Systems. — 2006. — В. 3. — Т. 40. — С. 219— 223. — ISSN 0033-0337. — Режимдоступу: http://eprints.whiterose.ac.uk/1434/. — Назвазтитул. екрана.