Категоризація електронних документів

2010;
: сс. 233 – 248
Authors: 
Годич О.В., Наконечний Ю.С., Щербина Ю.М.

Львівський національний університет ім. Івана Франка, кафедра дискретного аналізу та інтелектуальних систем

Нині існує багато алгоритмів кластеризації документів, кожен з яких має певні переваги та недоліки. Запропонований у цій статті алгоритм є спробою компромісу між якістю категоризації документів і вимогами до обчислювальних ресурсів, залишаючись незалежним від мови документів. Алгоритм використовує техніку пошуку ключових слів документів для формування вхідних даних та карти Кохонена в поєднанні з ієрархічною кластеризацією для категоризації та візуалізації документів.

1. Pöllä M. An Analysis of Interdisciplinary Text Corpora // M. Pöllä, T. Honkela, H. Bruun, A. Russell // Proceedings of The Ninth Scandinavian Conference on Artificial Intelligence (SCAI 2006), October 25-27, Helsinki, 2006. 2. Li Wentian. Random Texts Exhibit Zipf's-Law-Like Word Frequency Distribution / Wentian Li // IEEE Transactions on Information Theory, 1992 – Vol. 38 Issue 6. P. 1842–1845. 3. Haykin Simon. Neural Networks: A Comprehensive Foundation / Simon Haykin. – 2nd ed. – Pearson Education, Ninth Indian Reprint, 2005. 4. Kohonen Teuvo. Self-Organizing Maps / Teuvo Kohonen. – 3. ed. – Berlin; Heidenberg; New York; Barcelona; Hong Kong; London; Milan; Paris; Singapore; Tokyo: Springer, 2001. 5. Huang Shiping. Exploration of Dimensionality Reduction for Text Visualization / Huang Shiping, Matthew O. Ward, Elke A. Rundensteiner // Technical report Computer Science Department Worcester Polytechnic Institute, 2003. 6. Hodych O. Determining cluster boundaries within Self-Organizing Maps / O. Hodych, I. Nikolski, V. Pasichnyk, Yu. Shcherbyna // Вісник Національного технічного університету „Харківський політехнічний інститут”. – Харків, 2007. – № 5. – С. 97–109. 7. Сеньо П.С. Теорія ймовірностей та математична статистика / П.С. Сеньо. – К.: Центр учбової літератури, 2004. – 448 с. 8. Годич О.В. Застосування штучної нейронної мережі типу SOM для розв’язування задачі діагностування / О.В. Годич, Ю.В. Нікольський, Ю.М. Щербина. // Вісник Нац. ун-ту “Львівська політехніка”. – Львів, 2002. – № 464: Інформаційні системи та мережі. – С. 31–43. 9. Годич О. В. Самоорганізація нейромереж та класифікація даних / О.В. Годич, Ю.М. Щербина // Вісник Львівського ун-ту ім. І. Франка. – Львів, 2003. – № 7: Прикладна мат. та інформ. – С. 234–247. 10. Годич О.В. Навчання {SOM} методом нейтронної міграції / О.В. Годич // Вісник Нац. ун-ту “Львівська політехніка”. – Львів, 2004. – № 519: Інформаційні системи та мережі. – С. 55–72. 11. Hodych O. Synthesis of Self-Organizing Map and Feedforward Neural Network for Better Forecasting / O. Hodych, Yu. Shcherbyna, M. Zylan // International Journal of Computing. – Ternopil, 2004. – Vol 3, № 3. – Р. 68–75. 12. Пасичник В.В. Исследование эффективности алгоритмов обучения нейросетей Кохонена / В.В. Пасичник, О.В. Годыч, Ю.В. Никольский, Ю.Н. Щербина // Управляющие системы и машины. – К., 2006. – № 2. – С. 63–80. 13. Годич О. Аналіз структури медичних даних із застосуванням мереж Кохонена / О. Годич, Ю. Нікольський, В. Пасічник, Ю. Щербина // International Journal of Computing. – Ternopil, 2007. – Vol 6, № 3. – Р. 124–136. 14. Ultsch A. Self-Organizing Neural Networks for Knowledge Acquisition / А. Ultsch // In Proc. of the 10th ECAI, Vienna, Austria, 1992. – Р. 208–210.