категоризація доку- ментів

Категоризація електронних документів

Нині існує багато алгоритмів кластеризації документів, кожен з яких має певні переваги та недоліки. Запропонований у цій статті алгоритм є спробою компромісу між якістю категоризації документів і вимогами до обчислювальних ресурсів, залишаючись незалежним від мови документів. Алгоритм використовує техніку пошуку ключових слів документів для формування вхідних даних та карти Кохонена в поєднанні з ієрархічною кластеризацією для категоризації та візуалізації документів.