інтелектуальний аналіз текстів

Семантична кластеризація текстових документів методом k–середніх

Запропоновано алгоритм кластеризації текстових документів методом k–середніх у векторному просторі частотних характеристик семантичних полів. Показано ефективність семантичного кластерного аналізу при вивченні класифікацій текстових документів, зокрема за авторством.

The algorithm of clusterization of text documents by k–means method in the vector space of frequencies characteristics of semantic fields has been proposed. The effectiveness of semantic cluster analysis for investigation of text documents classifications, particularly authorship has been shown.

Кластерний аналіз повідомлень груп новин у просторі семантичних ознак

Проаналізовано кластеризацію текстових повідомлень груп новин на основі моделі векторного простору із базисом, утвореним семантичними ознаками. Як семантичні ознаки розглянуто частотні характеристики семантичних та тематичних полів. Показано ефективність запропонованої моделі у тематичному аналізі неструктурованих текстових повідомлень.