Семантична кластеризація текстових документів методом k–середніх

Authors:

Б. Павлишенко

Львівський національний університет імені Івана Франка

Запропоновано алгоритм кластеризації текстових документів методом k–середніх у векторному просторі частотних характеристик семантичних полів. Показано ефективність семантичного кластерного аналізу при вивченні класифікацій текстових документів, зокрема за авторством.

The algorithm of clusterization of text documents by k–means method in the vector space of frequencies characteristics of semantic fields has been proposed. The effectiveness of semantic cluster analysis for investigation of text documents classifications, particularly authorship has been shown.

Ким Д.О., Мьюллер Ч.У., Клекка У.Р. Факторный, дискриминантный и кластерный анализ. – М.: Финансы и статистика, 1989. – 215с.: ил.
Жамбю М. Иерархический кластер-анализ и соответсвия: пер. с фр. – М.: Финансы и статистика, 1988. – 342 с: ил.
Павлишенко Б.М. Векторизація кластерів на растрових зображеннях електронної мікроскопії. Вісник Львів. ун-ту, серія фізична. 2007р., вип.40, c117-121.
Брасегян А.А., Куприянов М.С., Холод И.И., Тесс М.Д., Елизаров С.И. Анализ данных и процессов: учеб. пособие.-СПб.: БХВ-Петербург, 2009.-512с.: ил.
Pantel Patrick, Turney Peter D. From Frequency to Meaning: Vector Space Models of Semantics. Електронний ресурс – arXiv: 1003.1141, 2010, http://arxiv.org/abs/1003.1141.
Вердиева З.Н. Семантические поля в соверменном английском языке. – М.: Высшая школа, 1986. – 120с.
Левицкий В.В., Стернин И.А. Экспериментальные методы в семасиологии. – Воронеж: Изд-во ВГУ, 1989. – 192 с.