Розглянуто класифікацію повідомлень груп новин у просторі семантичних полів. Проаналізовано ефективність баєсівського класифікатора та класифікатора за найближчими сусідами для різних навчальних та тестових вибірок повідомлень. Показано існування підмножини груп новин, для яких використання аналізованих класифікаторів є ефективним.
The classification of newsgroup messages in the space of semantic fields has been considered in this work. The effectiveness of Bayesian and nearest neighbors classifier for different training and test samples of messages has been analysed. The existence of a subset of newsgroups for which the use of analyzed classifiers is effective has been shown.
- Павлишенко Б. М. Використання концепції семантичного поля у векторній моделі текстових документів // Східно-Європейський журнал передових технологій. – 2011. – № 6/2(54). – С. 7–11.
- Павлишенко Б. М. Ієрархічна кластеризація текстових документів у векторному просторі семантичних полів // Електроніка та інформаційні технології. –2011. – Вип. 1. – С .212–222.
- Павлишенко Б. М. Сингулярна декомпозиція матриці семантичних ознак в алгоритмі ієрархічної кластеризації текстових масивів // Математичні машини і системи. – 2012. – № 1. – С. 69–76.
- Pantel Patrick, Turney Peter D. From Frequency to Meaning: Vector Space Models of Semantics // Journal of Artificial Intelligence Research.–2010.–vol.37.–pp.141-188.
- Fellbaum C. WordNet. An Electronic Lexical Database. Cambridge, MA: MIT Press, 1998, 432p.
- Gliozzo Alfio, Strapparava Carlo. Semantic Domains in Computational Linguistics. Springer, 2009 – 132 p.
- Брасегян А.А., Куприянов М.С., Холод И.И., Тесс М.Д., Елизаров С.И. Анализ данных и процессов: учеб. Пособие.– СПб.: БХВ–Петербург, 2009.-512с.: ил.
- Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. – 2002. – Vol. 34, № 1. – pp. 1–47.
- Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. – 496 p.