keywords

Метод лінгвістичного аналізу україномовного комерційного контенту

Розв’язано науково-практичну задачу автоматичного виявлення значущих ключових слів та рубрикації україномовного контенту в інтернет-системах на основі методу лінгвістичного аналізу текстової інформації. Наведено теоретичне та експериментальне обґрунтування методу лінгвістичного аналізу україномовного контенту з використанням стемінгу Портера.

Експериментальне дослідження пошуку значущих ключових слів україномовного контенту

Проведено порівняльне експериментальне дослідження методів пошуку значущих ключових слів україномовного контенту. В основу підходу до автоматичного визначення ключових слів покладено стемінг Портера слів української мови за відстанню Левенштейна, враховано можливості використання тематичного словника та вилучення заблокованих слів. На експериментальній базі зі 100 наукових публікацій технічного спрямування порівняно з авторськими варіантами отримано числові статистичні характеристики точності результатів пошуку.