текст

Порівняння та кластеризація джерел текстової інформації на основі алгоритму косинусної подібності

У цій статті представлено дослідження, спрямоване на розроблення оптимальної концепції аналізу та порівняння джерел інформації на основі великих обсягів текстової інформації з використанням методів опрацювання природної мови. Об’єктом дослідження стали канали новин Telegram, які використовуються як джерела текстових даних. Була проведене попереднє опрацювання текстів, включаючи очищення, токенізацію та лематизацію, щоб сформувати глобальний словник, що складається з унікальних слів з усіх джерел інформації.

Медичний термін як засіб лексичного вираження текстової категорії інформативність

Розглянуто медичний термін в аспекті сучасної теорії тексту. Описано його потенційні можливості у вираженні текстової категорії «інформативність», що витворює національну мовну картину світу і віддзеркалює специфіку наукового мислення українців.

Епістемічна модальність у науково-популярному дискурсі щодо викладання навчального матеріалу

Матеріалом цього дослідження є епістемічна модальність у науково-популярному дискурсі змісту інформаційно-оцінних висловлювань викладачів або студентів, що утворюють мовну тканину різними мовами; використовуючи різноманітні засоби вираження впевненості, сумніву й неповної впевненості в істинності повідомлюваного. Ці засоби є детермінативами, або маркерами, когнітивної діяльності суб’єкта мовлення – викладача або студента.

Метод лінгвістичного аналізу україномовного комерційного контенту

Розв’язано науково-практичну задачу автоматичного виявлення значущих ключових слів та рубрикації україномовного контенту в інтернет-системах на основі методу лінгвістичного аналізу текстової інформації. Наведено теоретичне та експериментальне обґрунтування методу лінгвістичного аналізу україномовного контенту з використанням стемінгу Портера.