векторизація тексту

Інформаційна технологія з визначення токсичності у тексті

У представленій роботі досліджено проблему автоматизації виявлення агресивних висловлювань в українському сегменті інтернету, що є критично важливим через дефіцит спеціалізованих лінгвістичних ресурсів для цієї мови. Основний фокус уваги було приділено створенню та випробуванню інформаційної технології, здатної ефективно класифікувати токсичні повідомлення за допомогою моделей основних алгоритмів машинного навчання. Для проведення експериментів було сформовано набір даних із 4600 записів, у яких об’єднано дані з платформ YouTube та Google Play із відкритими датасетами.

Інтелектуальний аналіз текстових даних у соціальних мережах із використанням BERT і XGBoost

У цій статті представлено комплексний підхід до аналізу настроїв у соціальних мережах із застосуванням сучасних методів опрацювання тексту та алгоритмів машинного навчання. Основний фокус — інтеграція моделі Sentence-BERT для векторизації тексту та XGBoost для класифікації настроїв. Використовуючи набір даних Sentiment140, було проведено широке дослідження текстових повідомлень, позначених анотаціями настроїв. Модель Sentence-BERT дозволяє генерувати високоякісні векторні представлення текстових даних, зберігаючи як лексичні, так і контекстуальні зв’язки між словами.