трансформери

Інтелектуальний аналіз текстових даних у соціальних мережах із використанням BERT і XGBoost

У цій статті представлено комплексний підхід до аналізу настроїв у соціальних мережах із застосуванням сучасних методів опрацювання тексту та алгоритмів машинного навчання. Основний фокус — інтеграція моделі Sentence-BERT для векторизації тексту та XGBoost для класифікації настроїв. Використовуючи набір даних Sentiment140, було проведено широке дослідження текстових повідомлень, позначених анотаціями настроїв. Модель Sentence-BERT дозволяє генерувати високоякісні векторні представлення текстових даних, зберігаючи як лексичні, так і контекстуальні зв’язки між словами.

Метод формування набору даних для перевірки якості вивчення мовними моделями транзитивного відношення у контексті задачі логічного висновку

Розроблено метод формування набору даних для перевірки вивчення готовими моделями залежності транзитивності. Сформований набір даних використано для тестування якості вивчення моделями залежності транзитивності у задачі логічного висновку (NLI). Тестування набору даних розміром 10 000 зразків (MultiNLI) відбувалось на моделі RoBerta. Також досліджено, що у задачі логічного висновку клас подібний є більш спрямованим, ніж протиріччя і нейтральний.