опрацювання природної мови

SED-UA-small: україномовний синтетичний набір даних для моделей вбудовування тексту

У даній роботі представлено Small Synthetic Embedding Dataset, повністю синтетичний набір даних українською мовою, розроблений для навчання, донавчання та оцінки моделей вбудовування текстів. Використання великих мовних моделей дозволяє контролювати різноманітність згенерованих даних за такими аспектами, як NLP-задачі, асиметричність між запитами та документами, наявність інструкцій, підтримка різних мов та уникнення соціальних зміщень.

Система автоматизованого аналізу природномовних текстів з використанням трансформерів

Статтю присвячено дослідженню розроблення системи автоматизованого аналізу медичних текстів з використанням сучасних технологій штучного інтелекту та опрацювання природної мови. Проаналізовано сучасний стан та перспективи розвитку в галузі автоматизованого аналізу медичних текстів. Розглянуто основні методи та технології, які використовуються у цій сфері, зокрема машинне навчання, глибинне навчання та опрацювання природної мови. Виявлено, що існуючі системи мають певні обмеження щодо точності та швидкості аналізу, а також недостатньо враховують специфіку медичної термінології та контексту.

Розроблення єдиного формату вихідних даних для текстових парсерів в системі побудови онтології з текстових документів

Проблема відсутності ефективних засобів побудови онтологій з текстових документів все ще залишається невирішеною. Її розв’язання стикається з низкою викликів, зокрема, відсутністю єдиного формату вихідних даних різних NLP інструментів, зокрема текстових парсерів, які є першою ланкою в багатоетапному процесі видобування знань. На сьогоднішній день існує декілька популярних текстових парсерів, кожен з яких має свої особливості та переваги у реалізації окремих функцій.

Порівняння та кластеризація джерел текстової інформації на основі алгоритму косинусної подібності

У цій статті представлено дослідження, спрямоване на розроблення оптимальної концепції аналізу та порівняння джерел інформації на основі великих обсягів текстової інформації з використанням методів опрацювання природної мови. Об’єктом дослідження стали канали новин Telegram, які використовуються як джерела текстових даних. Була проведене попереднє опрацювання текстів, включаючи очищення, токенізацію та лематизацію, щоб сформувати глобальний словник, що складається з унікальних слів з усіх джерел інформації.

СИСТЕМА ПІДТРИМКИ ПРИЙНЯТТЯ РІШЕНЬ ВИЯВЛЕННЯ ДЕЗІНФОРМАЦІЇ, ФЕЙКІВ ТА ПРОПАГАНДИ НА ОСНОВІ МАШИННОГО НАВЧАННЯ

Внаслідок спрощення процесів створення та поширення новин через інтернет, а також через фізичну неможливість перевірки великих обсягів інформації, що циркулює у мережі, значно зросли обсяги поширення дезінформації та фейкових новин. Побудовано систему підтримки прийняття рішень щодо виявлення дезінформації, фейків та пропаганди на основі машинного навчання. Досліджено методику аналізу тексту новин для ідентифікації фейку та передбачення виявлення дезінформації в текстах новин. У зв’язку з цим виявлення неправдивих новин стає критичним завданням.

Інтелектуальна система передбачення фейкових новин на основі технологій NLP та машинного навчання

У статті описано дослідження ідентифікації фейкових новин на основі опрацювання природної мови, аналізу великих даних і технології глибокого навчання. Розроблена система автоматично перевіряє новини на наявність ознак фейкових новин, таких як використання маніпулятивної мови, неперевірених джерел і недостовірної інформації. Візуалізація даних реалізована на основі дружнього інтерфейсу користувача, який відображає результати аналізу новин у зручному та зрозумілому форматі.

Інтелектуальна система комплексного аналізу військової інформації на основі машинного навчання та NLP для допомоги командирам тактичних ланок

В статті описано результати дослідження процесів комплексного аналізу військової інформації на основі машинного навчання та опрацювання природньої мови для допомоги командирам тактичних ланок. Система повинна дозволяти користувачам мати наступні можливості: об’єднання словника та інформаційного матеріалу, додавання термінів та абревіатур в словник, класифікація об’єктів для радіотехнічної розвідки, візуалізація повітряних об’єктів, класифікація повітряних об’єктів, користування інформаційними матеріалами, організування інформаційних матеріалів.

Метод формування набору даних для перевірки якості вивчення мовними моделями транзитивного відношення у контексті задачі логічного висновку

Розроблено метод формування набору даних для перевірки вивчення готовими моделями залежності транзитивності. Сформований набір даних використано для тестування якості вивчення моделями залежності транзитивності у задачі логічного висновку (NLI). Тестування набору даних розміром 10 000 зразків (MultiNLI) відбувалось на моделі RoBerta. Також досліджено, що у задачі логічного висновку клас подібний є більш спрямованим, ніж протиріччя і нейтральний.

Побудова системи діалогу студент-ПК на базі природної мови обміну з використанням середовища Java

Проведено огляд і здійснено аналіз засобів обробки природної мови (ОПМ). Визначено глобальний критерій оцінювання ефективності засобів ОПМ. Подано рекомендації щодо доцільності використання засобів ОПМ.

Розпізнавання багатослівних конструкцій

Розглянуто проблему багатослівних конструкцій, яка відіграє дуже важливу роль у технології обробки природної мови. Багатослівні конструкції – це вирази, які складаються з щонайменше двох слів і можуть бути синтаксично і/або семантично ідіосинкратичними. Це зокрема складені іменники, ідіоми і фразові дієслова. У цій роботі досліджено сучасні підходи до класифікації багатослівних конструкцій, їхньої ідентифікації та видобування з текстів.