опрацювання природної мови

SED-UA-small: україномовний синтетичний набір даних для моделей вбудовування тексту

У даній роботі представлено Small Synthetic Embedding Dataset, повністю синтетичний набір даних українською мовою, розроблений для навчання, донавчання та оцінки моделей вбудовування текстів. Використання великих мовних моделей дозволяє контролювати різноманітність згенерованих даних за такими аспектами, як NLP-задачі, асиметричність між запитами та документами, наявність інструкцій, підтримка різних мов та уникнення соціальних зміщень.

Система автоматизованого аналізу природномовних текстів з використанням трансформерів

Статтю присвячено дослідженню розроблення системи автоматизованого аналізу медичних текстів з використанням сучасних технологій штучного інтелекту та опрацювання природної мови. Проаналізовано сучасний стан та перспективи розвитку в галузі автоматизованого аналізу медичних текстів. Розглянуто основні методи та технології, які використовуються у цій сфері, зокрема машинне навчання, глибинне навчання та опрацювання природної мови. Виявлено, що існуючі системи мають певні обмеження щодо точності та швидкості аналізу, а також недостатньо враховують специфіку медичної термінології та контексту.

Розроблення єдиного формату вихідних даних для текстових парсерів в системі побудови онтології з текстових документів

Проблема відсутності ефективних засобів побудови онтологій з текстових документів все ще залишається невирішеною. Її розв’язання стикається з низкою викликів, зокрема, відсутністю єдиного формату вихідних даних різних NLP інструментів, зокрема текстових парсерів, які є першою ланкою в багатоетапному процесі видобування знань. На сьогоднішній день існує декілька популярних текстових парсерів, кожен з яких має свої особливості та переваги у реалізації окремих функцій.

Порівняння та кластеризація джерел текстової інформації на основі алгоритму косинусної подібності

У цій статті представлено дослідження, спрямоване на розроблення оптимальної концепції аналізу та порівняння джерел інформації на основі великих обсягів текстової інформації з використанням методів опрацювання природної мови. Об’єктом дослідження стали канали новин Telegram, які використовуються як джерела текстових даних. Була проведене попереднє опрацювання текстів, включаючи очищення, токенізацію та лематизацію, щоб сформувати глобальний словник, що складається з унікальних слів з усіх джерел інформації.

СИСТЕМА ПІДТРИМКИ ПРИЙНЯТТЯ РІШЕНЬ ВИЯВЛЕННЯ ДЕЗІНФОРМАЦІЇ, ФЕЙКІВ ТА ПРОПАГАНДИ НА ОСНОВІ МАШИННОГО НАВЧАННЯ

Внаслідок спрощення процесів створення та поширення новин через інтернет, а також через фізичну неможливість перевірки великих обсягів інформації, що циркулює у мережі, значно зросли обсяги поширення дезінформації та фейкових новин. Побудовано систему підтримки прийняття рішень щодо виявлення дезінформації, фейків та пропаганди на основі машинного навчання. Досліджено методику аналізу тексту новин для ідентифікації фейку та передбачення виявлення дезінформації в текстах новин. У зв’язку з цим виявлення неправдивих новин стає критичним завданням.

Інтелектуальна система передбачення фейкових новин на основі технологій NLP та машинного навчання

У статті описано дослідження ідентифікації фейкових новин на основі опрацювання природної мови, аналізу великих даних і технології глибокого навчання. Розроблена система автоматично перевіряє новини на наявність ознак фейкових новин, таких як використання маніпулятивної мови, неперевірених джерел і недостовірної інформації. Візуалізація даних реалізована на основі дружнього інтерфейсу користувача, який відображає результати аналізу новин у зручному та зрозумілому форматі.

Інтелектуальна система комплексного аналізу військової інформації на основі машинного навчання та NLP для допомоги командирам тактичних ланок

В статті описано результати дослідження процесів комплексного аналізу військової інформації на основі машинного навчання та опрацювання природньої мови для допомоги командирам тактичних ланок. Система повинна дозволяти користувачам мати наступні можливості: об’єднання словника та інформаційного матеріалу, додавання термінів та абревіатур в словник, класифікація об’єктів для радіотехнічної розвідки, візуалізація повітряних об’єктів, класифікація повітряних об’єктів, користування інформаційними матеріалами, організування інформаційних матеріалів.

An Arabic question generation system based on a shared BERT-base encoder-decoder architecture

A Question Generation System (QGS) is a sophisticated piece of AI technology designed to automatically generate questions from a given text, document, or context.  Recently, this technology has gained significant attention in various fields, including education, and content creation.  As AI continues to evolve, these systems are likely to become even more advanced and viewed as an inherent part of any modern e-learning or knowledge assessment system.  In this research paper, we showcase the effectiveness of leveraging pre-trained checkpoints for Arabic questions generat