опрацювання природної мови | Наукові журнали та конференції

ДОСЛІДЖЕННЯ ПОВТОРЮВАНОСТІ ДЛЯ НАЙПРОСТІШИХ РАНДОМНИХ МОДЕЛЕЙ ПРИРОДНОЇ МОВИ

У статті вирішується актуальна проблема опрацювання природної мови – розроблення методів оцінювання повторюваності в текстових документах і емпіричне з’ясування ресурсів цих методів для аналізу наявності семантичного навантаження текстів. Досі для цього переважно залучали підходи, основані на закономірностях статистичної лінгвістики на зразок законів Ціпфа, Парето та Гіпса, а також аналіз явищ кластеризації слововживань і довгосяжних кореляцій лексики. Ми розробили програмне забезпечення для кількісного дослідження повторюваності в текстах за алгоритмом дерев суфіксів Укконена.

Алгоритм пошуку шаблонів у графовому поданні текстових даних для системи побудови онтології

У статті представлено розроблення та формалізацію алгоритму пошуку шаблонів у графових представленнях текстових даних як ключового компонента синтаксико-семантичних трансформацій для побудови онтологій із текстових документів. Розглянуто проблему поєднання опрацювання природної мови та логічного формалізму шляхом запропонування універсального механізму на основі SPARQL для виконання правил трансформації на серверах графових баз даних.

SED-UA-small: україномовний синтетичний набір даних для моделей вбудовування тексту

У даній роботі представлено Small Synthetic Embedding Dataset, повністю синтетичний набір даних українською мовою, розроблений для навчання, донавчання та оцінки моделей вбудовування текстів. Використання великих мовних моделей дозволяє контролювати різноманітність згенерованих даних за такими аспектами, як NLP-задачі, асиметричність між запитами та документами, наявність інструкцій, підтримка різних мов та уникнення соціальних зміщень.

Система автоматизованого аналізу природномовних текстів з використанням трансформерів

Статтю присвячено дослідженню розроблення системи автоматизованого аналізу медичних текстів з використанням сучасних технологій штучного інтелекту та опрацювання природної мови. Проаналізовано сучасний стан та перспективи розвитку в галузі автоматизованого аналізу медичних текстів. Розглянуто основні методи та технології, які використовуються у цій сфері, зокрема машинне навчання, глибинне навчання та опрацювання природної мови. Виявлено, що існуючі системи мають певні обмеження щодо точності та швидкості аналізу, а також недостатньо враховують специфіку медичної термінології та контексту.

Розроблення єдиного формату вихідних даних для текстових парсерів в системі побудови онтології з текстових документів

Проблема відсутності ефективних засобів побудови онтологій з текстових документів все ще залишається невирішеною. Її розв’язання стикається з низкою викликів, зокрема, відсутністю єдиного формату вихідних даних різних NLP інструментів, зокрема текстових парсерів, які є першою ланкою в багатоетапному процесі видобування знань. На сьогоднішній день існує декілька популярних текстових парсерів, кожен з яких має свої особливості та переваги у реалізації окремих функцій.

Порівняння та кластеризація джерел текстової інформації на основі алгоритму косинусної подібності

У цій статті представлено дослідження, спрямоване на розроблення оптимальної концепції аналізу та порівняння джерел інформації на основі великих обсягів текстової інформації з використанням методів опрацювання природної мови. Об’єктом дослідження стали канали новин Telegram, які використовуються як джерела текстових даних. Була проведене попереднє опрацювання текстів, включаючи очищення, токенізацію та лематизацію, щоб сформувати глобальний словник, що складається з унікальних слів з усіх джерел інформації.

СИСТЕМА ПІДТРИМКИ ПРИЙНЯТТЯ РІШЕНЬ ВИЯВЛЕННЯ ДЕЗІНФОРМАЦІЇ, ФЕЙКІВ ТА ПРОПАГАНДИ НА ОСНОВІ МАШИННОГО НАВЧАННЯ

Внаслідок спрощення процесів створення та поширення новин через інтернет, а також через фізичну неможливість перевірки великих обсягів інформації, що циркулює у мережі, значно зросли обсяги поширення дезінформації та фейкових новин. Побудовано систему підтримки прийняття рішень щодо виявлення дезінформації, фейків та пропаганди на основі машинного навчання. Досліджено методику аналізу тексту новин для ідентифікації фейку та передбачення виявлення дезінформації в текстах новин. У зв’язку з цим виявлення неправдивих новин стає критичним завданням.

Інтелектуальна система передбачення фейкових новин на основі технологій NLP та машинного навчання

У статті описано дослідження ідентифікації фейкових новин на основі опрацювання природної мови, аналізу великих даних і технології глибокого навчання. Розроблена система автоматично перевіряє новини на наявність ознак фейкових новин, таких як використання маніпулятивної мови, неперевірених джерел і недостовірної інформації. Візуалізація даних реалізована на основі дружнього інтерфейсу користувача, який відображає результати аналізу новин у зручному та зрозумілому форматі.

Інтелектуальна система комплексного аналізу військової інформації на основі машинного навчання та NLP для допомоги командирам тактичних ланок

В статті описано результати дослідження процесів комплексного аналізу військової інформації на основі машинного навчання та опрацювання природньої мови для допомоги командирам тактичних ланок. Система повинна дозволяти користувачам мати наступні можливості: об’єднання словника та інформаційного матеріалу, додавання термінів та абревіатур в словник, класифікація об’єктів для радіотехнічної розвідки, візуалізація повітряних об’єктів, класифікація повітряних об’єктів, користування інформаційними матеріалами, організування інформаційних матеріалів.

Метод формування набору даних для перевірки якості вивчення мовними моделями транзитивного відношення у контексті задачі логічного висновку

Розроблено метод формування набору даних для перевірки вивчення готовими моделями залежності транзитивності. Сформований набір даних використано для тестування якості вивчення моделями залежності транзитивності у задачі логічного висновку (NLI). Тестування набору даних розміром 10 000 зразків (MultiNLI) відбувалось на моделі RoBerta. Також досліджено, що у задачі логічного висновку клас подібний є більш спрямованим, ніж протиріччя і нейтральний.