NLP | Наукові журнали та конференції

Концепція ІТ-проєкту для виявлення та автоматичного виправлення орфографічних помилок у німецькомовних текстах

У цій роботі представлено концепцію та технічне обґрунтування програмного продукту для автоматичного виявлення та виправлення орфографічних помилок у німецькомовних текстах. Актуальність теми зумовлена складністю німецької мови з точки зору граматики, орфографії та словотвору, що створює суттєві труднощі для носіїв інших мов. Особливо це стосується тих, хто вивчає мову або застосовує її у професійній діяльності, де точність мовлення має вирішальне значення.

Інформаційні технології корекції помилок в україномовних текстах з використанням методів машинного навчання

Актуальність дослідження зумовлена зростаючою потребою в автоматизації процесів аналізу та корекції текстів, зокрема для україномовного контенту, який відзначається багатством морфологічної і синтаксичної структури. Через широкий спектр помилок, що можуть виникати у текстах, від орфографічних до контекстуальних, існує нагальна потреба у створенні систем, здатних точно ідентифікувати помилки та пропонувати їх коректні виправлення. Специфіка української мови, включаючи складність її граматики та багатогранність, потребує адаптації моделей машинного навчання до локальних особливостей.

Intelligent test case generation from textual security requirements in SCRUM: an NLP-driven approach

This paper presents a method for automati- cally generating security-oriented test cases from textual requirements in SCRUM environments using Natural Language Processing. The proposed approach has com- bined transformer-based semantic analysis with behavior- driven development test templates to extract and translate functional, non-functional, and misuse-case security requirements. The solution has been tested on 30 real- world requirements derived from agile software projects.

Improving Amazigh POS tagging using machine learning

Tamazight, Berber, and Amazigh are the multiple names for the same language.

Evaluating machine learning models efficacy in sentiment analysis for Moroccan Darija: An exploration with MAC dataset

Sentiment analysis is an essential technique for classifying and extracting emotions from several data sets. While many basic methods distinguish between negative and positive emotions, advanced approaches may consider additional categories, such as neutral emotions. This becomes very important and difficult when we need to deal with less parsed languages and dialects, such as Moroccan Darija. Our study highlights the nuances of conducting sentiment analysis implementing the MAC dataset, which includes comments in Moroccan Darija. Our main target is to do comparativ

Метод формування набору даних для перевірки якості вивчення мовними моделями транзитивного відношення у контексті задачі логічного висновку

Розроблено метод формування набору даних для перевірки вивчення готовими моделями залежності транзитивності. Сформований набір даних використано для тестування якості вивчення моделями залежності транзитивності у задачі логічного висновку (NLI). Тестування набору даних розміром 10 000 зразків (MultiNLI) відбувалось на моделі RoBerta. Також досліджено, що у задачі логічного висновку клас подібний є більш спрямованим, ніж протиріччя і нейтральний.

Інформаційна система озвучення україномовного тексту на основі методів NLP та машинного навчання

Під час дослідження розроблено інформаційну систему озвучення україномовного тексту на основі методів NLP та машинного навчання. Створена інформаційна система реалізована у виг- ляді десктоп-додатка, який дає змогу здійснювати озвучення україномовного тексту Створення системи охоплювало всі стадії розроблення програмного забезпечення: процес проєктування, процес реалізації та процес тестування. Щоб обґрунтувати доцільність створення такої системи, ми проаналізували вже наявні програмні рішення на ринку, їхні переваги та недоліки, які ураховували, створюючи нову систему.

Overview of the Ukrainian language resources within the multilingual European MULTEXT-East project, v. 4

The article presents an overview of computational resources for the Ukrainian language within a multilingual European MULTEXT-East project (MTE, http://nl.ijs.si/ME/V4) freely available for researchers since May 2010, including a formal representation of morphosyntactic specifications consisting of 1239 unique grammatical tags in the XML, TEI-5 compatible, format and a morphosyntactic lexicon covering over 200000 wordforms with lemmas and morphosyntactic codes.