Інформаційні технології корекції помилок в україномовних текстах з використанням методів машинного навчання

2025;
: cc. 43 - 57
1
Національний університет «Львівська політехніка», кафедра інформаційних систем та мереж
2
Національний університет «Львівська політехніка», кафедра інформаційних систем та мереж; Університет Оснабрюка, Інститут комп’ютерних наук, Німеччина

Актуальність дослідження зумовлена зростаючою потребою в автоматизації процесів аналізу та корекції текстів, зокрема для україномовного контенту, який відзначається багатством морфологічної і синтаксичної структури. Через широкий спектр помилок, що можуть виникати у текстах, від орфографічних до контекстуальних, існує нагальна потреба у створенні систем, здатних точно ідентифікувати помилки та пропонувати їх коректні виправлення. Специфіка української мови, включаючи складність її граматики та багатогранність, потребує адаптації моделей машинного навчання до локальних особливостей. Метою дослідження є розроблення математичної моделі системи підтримки прийняття рішень для ідентифікації та корекції помилок в україномовних текстах. Завдання включає як формалізацію та математичне описання процесу опрацювання текстів, так і побудову моделі з орієнтацією на задачі класифікації та генерації тексту. Особлива увага приділена ефективному врахуванню специфічних для української мови структурних особливостей із метою підвищення точності та продуктивності системи. Метод дослідження базуються на побудові математичної моделі корекції помилок, яка представлена як задача генерації тексту із врахуванням контексту. У дослідженні було використано статистичні методи та підходи машинного навчання. Особливу увагу присвячено формуванню навчальної вибірки, в якій поєднано тексти з реальними та штучними помилками для забезпечення збалансованого навчального процесу. У модулі корекції включено механізми генерації, що базуються на контекстуальних моделях, здатних передбачати правильне виправлення для помилкових токенів. Математично обґрунтовано підходи до векторизації текстів, враховуючи особливості морфології та синтаксису української мови. Побудована модель є універсальною основою для створення інтелектуальних систем автоматичного редагування україномовного тексту. У результаті проведеного дослідження сформульовано й математично обґрунтовано підходи до побудови моделі корекції помилок в україномовних текстах. Основним результатом стало створення інтегрованої системи, яка використовує контекстуальну інформацію для забезпечення високої точності розпізнавання помилок і їх виправлення. Застосовані математичні методи охоплюють ймовірнісні підходи та векторне представлення токенів, що дозволяє адаптувати систему до особливостей української мови з її високою морфологічною та синтаксичною складністю. Сформована основа моделі створює можливості для масштабування та подальшого використання у практичних завданнях, таких як автоматичне редагування текстів або підвищення якості контенту в україномовному середовищі.

  1. Bryant, C., Yuan, Z., Qorib, M. R., Cao, H., Ng, H. T., & Briscoe, T. (2023). Grammatical error correction: A survey of the state of the art. Computational Linguistics, 49(3), 643–701. doi:https://doi.org/10.48550/arXiv.2211.05166.
  2. Brovinska, M. (2024). I waited eight years for Grammarly to support Ukrainian. Dev.ua. Retrieved from https://dev.ua/news/ai-servisy-1706885687
  3. Fedchuk, R., & Vysotska, V. (2024). Current trends in the use of machine learning for error correction in Ukrainian texts. Qeios, Article ID N4VGBJ, 1–18. doi:https://doi.org/10.32388/n4vgbj
  4. Grammarly Inc. (n.d.). About us. Retrieved from https://www.grammarly.com/about Grammarly. (n.d.). UA-GEC. Retrieved from https://github.com/grammarly/ua-gec
  5. Huang, M., & Fan, R. (2025). Influence of translation errors on information perception in East Slavic languages (Ukrainian–Russian; Russian–Ukrainian). Zeitschrift für Slawistik, 70(1), 141–160. doi:https://doi.org/10.1515/slaw-2025-0006
  6. Kholodna, N., & Vysotska, V. (2023). Technology for grammatical errors correction in Ukrainian text content based on machine learning methods. Radio Electronics, Computer Science, Control, 1, 114. doi:https://doi.org/10.15588/1607-3274-2023-1-12
  7. LanguageTool. (n.d.). We believe that anyone can write beautifully and professionally. Retrieved from https://languagetool.org/about
  8. LanguageTool Community. (n.d.). Error rules for LanguageTool. Retrieved from https://community. languagetool.org/rule/list?lang=uk
  9. Lytvyn, V., Pukach, P., Vysotska, V., Vovk, M., & Kholodna, N. (2023). Identification and correction of grammatical errors in Ukrainian texts based on machine learning technology. Mathematics, 11(4), 904. doi:https://doi.org/10.3390/math11040904
  10. NLP UK. (n.d.). LanguageTool API. GitHub. Retrieved from https://github.com/brown-uk/nlp_uk
  11. Starko, V., Rysin, A., & Shvedova, M. (2021). Ukrainian text preprocessing in GRAC. In 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT) (Vol. 2). IEEE. doi:https://doi.org/10.1109/CSIT52700.2021.9648705
  12. Syvokon, O., & Nahorna, O. (2021). UA-GEC: Grammatical error correction and fluency corpus for the Ukrainian language. arXiv. doi: https://doi.org/10.48550/arXiv.2103.16997