МАТЕМАТИЧНА МОДЕЛЬ ІДЕНТИФІКАЦІЇ ПОМИЛОК В ТЕКСТАХ УКРАЇНОМОВНОГО КОНТЕНТУ

https://doi.org/10.23939/ujit2025.02.120
Надіслано: Квітень 29, 2025
Переглянуто: Вересень 28, 2025
Прийнято: Жовтень 30, 2025

Цитування за ДСТУ: Федчук Р. Б., Висоцька В. А. Математична модель ідентифікації помилок в текстах україномовного контенту. Український журнал інформаційних технологій. 2025, т. 7, № 2. С. 120–131.
Citation APA: Fedchuk, R. B., & Vysotska, V. A. (2025). Mathematical model of errors identification in texts of Ukrainian content. Ukrainian Journal of Information Technology, 7(2), 120–131. https://doi.org/10.23939/ujit2025.02.120

1
Національний університет «Львівська політехніка», кафедра інформаційних систем та мереж, Україна
2
Національний університет «Львівська політехніка», кафедра інформаційних систем та мереж, Україна

Проблема автоматизованого виявлення помилок у текстах українською мовою набуває особливої актуальності в умовах зростання обсягів цифрового контенту. Розроблено математичну модель системи підтримки прийняття рішень для виявлення помилок в україномовних текстах. Досліджено процес ідентифікації помилок як задачу багатокласової класифікації на рівні токенів з урахуванням контексту тексту. Запропоновано використання ймовірнісних моделей для визначення типу помилки залежно від оточення токенів у тексті. Виявлено доцільність формування навчальних вибірок, що містять як реальні, так і штучно створені помилки, для забезпечення збалансованості навчального процесу. Встановлено ефективність підходів до векторизації текстів із урахуванням морфологічної та синтаксичної структури української мови, що підвищує точність роботи моделі. З’ясовано, що інтеграція контекстуальної інформації суттєво покращує результати ідентифікації помилок. Побудовано детальні DFD-діаграми, які формалізують процеси функціонування системи та взаємодію її компонентів. Проведено експериментальне навчання моделі ukr-roberta-base на корпусі UA-GEC для завдання ідентифікації помилок в українських текстах. Отримано такі результати якості моделі: F1 – 0.736, accuracy – 0.76, precision – 0.85, recall – 0.65. Надано приклади роботи моделі на тестових даних. Виявлено, що модель уже навчилась виявляти пунктуаційні та базові орфографічні помилки, що свідчить про її ефективність і перспективи подальшого розвитку. Перспективами подальших досліджень є масштабування розробленої моделі та її адаптація для розширення покриття складніших типів мовних помилок.

1. Bryant, C., Yuan, Z., Qorib, M. R., Cao, H., Ng, H. T., & Briscoe, T. (2023). Grammatical Error Correction: A Survey of the State of the Art. Computational Linguistics, 49(3), 643–701. https://doi.org/10.48550/arXiv.2211.05166, https://doi.org/10.1162/coli_a_00478
2. Smith, O. B., Ilori, J. O., & Onesirosan, P. (1984). The proximate composition and nutritive value of the winged bean Psophocarpus tetragonolobus (L.) DC for broilers. Animal Feed Science and Technology, 11(1), 231–237. https://doi.org/ 10.1016/0377-8401(84)90066-X
3. Grammarly Inc. Free Grammar Checker. Retrieved from: https://www.grammarly.com/grammar-check
4. Meet UA-GEC – a grammar correction dataset for the Ukrainian language. Retrieved from: https://dou.ua/forums/topic/33272/
5. Syvokon, O., Nahorna, O., Kuchmiichuk, P., & Osidach, N. (2023). UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language. Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP), 96–102. https://doi.org/10.18653/v1/2023.unlp-1.12
6. Syvokon, O., & Nahorna, O. (2021). UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language. ArXiv. https://doi.org/10.48550/arXiv.2103.16997
7. Writing correctly is easy. OnlineCorrector. Retrieved from: https://onlinecorrector.com.ua/ [in Ukrainian]
8. Omelianchuk, K., Atrasevych, V., Chernodub, A. N., & Skurzhanskyi, O. (2020). GECToR – Grammatical Error Correction: Tag, Not Rewrite. ArXiv. https://doi.org/ 10.48550/ arXiv.2005.12592, https://doi.org/10.18653/v1/2020.bea-1.16
9. HuggingFace. Transformers Documentation. Retrieved from: https://huggingface.co/docs/transformers/index
10. Katinskaia, A., & Yangarber, R. (2024). GPT-3.5 for Grammatical Error Correction. ArXiv. https://doi.org/10.48550/ arXiv.2405.08469
11. Luhtaru, A., Korotkova, E., & Fishel, M. (2024). No Error Left Behind: Multilingual Grammatical Error Correction with Pre-trained Translation Models. Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers), 1209–1222. Association for Computational Linguistics. https://doi.org/10.18653/v1/ 2024.eacl-long.73
12. Shvedova, M., et al. (2017–2022). General Regionally Annotated Corpus of Ukrainian Language (GRAC). Network for Ukrainian Studies Jena. ArXiv. https://doi.org/10.48550/arXiv.1911.02116
13. Ukrainian RoBERTa base model. Hugging Face. Retrieved from: https://huggingface.co/youscan/ukr-roberta-base
14. Kaggle. Learn Documentation. Retrieved from: https://www. kaggle.com/learn
15. Stanza – A Python NLP Package for Many Human Languages. Stanford NLP Group. Retrieved from https://stanfordnlp. github.io/stanza