Інформаційні технології вирішення задачі виправлення помилок в україномовних текстах

2024;
: cc. 11 - 34
1
Національний університет «Львівська політехніка», кафедра інформаційних систем та мереж
2
Національний університет "Львівська політехніка", кафедра інформаційних систем та мереж; Університет Оснабрюка, Інститут комп’ютерних наук, Німеччина

Ця стаття присвячена дослідженню та аналізу задач виправлення граматичних помилок у текстах українською мовою, що є важливою проблемою в сфері опрацювання природної мови. У статті розглядаються специфічні виклики, які постають перед системами автоматичного виправлення помилок, зумовлені особливостями української мови, такими як морфологічна складність. Наведено приклади типових помилок та проаналізовано, чому існуючі методи виправлення граматичних помилок часто виявляються недостатніми для української мови. Огляд літератури охоплює останні дослідження та публікації у сфері виправлення граматичних помилок, зокрема ті, що стосуються інших мов, та висвітлює підходи, які можуть бути адаптовані для української мови. Особливу увагу приділено аналізу наявних корпусів текстів українською мовою, таких як UA_GEC та інші, що використовуються для тренування моделей машинного навчання. Описано їхній обсяг, типи текстів та специфікації, а також їхні переваги та недоліки. Розглянуто інструменти для опрацювання природної мови, що підтримують українську мову, такі як LanguageTool, NLP-uk, Stanza, NLP-Cube, pymorphy2, Tree_stam. Проаналізовано їх функціональні можливості, продуктивність та описано перенавчені моделі машинного навчання, включаючи mBART50, mT5, що були адаптовані для української мови, та їхню ефективність у задачах виправлення граматичних помилок. У статті представлено практичні аспекти застосування цих моделей та корпусів для автоматичного виправлення граматичних помилок в текстах українською мовою. Детально описано процес адаптації моделей до специфіки української мови, наведено приклади практичних кейсів та проведено аналіз результатів. Значну частину статті присвячено опису одного з варіантів розроблення системи підтримки прийняття рішень для виправлення помилок у текстах українською мовою. Наведено архітектуру системи, її основні компоненти та процеси, що реалізовані за допомогою UML діаграм. Описано вхідні та вихідні дані, а також надано аналіз отриманих результатів, що демонструють ефективність запропонованих рішень. Результати цього дослідження можуть бути корисними для розробників NLP-систем, дослідників у сфері опрацювання текстів та освітніх установ, які займаються вдосконаленням якості письмових текстів українською мовою.

  1. Bryant, C., Yuan, Z., Qorib, M. R., Cao, H., Ng, H. T., & Briscoe, T. (2023). Grammatical Error Correction: A Survey of the State of the Art. Computational Linguistics, 49(3), 643–701. DOI: 10.48550/arXiv.2211.05166.
  2. Smith, O. B., Ilori, J. O., Onesirosan, P. (1984). The proximate composition and nutritive value of the winged bean Psophocarpus tetragonolobus (L.) DC for broilers. Anim. Feed Sci. Technol., 11: 231–237
  3. Chomsky, N. (1961). On the notion” rule of grammar” (pp. 155–210), USA: American Mathematical Society.
  4. Naghshnejad, M.; Joshi, T.; Nair, V.N. (2020) Recent Trends in the Use of Deep Learning Models for Grammar Error Handling, arXiv:2009.02358.
  5. Brockett, C., Dolan, W. B., & Gamon, M. (2006). Correcting ESL Errors Using Phrasal SMT Techniques. Association for Computational Linguistics, Proceedings of the 21st Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, 249–256. DOI: 10.3115/1220175.1220207
  6. Yoshimoto, I., Kose, T., Mitsuzawa, K., Sakaguchi, K., Mizumoto, T., Hayashibe, Y., Komachi, M., & Matsumoto, Y. (2013). NAIST at 2013 CoNLL Grammatical Error Correction Shared Task. Association for Computational Linguistics, 26–33. https://aclanthology.org/W13-3604
  7. Felice, M., Yuan, Z., Andersen, E., Yannakoudakis, H., & Kochmar, E. (2014). Grammatical error correction using hybrid systems and type filtering. Association for Computational Linguistics, 15–24. DOI:10.3115/v1/W14-1702
  8. Junczys-Dowmunt, M., & Grundkiewicz, R. (2014). The AMU System in the CoNLL-2014 Shared Task: Grammatical Error Correction by Data-Intensive and Feature-Rich Statistical Machine Translation. Association for Computational Linguistics, Proceedings of the Eighteenth Conference on Computational Natural Language Learning: Shared Task, 25–33. https://doi.org/10.3115/v1/W14-1703
  9. Cho, K., Merriënboer, B. V., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. Association for Computational Linguistics, 1724–1734. https://doi.org/10.3115/v1/D14-1179.
  10. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need. https://doi.org/10.48550/arXiv.1706.03762
  11. Wolf, T.; Debut, L.; Sanh, V.; Chaumond, J.; Delangue, C.; Moi, A.; Cistac, P.; Rault, T.; Louf, R.; Funtowicz, M.; et al. (2020). Transformers: State-of-the-Art Natural Language Processing. Association for Computational Linguistics, 38–45. https://doi.org/10.18653/v1/2020.emnlp-demos.6
  12. We believe that anyone can write beautifully and professionally. LanguageTool. https://languagetool.org/about
  13. LanguageTool API NLP UK. Github. https://github.com/brown-uk/nlp_uk
  14. Stanza – A Python NLP Package for Many Human Languages. Stan for DNLP. https://stanfordnlp.github.io/stanza
  15. NLP-Cube. Github. https://github.com/adobe/NLP-Cube.
  16. Pymorphy. Github. https://github.com/pymorphy2/pymorphy2
  17. Tree_stem. Github. https://github.com/amakukha/stemmers_ukrainian
  18. MT5: Multilingual T5. Github. https://github.com/google-research/multilingual-t5
  19. Multilingual Machine Translation. https://github.com/facebookresearch/fairseq/tree/main/examples/m2m_100
  20. MBART50. https://github.com/facebookresearch/fairseq/tree/main/examples/multiling... models
  21. Ukrainian Roberta base model. Hugging Face. https://huggingface.co/youscan/ukr-roberta-base
  22. Uk-punctcase model. Hugging Face. https://huggingface.co/ukr-models/uk-punctcase
  23. Ukrainian model to restore punctuation and capitalization. https://huggingface.co/dchaplinsky/ punctuation_uk_bert
  24. XML Roberta Base Uk model. Hugging Face. https://huggingface.co/ukr-models/xlm-roberta-base-uk
  25. Chaplynskyi, D. (2023). Introducing UberText 2.0: A Corpus of Modern Ukrainian at Scale. Association for Computational Linguistics, Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP), 1–10. https://doi.org/10.18653/v1/2023.unlp-1.1
  26. Abadji, J., Suarez, P. O., Romary, L., & Sagot, B. (2022). Towards a Cleaner Document-Oriented Multilingual Crawled Corpus. European Language Resources Association, Proceedings of the Thirteenth Language Resources and Evaluation Conference, 4344–4355. https://aclanthology.org/2022.lrec-1.463
  27. Darchuk, N. (2017). Possibilities of semantic marking of the corpus of the Ukrainian language (KUM). Digital Repository Dragomanov Ukrainian State University. https://enpuir.npu.edu.ua/handle/123456789/17838
  28. Shvedova, M., et al. (2017-2022). General Regionally Annotated Corpus of Ukrainian Language (GRAC). Network for ukrainian studies jena. https://doi.org/10.48550/arXiv.1911.02116
  29. BRUK: Braunskyi korpus ukrainskoi movy. Github. https://github.com/brown-uk/corpus
  30. Kotsyba N., et al. (2018). Laboratorija ukrajins’koji. https://mova.institute/
  31. UA-GEC. URL: https://github.com/grammarly/ua-gec
  32. Syvokon, O., & Nahorna, O. (2021). UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language. https://doi.org/10.48550/arXiv.2103.16997
  33. Syvokon O., Nahorna O., Kuchmiichuk P. & Osidach N. (2023). UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language. Association for Computational Linguistics, Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP), 96–102. https://doi.org/10.18653/v1/2023.unlp- 1.12
  34. Bondarenko, M., et.al. (2023). Omparative Study of Models Trained on Synthetic Data for Ukrainian Grammatical Error Correction. Association for Computational Linguistics, Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP), 103–113. https://doi.org/10.18653/v1/2023.unlp-1.13
  35. Romanyshyn M. (2023) Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP). Association for Computational Linguistics. https://aclanthology.org/2023.unlp-1.pdf
  36. Didenko, B., & Sameliuk, A. (2023). RedPenNet for Grammatical Error Correction: Outputs to Tokens, Attentions to Spans. Association for Computational Linguistics, Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP), 121–131. https://doi.org/10.18653/v1/2023.unlp-1.15
  37. Gomez, F. P., Rozovskaya, A., & Roth, D. (2023). A Low-Resource Approach to the Grammatical Error Correction of Ukrainian. Association for Computational Linguistics, Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP), 114–120. https://doi.org/10.18653/v1/2023.unlp-1.14.
  38. Vysotska, V. (2024). Linguistic intellectual analysis methods for Ukrainian textual content processing. CEUR Workshop Proceedings. https://ceur-ws.org/Vol-3722/paper25.pdf.
  39. Vysotska, V. (2024). Linguistic intellectual analysis methods for Ukrainian textual content processing. CEUR Workshop Proceedings. https://ceur-ws.org/Vol-3722/paper18.pdf.
  40. Vysotska, V., Holoshchuk, S., & Holoshchuk, R. (2021). A Comparative Analysis for English and Ukrainian Texts Processing Based on Semantics and Syntax Approach. https://ceur-ws.org/Vol-2870/paper26.pdf.
  41. Vysotska, V. (2024). Computer Linguistic Systems Design and Development Features for Ukrainian Language Content Processing. In COLINS (3) (pp. 229–271). https://ceur-ws.org/Vol-3688/paper18.pdf.
  42. Kholodna, N., et.al. (2022, November). Machine Learning Model for Paraphrases Detection Based on Text Content Pair Binary Classification. In MoMLeT+ DS (pp. 283–306). https://ceur-ws.org/Vol-3312/paper23.pdf
  43. Lytvyn, V., et.al. (2023). Identification and Correction of Grammatical Errors in Ukrainian Texts Based on Machine Learning Technology. Mathematics, 11(4), 904. DOI: 10.3390/math11040904
  44. Kholodna, N., et.al. (2021). A Machine Learning Model for Automatic Emotion Detection from Speech. In MoMLeT+ DS (pp. 699–713). https://ceur-ws.org/Vol-2917/paper42.pdf.
  45. Kholodna, N., et.al. (2023). Technology for grammatical errors correction in Ukrainian text content based on machine learning methods. Radio Electronics, Computer Science, Control, 1, 114. 10.15588/1607-3274-2023-1-12