У роботі вирішується актуальне завдання із вдосконалення професійного програмного забезпечення для статистичного аналізу тексту відповідно до потреб фахівців. Проаналізовано особливості і перспективи статистичних досліджень у мовознавстві та розроблено інформаційну технологію (ІТ) визначення статистичного профілю україномовних текстів. Проведено комплексну роботу над моделюванням програмної системи, яку представлено у відповідних схемах і діаграмах, що цілісно відображають функціонування та призначення розробленого продукту. Розглядаються математичні та системні основи статистичного аналізу для автоматизації професійного опрацювання текстів українською мовою, в контексті впровадження пропонованої інформаційної технології. Побудовано структурну схему проектного рішення та визначено головні вимоги до апаратного забезпечення. Розроблено компоненти інформаційної технології та запропоновано структуру програмної системи, які ґрунтуються на модульному принципі. Розроблено математичне забезпечення ІТ, яке базується на методах прикладної статистики та дає змогу визначити основні характеристики (статистичний профіль) досліджуваних україномовних текстів. Окрім цього, розроблено алгоритмічне та програмне забезпечення ІТ, для реалізації якого використано Python. Наведено результати дослідження україномовних текстів та їх статистичні профілі, продемонстровано, що розроблена інформаційна технологія забезпечує опрацювання україномовних текстів з високим рівнем автоматизації. Отримані результати можна розглядати як внесок у розвиток наукових досліджень у лінгвістиці, завдяки якому створюються умови для вивчення авторських текстів різного стилю та ефективного використання професійних навичок та знань широким колом користувачів.
[1] Bisikalo, O. V., & Kravchuk, I. A. (2010, November). Analysis of the morphological structure of the word based on the associative-statistical approach. Journal of Vinnytsia Polytechnic Institute, 4, 134–136. Retrieved from: www.visnyk.vntu.edu.ua/index.php/visnyk/article/view/1495
[2] Buk, S. N., & Rovenchak, A. A. (2004). Rank-Frequency Analysis for Functional Style Corpora of Ukrainian. Journal of Quantitative Linguistics, 11(3), 161–71. https://doi.org/10.1080/0929617042000314912
[3] Grabar, N., & Thierry, H. (2017, April). Creation of a multilingual aligned corpus with Ukrainian as the target language and its exploitation. Computational linguistics and intelligent systems (COLINS 2017): proceedings of the 1st International conference, National Technical University "KhPI", 10–19. Retrieved from: http://ena.lp.edu.ua:8080/handle/ntb/39454
[4] Grodniewicz, J. P. (2021). The process of linguistic understanding. Synthese, 198, 11463–11481. https://doi.org/10.1007/s11229-020-02807-9
[5] Hlushchenko, V. A. (2010). Linguistic method and its structure. Linguistics, 6, 32–44. Retrieved from: http://nbuv.gov.ua/UJRN/MoZn_2010_6_5
[6] Hlybovets, A. M., & Tochytsky, V. V. (2017). Algorithm of tokenization and steaming for texts in Ukrainian. NaUKMA Research Papers Computer Science, 198, 4–8. Retrieved from: http://nbuv.gov.ua/UJRN/NaUKMAkn_2017_198_4
[7] Hoherchak, H., Darchuk, N., & Kryvyi, S. (2021). Representation, Analysis, and Extraction of Knowledge from Unstructured Natural Language Texts. Cybern Syst Anal, 57, 481–500. https://doi.org/10.1007/s10559-021-00373-7
[8] Khomytska, I. Y., Teslyuk, V. M., Bazylevych, I. B., & Beregovskyi, V. V. (2020). The statistical models and software for authorial style differentiation in english prose. Scientific Bulletin of UNFU, 30(5), 135–139. https://doi.org/10.36930/40300522
[9] Lawson, A. E., Oehrtman, M., & Jensen, J. (2008) Connecting Science and Mathematics: The Nature of Scientific and Statistical Hypothesis Testing. Int J of Sci and Math Educ, 6, 405–416. https://doi.org/10.1007/s10763-007-9108-5
[10] Levchenko, O., & Dilai, M. (2021). A Method of Automated Corpus-Based Identification of Metaphors for Compiling a Dictionary of Metaphors: A Case Study of the Emotion Conceptual Domain. 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT), 52–55. https://doi.org/10.1109/CSIT52700.2021.9648667
[11] Levchenko, O., Holtvian, V., & Dilai, M. (2021). Statistical profiles of Ukrainian prose fiction: Gender aspect. 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT), 97–100. https://doi.org/10.1109/CSIT52700.2021.9648668
[12] Levchenko, O., Tyshchenko, O., & Dilai, M. (2021). Automated identification of metaphors in annotated corpus (Based on substance terms). CEUR Workshop Proceedings, 2870(3), 16–31. Retrieved from: http://ceur-ws.org/Vol-2870/paper3.pdf
[13] Lupenko, S. A., Khomiv, B. A., & Sverstyuk, A. S. (2011) Comparative analysis of mathematical models, methods and methods for evaluating opinions in text data from Internet resources. Bulletin of Khmelnytsky National University. 6, 7–16. Retrieved from: http://ceur-ws.org/Vol-2870/paper3.pdf http://journals.khnu.km.ua/vestnik/zmisthtm/2011-6-t.htm
[14] Lytvyn, V., Vysotska, V., Uhryn, D., Hrendus, M., & Naum, O. (2018). Analysis of statistical methods for stable combinations determination of keywords identification. Eastern-European Journal of Enterprise Technologies, 2 (2 (92)), 23–37. https://doi.org/10.15587/1729-4061.2018.126009
[15] Nikonenko, A. O. (2012). Review of computer-linguistic methods of processing natural language texts. Artificial Intelligence, 4, 235–244. Retrieved from: http://dspace.nbuv.gov.ua/handle/123456789/57737
[16] Ostapova, I.V., Shirokov, V.A., Luchik, A. A., & Yablochkov, N. M. The study of the functioning of word equivalents in the text on the material of the Ukrainian National Linguistic Corpus. Speech Technology, (1-2), 114–120.
[17] Parshak, K. D. (2014). Text as an object of linguistic research. Scientific journal of M. P. Dragomanov National Pedagogical University. Series 10: Problems of grammar and lexicology of the Ukrainian language, 11, 196–199. Retrieved from: http://nbuv.gov.ua/UJRN/Nchnpu_10_2014_11_46
[18] Perebyinis, V. S., (1967) Statistical style settings. Kyiv: Naukova Dumka.
[19] Romaniuk, S. (2015). Application of statistical methods in linguistic research. Scientific Proceedings of Ostroh Academy National University: Philology Series, 54, 134–137. Retrieved from: http://eprints.oa.edu.ua/id/eprint/4185
[20] Rovenchak, A., & Buk, S. (2011). Application of a quantum ensemble model to linguistic analysis. Physica A: Statistical Mechanics and its Applications, 390(7), 1326–1331. https://doi.org/10.1016/j.physa.2010.12.009
[21] Shyrokov, V., Ostapova, I., &Yakymenko, K. (2014) Indexing the etymological lexicographic systems Cognitives Studies. Warsaw : SOW Publishing House, 13–23. https://doi.org/10.11649/cs.2014.001
[22] Tkachenko, O., & Humeniuk, M. (2020). Aspects of visualization of statistical and scientific data. Digital platform: information technologies in the socio-cultural sphere, 3(2), 134–147. https://doi.org/10.31866/2617-796x.3.2.2020.220584
[23] Zaiats, V. M., & Zaiats, M. M. (2010). Methods of comparing statistical characteristics in the formation of samples in linguistics. Journal of Lviv Polytechnic National University "Information Systems and Networks", 673, 296–305. Retrieved from: http://ena.lp.edu.ua:8080/bitstream/ntb/6753/1/33.pdf