МОДЕЛІ ТА ЗАСОБИ АВТОМАТИЗОВАНОГО ВИЗНАЧЕННЯ СТАТИСТИЧНОГО ПРОФІЛЮ УКРАЇНОМОВНИХ ТЕКСТІВ

https://doi.org/10.23939/ujit2022.01.037
Надіслано: Травень 06, 2022
Прийнято: Травень 19, 2022

Цитування за ДСТУ: Теслюк В. М., Казимира І. Я., Кордіяка Ю. М., Рибак І. Р. Моделі та засоби автоматизованого визначення статистичного профілю україномовних текстів. Український журнал інформаційних технологій. 2022, т. 4, № 1. С. 37–43.

Citation APA: Teslyuk, V. M., Kazymyra, I. Ya., Kordiiaka, Yu. M., & Rybak, I. R. (2022). Models and tools for automated determining the statistical profile of ukrainian-language texts. Ukrainian Journal of Information Technology, 4(1), 37–43. https://doi.org/10.23939/ujit2022.01.037

1
Національний університет "Львівська політехніка", м. Львів, Україна
2
Національний університет "Львівська політехніка", м. Львів, Україна
3
Національний університет "Львівська політехніка", м. Львів, Україна
4
Національний університет "Львівська політехніка", м. Львів, Україна

У роботі вирішується актуальне завдання із вдосконалення професійного програмного забезпечення для статистичного аналізу тексту відповідно до потреб фахівців. Проаналізовано особливості і перспективи статистичних досліджень у мовознавстві та розроблено інформаційну технологію (ІТ) визначення статистичного профілю україномовних текстів. Проведено комплексну роботу над моделюванням програмної системи, яку представлено у відповідних схемах і діаграмах, що цілісно відображають функціонування та призначення розробленого продукту. Розглядаються математичні та системні основи статистичного аналізу для автоматизації професійного опрацювання текстів українською мовою, в контексті впровадження пропонованої інформаційної технології. Побудовано структурну схему проектного рішення та визначено головні вимоги до апаратного забезпечення. Розроблено компоненти інформаційної технології та запропоновано структуру програмної системи, які ґрунтуються на модульному принципі. Розроблено математичне забезпечення ІТ, яке базується на методах прикладної статистики та дає змогу визначити основні характеристики (статистичний профіль) досліджуваних україномовних текстів. Окрім цього, розроблено алгоритмічне та програмне забезпечення ІТ, для реалізації якого використано Python. Наведено результати дослідження україномовних текстів та їх статистичні профілі, продемонстровано, що розроблена інформаційна технологія забезпечує опрацювання україномовних текстів з високим рівнем автоматизації. Отримані результати можна розглядати як внесок у розвиток наукових досліджень у лінгвістиці, завдяки якому створюються умови для вивчення авторських текстів різного стилю та ефективного використання професійних навичок та знань широким колом користувачів.

[1]     Bi­si­ka­lo, O. V., & Kravchuk, I. A. (2010, No­vem­ber). Analysis of the morpho­lo­gi­cal struc­tu­re of the word ba­sed on the as­so­ci­ati­ve-sta­tis­ti­cal appro­ach. Jo­ur­nal of Vinnytsia Polytechnic Insti­tu­te, 4, 134–136. Ret­ri­eved from: www.visnyk.vntu.edu.ua/in­dex.php/visnyk/ar­tic­le/vi­ew/1495

[2]     Buk, S. N., & Ro­venchak, A. A. (2004). Rank-Freq­uency Analysis for Functi­onal Style Cor­po­ra of Uk­ra­ini­an. Jo­ur­nal of Qu­an­ti­ta­ti­ve Lin­gu­is­tics, 11(3), 161–71. https://doi.org/10.1080/0929617042000314912

[3]     Gra­bar, N., & Thi­erry, H. (2017, Ap­ril). Cre­ati­on of a mul­ti­lin­gu­al alig­ned cor­pus with Uk­ra­ini­an as the tar­get lan­gua­ge and its explo­ita­ti­on. Com­pu­ta­ti­onal lin­gu­is­tics and in­tel­li­gent systems (CO­LINS 2017): pro­ce­edings of the 1st In­ter­na­ti­onal con­fe­ren­ce, Na­ti­onal Techni­cal Uni­ver­sity "KhPI", 10–19. Ret­ri­eved from: http://ena.lp.edu.ua:8080/handle/ntb/39454

[4]     Grod­ni­ewicz, J. P. (2021). The pro­cess of lin­gu­is­tic un­derstan­ding. Synthe­se, 198, 11463–11481. https://doi.org/10.1007/s11229-020-02807-9

[5]     Hlushchen­ko, V. A. (2010). Lin­gu­is­tic met­hod and its struc­tu­re. Lin­gu­is­tics, 6, 32–44. Ret­ri­eved from: http://nbuv.gov.ua/UJRN/MoZn_2010_6_5

[6]     Hlybo­vets, A. M., & Tochytsky, V. V. (2017). Al­go­rithm of to­ke­ni­za­ti­on and ste­aming for texts in Uk­ra­ini­an. Na­UK­MA Re­se­arch Pa­pers Com­pu­ter Sci­en­ce, 198, 4–8. Ret­ri­eved from: http://nbuv.gov.ua/UJRN/Na­UK­MAkn_2017_198_4

[7]     Ho­herchak, H., Darchuk, N., & Kryvyi, S. (2021). Rep­re­sen­ta­ti­on, Analysis, and Extrac­ti­on of Know­led­ge from Unstruc­tu­red Na­tu­ral Lan­gua­ge Texts. Cybern Syst Anal, 57, 481–500. https://doi.org/10.1007/s10559-021-00373-7

[8]     Khomytska, I. Y., Teslyuk, V. M., Bazylevych, I. B., & Be­re­govskyi, V. V. (2020). The sta­tis­ti­cal mo­dels and softwa­re for aut­ho­ri­al style dif­fe­ren­ti­ati­on in english pro­se. Sci­en­ti­fic Bul­le­tin of UN­FU, 30(5), 135–139. https://doi.org/10.36930/40300522

[9]     Law­son, A. E., Oehrtman, M., & Jen­sen, J. (2008) Con­nec­ting Sci­en­ce and Mat­he­ma­tics: The Na­tu­re of Sci­en­ti­fic and Sta­tis­ti­cal Hypot­he­sis Tes­ting. Int J of Sci and Math Educ, 6, 405–416. https://doi.org/10.1007/s10763-007-9108-5

[10]  Levchen­ko, O., & Di­lai, M. (2021). A Met­hod of Au­to­ma­ted Cor­pus-Ba­sed Iden­ti­fi­ca­ti­on of Me­tap­hors for Com­pi­ling a Dic­ti­onary of Me­tap­hors: A Ca­se Study of the Emo­ti­on Con­cep­tu­al Do­ma­in. 2021 IEEE 16th In­ter­na­ti­onal Con­fe­ren­ce on Com­pu­ter Sci­en­ces and In­for­ma­ti­on Techno­lo­gi­es (CSIT), 52–55. https://doi.org/10.1109/CSIT52700.2021.9648667

[11]  Levchen­ko, O., Holtvi­an, V., & Di­lai, M. (2021). Sta­tis­ti­cal pro­fi­les of Uk­ra­ini­an pro­se fic­ti­on: Gen­der as­pect. 2021 IEEE 16th In­ter­na­ti­onal Con­fe­ren­ce on Com­pu­ter Sci­en­ces and In­for­ma­ti­on Techno­lo­gi­es (CSIT), 97–100. https://doi.org/10.1109/CSIT52700.2021.9648668

[12]  Levchen­ko, O., Tyshchen­ko, O., & Di­lai, M. (2021). Au­to­ma­ted iden­ti­fi­ca­ti­on of me­tap­hors in an­no­ta­ted cor­pus (Ba­sed on substan­ce terms). CE­UR Workshop Pro­ce­edings, 2870(3), 16–31. Ret­ri­eved from: http://ce­ur-ws.org/Vol-2870/pa­per3.pdf

[13]  Lu­pen­ko, S. A., Kho­miv, B. A., & Sverstyuk, A. S. (2011) Com­pa­ra­ti­ve analysis of mat­he­ma­ti­cal mo­dels, met­hods and met­hods for eval­ua­ting opi­ni­ons in text da­ta from In­ter­net re­so­ur­ces. Bul­le­tin of Khmelnytsky Na­ti­onal Uni­ver­sity. 6, 7–16. Ret­ri­eved from: http://ce­ur-ws.org/Vol-2870/pa­per3.pdf http://jo­ur­nals.khnu.km.ua/vestnik/zmisthtm/2011-6-t.htm

[14]  Lytvyn, V., Vysotska, V., Uhryn, D., Hren­dus, M., & Na­um, O. (2018). Analysis of sta­tis­ti­cal met­hods for stab­le com­bi­na­ti­ons de­ter­mi­na­ti­on of key­words iden­ti­fi­ca­ti­on. Eas­tern-Eu­ro­pe­an Jo­ur­nal of En­terpri­se Techno­lo­gi­es, 2 (2 (92)), 23–37. https://doi.org/10.15587/1729-4061.2018.126009

[15]  Ni­ko­nen­ko, A. O. (2012). Re­vi­ew of com­pu­ter-lin­gu­is­tic met­hods of pro­ces­sing na­tu­ral lan­gua­ge texts. Ar­ti­fi­ci­al In­tel­li­gen­ce, 4, 235–244. Ret­ri­eved from: http://dspa­ce.nbuv.gov.ua/handle/123456789/57737

[16]  Os­ta­po­va, I.V., Shi­ro­kov, V.A., Luc­hik, A. A., & Yab­lochkov, N. M. The study of the functi­oning of word eq­ui­va­lents in the text on the ma­te­ri­al of the Uk­ra­ini­an Na­ti­onal Lin­gu­is­tic Cor­pus. Spe­ech Techno­logy, (1-2), 114–120.

[17]  Parshak, K. D. (2014). Text as an ob­ject of lin­gu­is­tic re­se­arch. Sci­en­ti­fic jo­ur­nal of M. P. Dra­go­ma­nov Na­ti­onal Pe­da­go­gi­cal Uni­ver­sity. Se­ri­es 10: Prob­lems of gram­mar and le­xi­co­logy of the Uk­ra­ini­an lan­gua­ge, 11, 196–199. Ret­ri­eved from: http://nbuv.gov.ua/UJRN/Nchnpu_10_2014_11_46

[18]  Pe­reb­yi­nis, V. S., (1967) Sta­tis­ti­cal style set­tings. Kyiv: Nau­ko­va Dum­ka.

[19]  Ro­ma­ni­uk, S. (2015). Appli­ca­ti­on of sta­tis­ti­cal met­hods in lin­gu­is­tic re­se­arch. Sci­en­ti­fic Pro­ce­edings of Ostroh Aca­demy Na­ti­onal Uni­ver­sity: Phi­lo­logy Se­ri­es, 54, 134–137. Ret­ri­eved from: http://ep­rints.oa.edu.ua/id/ep­rint/4185

[20]  Ro­venchak, A., & Buk, S. (2011). Appli­ca­ti­on of a qu­an­tum en­semble mo­del to lin­gu­is­tic analysis. Physi­ca A: Sta­tis­ti­cal Mec­ha­nics and its Appli­ca­ti­ons, 390(7), 1326–1331. https://doi.org/10.1016/j.physa.2010.12.009

[21]  Shyro­kov, V., Os­ta­po­va, I., &Yakymen­ko, K. (2014) In­de­xing the etymo­lo­gi­cal le­xi­cog­rap­hic systems Cog­ni­ti­ves Stu­di­es. War­saw : SOW Pub­lis­hing Hou­se, 13–23. https://doi.org/10.11649/cs.2014.001

[22]  Tkac­hen­ko, O., & Hu­me­ni­uk, M. (2020). As­pects of vis­ua­li­za­ti­on of sta­tis­ti­cal and sci­en­ti­fic da­ta. Di­gi­tal plat­form: in­for­ma­ti­on techno­lo­gi­es in the so­cio-cul­tu­ral sphe­re, 3(2), 134–147. https://doi.org/10.31866/2617-796x.3.2.2020.220584

[23]  Zaiats, V. M., & Zaiats, M. M. (2010). Met­hods of com­pa­ring sta­tis­ti­cal cha­rac­te­ris­tics in the for­ma­ti­on of samples in lin­gu­is­tics. Jo­ur­nal of Lviv Polytechnic Na­ti­onal Uni­ver­sity "In­for­ma­ti­on Systems and Net­works", 673, 296–305. Ret­ri­eved from: http://ena.lp.edu.ua:8080/bitstre­am/ntb/6753/1/33.pdf