У статті вирішується актуальна проблема опрацювання природної мови – розроблення методів оцінювання повторюваності в текстових документах і емпіричне з’ясування ресурсів цих методів для аналізу наявності семантичного навантаження текстів. Досі для цього переважно залучали підходи, основані на закономірностях статистичної лінгвістики на зразок законів Ціпфа, Парето та Гіпса, а також аналіз явищ кластеризації слововживань і довгосяжних кореляцій лексики. Ми розробили програмне забезпечення для кількісного дослідження повторюваності в текстах за алгоритмом дерев суфіксів Укконена. Запропоновано аналізувати усереднений параметр повторюваності v0 та відповідне стандартне відхилення Δv. Емпірично доведено, що реалізований за допомогою нашого програмного забезпечення алгоритм виявляє наближено лінійну часову складність O (LlogL) (де L – довжина символьного ряду), яка відповідає теоретичним передбаченням. На предмет повторюваності проаналізовано природні тексти англійською мовою та низкою інших алфавітних (неієрогліфічних) мов, а також рандомні тексти мавпи Міллера та природні тексти, дозовано рандомізовані на лінгвістичних рівнях символів, слів і речень. Підтверджено, що поза початковою ділянкою природних текстів, на якій функція повторюваності флуктуює, ця функція виявляє явище насичення, де насичене значення v0 ≈ 0,5. Докладно досліджено тексти, що ґрунтуються на рандомній моделі Міллера. З’ясовано, що на поведінку функції повторюваності й на параметри v0 і Δv цих текстів впливають насамперед розміри алфавіту та розподіл заданих відносних частот символів алфавіту. Доведено, що усереднена повторюваність v0 цих текстів пов’язана із інформаційною ентропією Шеннона в її найпростішому поданні. Встановлено, що повторюваність у моделі “мішка зі словами” корелює із параметром усередненого семантичного навантаження тексту. Запропоновано використовувати параметри повторюваності v0 і Δv для розпізнавання семантично наповнених природних текстів і семантично порожніх стохастичних символьних часових рядів.
1. Aletti, G., & Crimaldi, I. (2021). Twitter as an innovation process with damping effect. Sci. Rep., 11, 21243 (15 p.). https://doi.org/10.1038/s41598-021-00378-4
2. Deng, W., Xie, R., Deng, S., & Allahverdyan, A. E. (2021). Two halves of a meaningful text are statistically different. J. Statistical Mechanics: Theory and Experiment, 3, 033413 (28 p.). https://doi.org/10.1088/1742-5468/abe947
3. Lai, U., Randhawa, G. S., & Sheridan, P. (2023). Heaps’ law in GPT-Neo large language model emulated corpora. Proceedings of the Tenth International Workshop on Evaluating Information Access (EVIA 2023), a Satellite Workshop of the NTCIR-17 Conference, 20-23. https://doi.org/10.20736/0002001352
4. Kushnir, O., Drebot, A., Ostrikov, D., & Kravchuk, O. (2024). Vlastyvosti leksychnyh merezh, pobudovanyh na pryrodnyh i randomnyh tekstah [Properties of lexical networks built on natural and random texts]. Electronics and Information Technologies, 28, 22-37 (in Ukrainian). https://doi.org/10.30970/ eli.28.3
5. Zhenhan Qi (2025). An analysis of Markov model’s applications. Theoretical and Natural Science, 92, 82-87. https://doi.org/ 10.54254/2753-8818/2025.21613
6. Amancio, D. R., Altmann. E. G., Rybski. D., Oliveira Jr., O. N., & da F. Costa, L. (2013). Probing the statistical properties: application to the Voynich manuscript. PLoS ONE, 8 e67310 (10 p.). https://doi.org/10.1371/journal.pone.0067310
7. Kim Chol-jun (2025). Proper interpretation of Heaps' and Zipf's laws. arXiv:2305.15413v3, 1-18. Retrieved from: https://arxiv. org/abs/2305.15413
8. Golcher, F. (2007). A stable statistical constant specific for human language texts. 1-6. Retrieved from: https://www. academia.edu/5986557/A_Stable_Statistical_Constant_Specific_for_Human_Language_Texts
9. Kimura, D., & Tanaka-Ishii, K. (2014). Study on constants of natural language texts. J. Language Processing, 21, 877-895. https://doi.org/10.5715/jnlp.21.877
10. Smyth, W. F. (2014). Large-scale detection of repetitions. Phil. Trans. R. Soc. A, 372, 20130138 (11 p.). https://doi.org/ 10.1098/rsta.2013.0138
11. Tanaka-Ishii, K., & Aihara, S. (2015). Computational constancy measures of texts – Yule’s K and Renyi’s entropy. Computational Linguistics, 41, 481-502. https://doi.org/10.1162/ COLI_a_00228
12. Fu, Z., Lam, W., So, A. M.-C., & Shi, B. (2021). A theoretical analysis of the repetition problem in text generation. Proceedings of the AAAI Conference on Artificial Intelligence, 35(14), 12848-12856. https://doi.org/10.1609/aaai.v35i14.17520
13. Kushnir, O. S., Ivanitskyi, L. B, Kashuba, A. I., Mostova, M. R., & Mykhaylyk, V. B. (2021). Repetition characteristic for single texts. CEUR Workshop Proceedings, 2870, 629-641. https://ceur-ws.org/Vol-2870/paper47.pdf
14. Kushnir, O. S., Ivanitskyi, L. B., Kashuba, A. I., Mostova, M. R., & Mykhaylyk, V. B. (2021). Large-scale studies of the repetition characteristic for different models of symbolic sequences. Proceedings of 12th IEEE International Conference on Electronics and Information Technologies, 61-66. https://doi.org/ 10.1109/ELIT53502.2021.9501102
15. Salkar, N., Trikalinos, T., Wallace, B., & Nenkova, A. (2022). Self-repetition in abstractive neural summarizers. Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing, 2, 341-350. https://doi.org/10.18653/v1/2022.aacl-short.42
16. Rabea, Z., El-Metwally, S., Elmougy, S., & Zakaria, M. (2022). A fast algorithm for constructing suffix arrays for DNA alphabets: a review. Journal of King Saud University – Computer and Information Sciences. 34(7), 4659-4668. https://doi.org/10.1016/ j.jksuci.2022.04.015
17. Sepúlveda-Fontaine, S. A., & Amigó, J. M. (2024). Applications of entropy in data analysis and machine learning. Entropy, 26, 1126 (42 p.). https://doi.org/10.3390/e26121126