Статистика появи слів у природних і рандомних текстах

2017;
: cc. 162 - 178
Автори: 
Кушнір О. С., Альфавіцький М. А., Дзіковський В. Є., Іваніцький Л. Б., Рихлюк С. В., Сокульський В. І.
  1. Львівський національний університет імені Івана Франка, кафедра оптоелектроніки та інформаційних технологій
  2. Природничий коледж Львівського національного університету імені Івана Франка

Експериментально досліджено статистичні розподіли, що описують появу слів у кількох природних текстах, а також похідних від них рандомних текстах. Показано, що масова функція ймовірності відповідних інтервалів між словами є практично однаковою для природних і рандомних текстів і виявляє важкий вейбулівський хвіст, що не узгоджується із суто стохастичним характером цих інтервалів. Помітні відхилення динаміки зростання словника природних і рандомних текстів від динаміки, передбаченої степеневим законом Гіпса, а також кросовер у словнику одного з природних текстів підтверджують потребу в узагальненні цього закону.

1. Baek S. K. Zipf’s law unzipped / S. K. Baek, S. Bernhardsson, P. Minnhagen // New J. Phys. –2011. – Vol. 13. – 043004 (21 pp.).

2. Adamic L. Unzipping Zipf’s law / L. Adamic // Nature. – 2011. – Vol. 474. – P. 164–165.

3. Kornai A. How many words are there? / A. Kornai // Glottometrics. – 2002. –Vol. 4. – P. 60–85.

4. van Leijenhorst D. C. A formal derivation of Heaps’ law / D. C. van Leijenhorst, Th. P. van der Weide // Inf. Sci. – 2005. – Vol. 170. – P. 263–272.

5. Gerlach M. Stochastic model for the vocabulary growth in natural languages / M. Gerlach, E. G. Altmann // Phys. Rev. X. – 2013. – Vol. 3. –021006 (10 pp.).

6. Bernhardsson S. The meta book and size-dependent properties of written language /S. Bernhardsson, L. E. Correa da Rocha, P. Minnhagen // New J. Phys. – 2009. – Vol. 11. – 203015(15 pp.).

7. Bernhardsson S. Size-dependent word frequencies and translational invariance of books / S. Bernhardsson, L. E. Correa da Rocha, P. Minnhagen // Physica A. – 2010. – Vol. 389. – P. 330–341.

8. Lü L. Zipf’s law leads to Heaps’ law: Analyzing their relation in finite-size systems / L. Lü, Z.-K. Zhang, T. Zhou // PLOS ONE. – 2010. – Vol. 5. – e14139 (11 pp.).

9. Yan X.-Y. Comment on ‘A scaling law beyond Zipf’s law and its relation to Heaps’ law’ [Electronic resource] / X.-Y. Yan, P. Minnhagen. – 2014. – Access mode: http://arxiv.org/abs/1404.1461. – Title from the screen.

10. Lü L. Deviation of Zipf’s and Heaps’ laws in human languages with limited dictionary sizes / L. Lü, Z.-K. Zhang, T. Zhou // Sci. Rep. –2013. – Vol. 3. – 1082 (7 pp.).

11. Font-Clos F. A scaling law beyond Zipf’s law and its relation to Heaps’ law / F. Font-Clos, G. Boleda, A. Corral // New J. Phys. – 2013. – Vol. 15. – 093033 (16 pp.).

12. Bochkarev V. V. Deviations in the Zipf and Heaps laws in natural languages / V. V. Bochkarev, E. Yu. Lerner, A. V. Shevlyakova // J. Phys.: Conf. Ser. – 2014. – Vol. 490. – 012009 (4 pp.).

13. Font- Clos F. Log-log convexity of type-token growth in Zipf’s systems / F. Font-Clos, A. Corral // Phys. Rev. Lett. – 2015. – Vol. 114. – 238701 (5 pp.).

14. Egghe L. Untangling Herdan’s law and Heaps’ law: Mathematical and informetric arguments / L. Egghe // J. Amer. Soc. Inf. Sci. Technol. – 2007. – Vol. 58. – P. 702–709.

15. Ebeling W. Long-range correlations between letters and sentences in texts / W. Ebeling, A. Neiman // Physica A. – 1995. – Vol. 215. – P. 233–241.

16. Hierarchical structures induce long-range dynamical correlations in written texts / E. Alvarez-Lacalle, B. Dorow, J.-P. Eckmann, E. Moses // Proc. Nat. Acad. Sci. (USA). – 2006. – Vol. 103. – P. 7956–7961.

17. Altmann E. G. Beyond word frequency: Bursts, lulls, and scaling in the temporal distributions of words / E. G. Altmann, J. B. Pierrehumbert, A. E. Motter // PLOS ONE. – 2009. – Vol. 4. – e7678 (7 pp.).

18. Altmann E. G. On the origin of longrange correlations in texts / E. G. Altmann, G. Cristadoro, M. D. Esposti // Proc. Nat. Acad. Sci. (USA). –2012. – Vol. 109. – P. 11582–11587.

19. Флуктуації частоти літер і знаків в українських і російських текстах / О. С. Кушнір, А. М. Байовський, Л. Б. Іваніцький, С. В. Рихлюк // Матер. VII Укр.-польськ. наук.-практ. конф. “Електрон. та інф. технол.”. – Львів : ЛНУ, 2015. – С. 76–79.

20. Статистичний розподіл і флуктуації довжин речень в українському, російському і англійському корпусах / О. С. Кушнір, О. С. Брик, В. Є. Дзіковський, Л. Б. Іваніцький, І. М. Катеринчук, Я. П. Кісь // Вісн. нац. ун-ту “Львівська політехніка”. Сер. “Інф. сист. та мережі”. – 2016. – № 854. –С. 228–239.

21. Eliazar I. The growth statistics of Zipfian ensembles: Beyond Heaps’ law / I. Eliazar // Physica A. – 2011. – Vol. 390. – P. 3189–3203.

22. Simon H. On a class of skew distribution functions / H. Simon // Biometrika. – 1955. – Vol. 42. – P. 425–440.

23. Barabási A.-L. The origin of bursts and heavy tails in human dynamics / A.-L. Barabási // Nature. – 2005. – Vol. 435. – P. 207–211.

24. Chen Y. S. Exponential recurrence distribution in the Simon-Yule model of text / Y. S. Chen // Cybernetics and Systems. – 1988. – Vol. 19. – P. 521–545.

25. Zanette D. H. Dynamics of text generation with realistic Zipf distribution / D. H. Zanette, M. A. Montemurro // J. Quant. Linguist. – 2005. – Vol. 12. – P. 29–40.

26. Keyword detection in natural languages and DNA / M. Ortuño, P. Carpena, P. Bernaola-Galván, E. Muñoz, A. M. Somoza // Europhys. Lett. – 2002. – Vol. 57. – P. 759–764.

27. Herrera J. P. Statistical keyword detection in literary corpora / J. P. Herrera, P. A. Pury // Eur. Phys. J. – 2008. – Vol. 63. – P. 135–146.

28. Level statistics of words: Finding keywords in literary texts and symbolic sequences / P. Carpena, P. Bernaola-Galván, M. Hackenberg, A. V. Coronado, J. L. Oliver // Phys. Rev. E. – 2009. – Vol. 79. – 035102(R) (4 pp.).

29. Про статистику відстаней між словами в тексті та проблему розпізнавання змістових слів / О. С. Кушнір, А. В. Волоско, Л. Б. Іваніцький, С. В. Рихлюк // Елект- роніка та інф. технол. – 2016. – Вип. 6. – С. 155–164.

30. До пояснення механізму явища “спалахів” у статистиці лінгвістичних елементів: часи очікування буквених n-грам / О. С. Кушнір, М. А. Альфавіцький, В. Є. Дзіковський, Л. Б. Іваніцький, І. М. Катеринчук, О. І. Шарга // Матер. VIII Укр.-польськ. наук.-практ. конф. “Електрон. та інф. технол.”. – Львів : ЛНУ, 2016. – С. 84–89.

31. The effect of long-term correlations on the return periods of rare events / A. Bunde, J. F. Eichner, S. Havlin, J. W. Kantelhardt // Physica A. – 2003. – Vol. 330. – P. 1–7.

32. Vajna S. Modelling bursty time series / S. Vajna, B. Tóth, J. Kertész // New J. Phys. – 2013. – Vol. 15. – 103023 (17 pp.).

33. Goh K.-I. Burstiness and memory in complex systems / K.-I. Goh, A.-L. Barabási // Europhys. Lett. – 2008. – Vol. 81. –48002 (5 pp.).

34. Altmann E. G. Recurrence time analysis, long-term correlations, and extreme events / E. G. Altmann, H. Kantz // Phys. Rev. E. – 2005. – Vol. 71. – 056106 (9 pp.).

35. Statistics of return intervals in long-term correlated records / J. F. Eichner, J. W. Kantelhardt, A. Bunde, S. Havlin // Phys. Rev. E. – 2007. – Vol. 75. – 011128 (9 pp.).

36. Cattuto C. A Yule-Simon process with memory / C. Cattuto, V. Loreto, V. D. P. Servedio // Europhys. Lett. – 2006. – Vol. 76. – P. 208–214.

37. Ferrer i Cancho R. Two regimes in the frequency of words and the origins of complex lexicons: Zipf’s law revisited / R. Ferrer i Cancho, R. V. Solé // J. Quant. Linguist. – 2001. – Vol. 8. – P. 165–173.

38. Santhanam M. S. Return interval distribution of extreme events and long-term memory / M. S. Santhanam, H. Kantz // Phys. Rev. E. – 2008. – Vol. 78. – 051113 (9 pp.).

39. Long-term memory: A natural mechanism for the clustering of extreme events and anomalous residual times in climate records / A. Bunde, J. F. Eichner, J. W. Kantelhardt, S. Havlin // Phys. Rev. Lett. – 2005. – Vol. 94. – 048701 (4 pp.).

40. Gerlach M. Scaling laws and fluctuations in the statistics of word frequencies / M. Gerlach, E. G. Altmann // New J. Phys. – 2014. – Vol. 16. – 113010 (19 pp.).

41. Improving statistical keyword detection in short texts: Entropic and clustering approaches / C. Carretero-Campos, P. Bernaola-Galván, P. Ch. Ivanov, P. Carpena // Phys. Rev. E. – 2012. – Vol. 85. – 011139 (6 pp.).

42. Moreno-Sánchez I. Large-scale analysis of Zipf’s law in English texts / I. Moreno-Sánchez, F. Font-Clos, A. Corral // PLOS ONE. – 2016. – Vol. 11. – e0147073(19 pp.).

43. Kushnir O. S. New text-length scaling effects in statistics of natural texts / O. S. Kushnir, L. B. Ivanitskyi, S. V. Rykhlyuk // Матер. VII Укр.-польськ. наук.-практ. конф. “Електрон. та інф.технол.”. – Львів : ЛНУ, 2015. – P. 80–83.

44. Ferrer i Cancho R. Zipf’s law from a communicative phase transition / R. Ferrer i Cancho // Eur. Phys. J.: B. – 2005. – Vol. 47. – P. 449–457.

45. Long-range correlations in nucleotide sequences / C.-K. Peng, S. V. Buldyrev, A. L. Goldberger, S. Havlin, F. Sciortino, M. Simons, H. E. Stanley // Nature. – 1992. – Vol. 356. – P. 168–170.

Статистика появи слів у природних і рандомних текстах / О. С. Кушнір, М. А. Альфавіцький, В. Є. Дзіковський, Л. Б. Іваніцький, С. В. Рихлюк, В. І. Сокульський // Вісник Національного університету «Львівська політехніка». Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2017. — № 872. — С. 162–178.