symbolic time series

ДОСЛІДЖЕННЯ ПОВТОРЮВАНОСТІ ДЛЯ НАЙПРОСТІШИХ РАНДОМНИХ МОДЕЛЕЙ ПРИРОДНОЇ МОВИ

У статті вирішується актуальна проблема опрацювання природної мови – розроблення методів оцінювання повторюваності в текстових документах і емпіричне з’ясування ресурсів цих методів для аналізу наявності семантичного навантаження текстів. Досі для цього переважно залучали підходи, основані на закономірностях статистичної лінгвістики на зразок законів Ціпфа, Парето та Гіпса, а також аналіз явищ кластеризації слововживань і довгосяжних кореляцій лексики. Ми розробили програмне забезпечення для кількісного дослідження повторюваності в текстах за алгоритмом дерев суфіксів Укконена.