Особливості Бази Знань Системи Автоматизованої Побудови Логіко-лінгвістичних Моделей Текстових Документів

2021;
: сс. 75 - 83
1
Національний авіаційний університет

У статті окреслено проблему пошуку змістовних одиниць у електронних текстових документах та проаналізовано основні недоліки відомих підходів до видобування знань із текстової інформації. Досліджено особливості побудови логіко-лінгвістичних моделей електронних тексто- вих документів, зокрема описано та досліджено особливості баз знань системи автоматизованої побудови логіко-лінгвістичних моделей україномовних текстових документів. Запропоновано схему формалізації текстової інформації на основі побудови логіко-лінгвістичної моделі електронного текстового документа. У ній першим етапом є формування логіко-лінгвістичних моделей речень природної мови. Для цього використано спеціально розроблений метод автома- тизованого формування логіко-лінгвістичних моделей, що ґрунтується на здійсненні синтак- сичного аналізу речень природної мови, використанні бази даних у вигляді тезаурусу слів природної мови та бази правил для виявлення логічних зв’язків. Це уможливилось завдяки базі знань 1, яку розробила автор. Ця база використовується для визначення ролі кожного зі слів електронного текстового документа та є продукційною моделлю із формалізованими правилами української мови для формування словосполучень, які можуть утворювати між собою члени речення природної мови. Базу знань 2 створено для пошуку зв’язків між реченнями, що входять до складу електронного текстового документа, вона є сукупністю продукцій, які відображають принципи синтезу логіко-лінгвістичних моделей речень природної мови, тобто правила об’єднання та заміни структурних компонентів логіко-лінгвістичних моделей — речень природної мови. База знань 3, використана для побудови лінгвістичної складової логіко-лінгвістичної моделі текстового документа, є множиною продукцій, що містить правила формування мереж переходів для інтерпретації тематичної прогресії тексту. На конкретних текстових фрагментах продемонстровано застосування розроблених формалізованих правил. Механізм використання запропонованих баз знань дає змогу простежити процес формування логіко-лінгвістичних моделей електронних текстових документів.

  1. Fillipov, К.А. (2008). Text Linguistics. SpB Publisher, 336 p.
  2. Vavilenkova, A. (2020). Modelling of the context links between the natural language sentences. Proceedings of the 9th International Scientific and Practical Conference «Information Control Systems & Technologies» (ICST2020), pp. 282-293.
  3. Bisikalo, O.V., Wojcik, W., Yahimovich, O.V., Smailova, S. (2015). Method of determining of keywords in English texts based on the DKPro Core. Technology Audit and Production Reserves, 1/2(21), pp. 26-30. https://doi.org/10.15587/2312-8372.2015.37274. phttps://doi.org/10.15587/2312-8372.2015.37274
  4. Bengfort, B. Syntax Parsing With CoreNLP and NLTK. Available at: https://www.districtdatalabs.com/syntax-parsing-with-corenlp-and-nltk. (Accessed: 5 March 2021).
  5. Gupta, M. Syntactic/ Constituency Parsing usiong the CYK algorithm in NLP. Available at: https://medium.com/data-science-in-your-pocket/syntactic-constituency-pa.... (Accessed: 4 May 2020).
  6. NLPIR 2020: Proceedings of the 4th International Conference on Natural Language Processing and Information Retrieval, Association for Computing Machinery, New York, United States, Seoul Republic of Korea. Available at: https://dl.acm.org/doi/proceedings/10.1145/3443279. (Accessed: 5 March 2021).
  7. NLPAI 2021: 2nd International Conference on Natural Language Processing and Artificial Intelligence. China. Available at: http://www.nlpai.org/. (Accessed: 5 March 2021).
  8. Lande, D.V. (2014). The Elements of Computer Linguistics in Legal Informatics. Kyiv, NDIIP NAPrH, 168 p.
  9. Sumam, F., Landeghem, J.V., Moens, M.-F. (2019). Transfer Learning for Named Entity Recognition in Financial and Biomedical Documents. Information 2019, 10(8), 248. https://doi.org/10.3390/info10080248. phttps://doi.org/10.3390/info10080248
  10. Chen, X., Xie. H., Cheng, G., Poon, L., Leng, M., and Wang, F. (2020). Trends and Features of the Applications of Natural Language Processing Techniques for Clinical Trials Text Analysis. Applied Sciences.10, 2157. doi:10.3390/app10062157. phttps://doi.org/10.3390/app10062157
  11. Khairova, N., Mamyrbayev, O., Mukhsina, K. and Kolesnyk, A. (2020), «Logical-linguistic model for multilingual Open Information Extraction», Cogent Engineering, doi: 10.1080/23311916.2020.1714829. phttps://doi.org/10.1080/23311916.2020.1714829
  12. Khairova, N., Petrasova, S. and Gautam A.P.S. (2016), The Logical-Linguistic Model of Fact Extraction from English Texts, Communications in Computer and Information Science, vol. 639. Springer, Cham. https://doi.org/10.1007/978-3-319-46254-7_51. phttps://doi.org/10.1007/978-3-319-46254-7_51
  13. Vavilenkova, А.І. (2017), Analysis and Synthesis of logic and linguistic models for natural language sentences, TOV «SIK GROUP UKRAINE», Kyiv, 152 p.
  14. Vavilenkova, A. (2015), Basic principles of the synthesis of logical-linguistic models, Cybernetics and systems analysis, Vol. 51(5), pp. 826-834, http:// doi.org/10.1007/s10559-015-9776-z. phttps://doi.org/10.1007/s10559-015-9776-z