Розроблення єдиного формату вихідних даних для текстових парсерів в системі побудови онтології з текстових документів

Андрій Чорний; Дмитро Досин

Проблема відсутності ефективних засобів побудови онтологій з текстових документів все ще залишається невирішеною. Її розв’язання стикається з низкою викликів, зокрема, відсутністю єдиного формату вихідних даних різних NLP інструментів, зокрема текстових парсерів, які є першою ланкою в багатоетапному процесі видобування знань. На сьогоднішній день існує декілька популярних текстових парсерів, кожен з яких має свої особливості та переваги у реалізації окремих функцій. З метою ефективнішого вирішення проблеми побудови онтології з тексту доцільним є використання декількох текстових парсерів, що породжує проблему узгод- ження форматів вихідних даних цих NLP інструментів.
Для вирішення задачі уніфікації формату вихідних даних текстових парсерів, запропоновано використання графової бази даних для їх збереження у форматі триплета суб’єкт- предикат-об’єкт з метою подальшого опрацювання з використанням правило-орієнтованих трансформацій на основі SPARQL запитів. Суттєвою перевагою такого підходу є можливість виконання кожного нового правила «на льоту».
В рамках дослідження розроблено інтелектуального агента на мові Java, здатного будувати семантичні графи з природомовного тексту на основі правило-орієнтованого підходу. За допо- могою розробленого інтелектуального агента проведено оцінку залежності часу виконання правила синтаксично-семантичної трансформації від об’єму текстового корпусу та розмірів вибірок даних. Дане оцінювання стало можливим за рахунок імплементованої рефлексії першого рівня для досліджуваного правила трансформації.
За результатами дослідження, запропонований підхід уніфікації вихідних даних текстових парсерів з використанням графової бази даних показав свою ефективність з точки зору складності операції та швидкодії. Розроблений підхід побудови онтології з тексту відкриває перед сучасною наукою нові горизонти для автоматизованого навчання інтелектуального агента на основі текстової інформації.

опрацювання природної мови

онтологія

автоматична побудова онтології

автоматизоване навчання

синтаксично-семантичні шаблони

Apache Open NLP Website. (n.d.). (Apache) Retrieved from https://opennlp.apache.org/
Asim, M. N., Wasim, M., Khan, M. U., Mahmood, W., & Abbasi, H. M. (2018). A survey of ontology learning techniques and applications. Database: The Journal of Biological Databases and Curation, 2018(bay101). doi:10.5120/2610-3642
Basaraba, I., Bets, I., & Bets, Y. (2024). Current trends in the recognition and decoding of phraseological units. Current Issues of the Humanities, 74(1), 211-216. doi:10.24919/2308-4863/74-1-29
Chornyi, A. (2024). Development of an adequate intellectual agent for a wide subject area as a model for further scientific research. Abstract. Retrieved from https://www.academia.edu/127201897
CoreNLP vs Apache OpenNLP. (n.d.). (Awsome Java) Retrieved from https://java.libhunt.com/compare-corenlp- vs-apache-opennlp
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019, June). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT 2019), pp. 4171-4186. doi:10.48550/arXiv.1810.04805
Doroshenko, A. (2018). Development of information technology for intellectual analysis of factographic information. Bionics of Intelligence, 1 (90), 116-121. doi:10.11591/eei.v11i5.3075
Dosyn, D., & Lytvyn, V. (2021). Models and methods for determining the usefulness of ontological knowledge: Monograph. Lviv: "Novyy svit – 2000".
Dosyn, D., Daradkeh, Y., Kovalevych, V., Luchkevych, M., & Kis, Y. (2022). Domain Ontology Learning using Link Grammar Parser and WordNet. MoMLeT+DS 2022: 4-th International Workshop on Modern Machine Learning Technologies and Data Science. Leiden-Lviv, The Netherlands-Ukraine. Retrieved from https://ceur- ws.org/Vol-3312/paper2.pdf
GATE website. (n.d.). Retrieved from https://gate.ac.uk/
Haiko, C. (2023). Ontology-driven means for processing and presentation of large arrays of unstructured texts. Innovative Technologies and Scientific Solutions for Industries, 2(24), 27-38. doi:10.30837/ITSSI.2023.24.027
Hlybovets, M., & Bobko, O. (2012). The methods of automatic ontology generation. NaUKMA Research Papers. Computer Science, 138, 61-67. Retrieved from https://ekmair.ukma.edu.ua/handle/123456789/1917
Kumari, P. (2024, October 26). 7 Top NLP Libraries For NLP Development. Retrieved from https://www.labellerr.com/blog/top-7-nlp-libraries-for-nlp-development
Linked Open Data Cloud. (n.d.). Retrieved from https://www.lod-cloud.net/
Lytvyn, V., & Cherna, T. (2014). The problem of automated development of a basic ontology. Journal of Lviv Polytechnic National University "Information Systems and Networks", 805, 306–315.
Manning, C. D., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S. J., & McClosky, D. (2014). The Stanford CoreNLP Natural Language Processing Toolkit. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, (pp. 55-60). Baltimore, Maryland, USA. doi:10.3115/v1/P14- 5010
Mousavi, H., Kerr, D., Iseli, M., & Zaniolo, C. (2014). Harvesting Domain Specific Ontologies from Text. International Conference on Semantic Computing. Newport Beach, CA, USA. doi:10.1109/ICSC.2014.12
Nanavati, J., & Ghodasara, Y. (2015, November). A Comparative Study of Stanford NLP and Apache. International Journal of Soft Computing and Engineering (IJSCE) ISSN: 2231-2307, 5(5), 57-60. Retrieved from https://www.ijsce.org/wp-content/uploads/papers/v5i5/E2744115515.pdf
NTLK website. (n.d.). (NLTK Project) Retrieved from https://www.nltk.org/
Schmitt, X., Kubler, S., Robert, J., Papadakis, M., & LeTraon, Y. (2019). A Replicable Comparison Study of NER Software: StanfordNLP, NLTK, OpenNLP, SpaCy, Gate. Sixth International Conference on Social Networks Analysis, Management and Security (SNAMS). Granada, Spain. doi:10.1109/SNAMS.2019.8931850
Shaptala, R. (2023). Dictionary embeddings for document classification in low-resource natural language processing. – Qualification scientific work as manuscript. Kyiv. Отримано з https://ela.kpi.ua/items/14de271d- 5971-4cdc-92e6-8e645336332d
Shvorob, I. (2015). Comparative analysis of methods for syntactic parsing of texts. Journal of Lviv Polytechnic National University "Information Systems and Networks", 814, 197-202. Retrieved from http://nbuv.gov.ua/UJRN/VNULPICM_2015_814_22
spaCy website. (n.d.). Retrieved from https://spacy.io/
Stanford CoreNLP website. (n.d.). Retrieved from https://stanfordnlp.github.io/CoreNLP/
Vovnianka, R., Dosyn, D., & Kovalevych, V. (2014). The method of knowledge extraction from text documents. Journal of Lviv Polytechnic National University "Information Systems and Networks", 783, 302–312.
Yunchyk, V., Kunanets, N., Pasichnyk, V., & Fedoniuk, A. (2021, 10). Analysis of artificial intellectual agents for e-learning systems. Journal of Lviv Polytechnic National University "Information Systems and Networks", 10, 41- 57. doi:10.23939/sisn2021.10.041
Zezula, T. (2020, August 29). 15 Natural Language Processing Libraries Worth a Try. Retrieved from https://www.tomaszezula.com/natural-language-processing-libraries
Zlatareva, N., & Amin, D. (2021). Processing Natural Language Queries in Semantic Web Applications. The 7th World Congress on Electrical Engineering and Computer Systems and Science (EECSS’21). doi:10.11159/cist21.108