Алгоритм пошуку шаблонів у графовому поданні текстових даних для системи побудови онтології

2025;
: cc. 96 - 112
1
Національний університет «Львівська політехніка» кафедра інформаційних систем та мереж, Україна
2
Національний університет «Львівська політехніка» кафедра інформаційних систем та мереж, Україна

У статті представлено розроблення та формалізацію алгоритму пошуку шаблонів у графових представленнях текстових даних як ключового компонента синтаксико-семантичних трансформацій для побудови онтологій із текстових документів. Розглянуто проблему поєднання опрацювання природної мови та логічного формалізму шляхом запропонування універсального механізму на основі SPARQL для виконання правил трансформації на серверах графових баз даних. Підхід використовує графові бази даних для представлення синтаксичних графів та застосовує формальні методи трансформації графів, включаючи метод Double Pushout (DPO), щоб забезпечити математично обґрунтований та коректний пошук шаблонів і застосування правил.

У межах цього дослідження було розроблено та проаналізовано алгоритм для визначення гомоморфних та ізоморфних збігів підграфів шаблонів у синтаксичних графах, використовуючи представлення RDF та SPARQL-запити, доповнені алгоритмами генерації фільтрів для пошуку за формою. Показано, що складність пошуку шаблонів може бути ефективно знижена завдяки стратегіям індексації в графових базах даних, таким як SPO, POS та OSP, що зменшує експоненційну складність до поліноміальної для практичних розмірів текстових блоків. Експериментальна оцінка підтвердила масштабованість та ефективність запропонованого підходу, демонструючи суттєве скорочення часу виконання при повторних запусках завдяки кешуванню на сервері.

Робота вносить гнучкі, формалізовані та ефективні методи для автоматичного побудови онтологій з текстів природною мовою, забезпечуючи глибокий семантичний аналіз та причиннонаслідкове мислення. Підхід підтримує розширюваність та динамічне введення правил без перекомпіляції коду, що робить його придатним для реальних систем семантичних мереж та вилучення знань. Отримані результати мають значення для обробки природної мови, інженерії онтологій та застосувань, що потребують інтерпретованості та масштабованості при обробці складних текстових даних.

  1. Al-Ghezi, A., & Wiese, L. (2024). Analyzing workload trends for boosting triple stores performance. Elsevier Ltd. doi:doi.org/10.1016/j.is.2024.102420
  2. Ali, W., Saleem, M., Yao, B., Hogan, A., & Ngonga Ngomo, A.-C. (2021). A Survey of RDF Stores & SPARQL Engines for Querying Knowledge Graphs. The VLDB Journal, 1-26. doi:doi.org/10.1007/s00778-021- 00711-3
  3. Andersen, J. L., Davoodi, A., Fagerberg, R., Flamm, C., Fontana, W., Kolčák, J., . . . Nøjgaard, N. (2024, Apr 3). Automated Inference of Graph Transformation Rules. doi:10.48550/arXiv.2404.02692
  4. Chornyi, A., & Dosyn Dmytro. (2025). Development of a unified output format for text parsers in the ontology construction system from text documents. Journal of Lviv Polytechnic National University "Information Systems and Networks". doi:10.23939/sisn2025.17.170
  5. Duval, D., Echahed, R., & Prost, F. (2020). An Algebraic Graph Transformation Approach for RDF and SPARQL. Eleventh International Workshop on Graph Computation Models (GCM 2020) (pp. 55-70). EPTCS. doi:10.4204/EPTCS.330.4
  6. König, H., & Stünkel , P. (2020). Single Pushout Rewriting in Comprehensive Systems. Graph Transformation. ICGT 2020. Lecture Notes in Computer Science(), vol 12150. Springer, (pp. 91-108). doi:doi.org/10.1007/978-3-030-51372-6_6
  7. Mennicke, S., Nagel, D., Kalo, J.-C., Aumann, N., & Balke, W.-T. (2017). Reconstructing Graph Pattern Matches Using SPARQL. Lernen, Wissen, Daten, Analysen, LWDA 2017 - Conference Proceedings (pp. 152-164). Rostock, Germany: CEUR-WS. Retrieved from https://ceur-ws.org/Vol-1917/paper24.pdf
  8. Mežnar, S., Bevec, M., Lavrač, N., & Škrlj, B. (2022). Ontology Completion with Graph-Based Machine Learning: A Comprehensive Evaluation. Machine Learning and Knowledge Extraction, 1107-1123. doi:doi.org/10.3390/make4040056
  9. Mousavi, H., Kerr, D., Iseli, M., & Zaniolo, C. (2014). Harvesting Domain Specific Ontologies from Text. International Conference on Semantic Computing. Newport Beach, CA, USA. doi:10.1109/ICSC.2014.
  10. Pokorný, J., Valenta, M., & Troup, M. (2018). Indexing Patterns in Graph Databases. Proceedings of the 7th International Conference on Data Science, Technology and Applications (DATA 2018) (pp. 313-321). Science and Technology Publications, Lda. doi: 10.5220/0006826903130321
  11. RDF 1.2 Schema. (2025, September). Retrieved from www.w3.org: https://www.w3.org/TR/rdf12-schema/
  12. Salehpour, M., & Davis, J. G. (2021). A Comparative Analysis of Knowledge Graph Query Performance. Third International         Conference         on          Transdisciplinary         AI           (TransAI),          (pp.           33-40). doi:10.1109/TransAI51903.2021.00014
  13. Söldner, R., & Plump, D. (2024, October 04). Formalising the double-pushout approach to graph transformation. Logical Methods in Computer Science, 3:1–3:37. doi:10.46298/LMCS-20(4:3)2024
  14. Stünkel, P., & König, H. (2021). Single pushout rewriting in comprehensive systems of graph-like structures. Theoretical Computer Science, 23-43. doi:doi.org/10.1016/j.tcs.2021.07.002