Система автоматизованого аналізу природномовних текстів з використанням трансформерів

2025;
: cc. 366 - 381
1
Національний університет «Львівська політехніка» кафедра інформаційних систем та мереж, Львів, Україна
2
Volyn National University named after Lesya Ukrainka, Department of General Mathematics and Methods of Teaching Informatics, Lutsk, Ukraine

Статтю присвячено дослідженню розроблення системи автоматизованого аналізу медичних текстів з використанням сучасних технологій штучного інтелекту та опрацювання природної мови. Проаналізовано сучасний стан та перспективи розвитку в галузі автоматизованого аналізу медичних текстів. Розглянуто основні методи та технології, які використовуються у цій сфері, зокрема машинне навчання, глибинне навчання та опрацювання природної мови. Виявлено, що існуючі системи мають певні обмеження щодо точності та швидкості аналізу, а також недостатньо враховують специфіку медичної термінології та контексту. Це підтверджує необхідність розробки нових підходів та інструментів, які б забезпечували більш високий рівень автоматизації та точності. Використано різноманітні методи та технології, такі як токенізація тексту, опрацювання природної мови, класифікація та кластеризація текстів, семантичний аналіз та генерація тексту. Розроблена система здатна розпізнавати та класифікувати симптоми, встановлювати можливі діагнози та надавати рекомендації щодо лікування. Інтеграція з електронними медичними записами забезпечує актуальність та повноту інформації, що є важливим для медичної практики. Особливу увагу приділено забезпеченню зручності використання системи, розроблено інтуїтивно зрозумілий інтерфейс користувача. Проведено тестування розробленої системи. Результати тестування показали високий рівень точності та ефективності в аналізі медичних текстів. Проведено оцінку якості роботи системи на реальних медичних даних, що підтвердило її практичну цінність та можливість застосування в медичній практиці. Виявлено деякі обмеження та області, які потребують подальшого вдосконалення, зокрема щодо обробки складних медичних термінів та багатозначних слів.

  1. Aggarwal, C. C. (2018). Neural networks and deep learning. Springer.
  2. Aggarwal, C. C., & Zhai, C. (2018). Text data mining: A monograph. Springer.
  3. Chen, Y., Li, X., Tal, K., Wu, D., Xu, Y., & Zhao, X. (2021). Integrating NLP with structured EHR data for case- control analysis of heart failure: Framework development study. JMIR Medical Informatics, 9(5), e25385.DOI: https://doi.org/10.2196/25385
  4. Chollet, F. (2018). Deep learning with Python. Manning Publications.
  5. Collobert, R., Weston, J., Bottou, L., Karlen, M., K avukcuoglu, K., & Kuksa, P. (2011). Natural language processing (almost) from scratch. Journal of Machine Learning Research, 12, 2493-2537.
  6. Fomenko, S. P., & Shevchuk, M. O. (2019). NLP in medical informatics: Modern approaches. Medical Informatics and Engineering, 21(3), 22-29.
  7. Gabrieli, E.R., and Speth, D.J. (1990) Automated analysis of medical text I. Clue gathering.J. Med Systems 4, 71–91.
  8. Ivanchenko, O. V., & Tkachenko, Y. A. (2019). Automation of diagnostics based on textual descriptions in medical documents. Medical Informatics and Engineering, 15(4), 29-35.
  9. Jiang, M., Chen, Y., Liu, M., Rosenbloom, S. T., & Mani, S. (2019). Text mining for early identification of causal factors of medical conditions: An overview. Journal of Biomedical Informatics, 85, 39–50. https://doi.org/ 10.1016/j.jbi.2018.07.003
  10. Johnson, A. E. W., Pollard, T. J., Shen, L., Lehman, L. H., Feng, M., Ghassemi, M., Moody, B., Szolovits, P., Celi, L. A., & Mark, R. G. (2016). MIMIC-III, a freely accessible critical care database. Scientific Data, 3, 160035.
  11. Juratfsky, D., & Martin, J. H. (2022). Speech and language processing. Pearson.
  12. Kelleher, J. (2019). Deep learning. MIT Press.
  13. Kovalchuk, S. P., Ostapenko, L. I., & Kovtun, N. O. (2022). The use of artificial intelligence for medical data analysis in clinical practice. Ukrainian Journal of Computer Engineering and Technology, 30(1), 52–60. https://doi.org/10.15407/ujcet2022.01.052.
  14. Kozyr, O. L., Smirnov, I. A., & Levchenko, R. Y. (2021). Development of a symptom recognition system based on neural networks. Medical Informatics, 21(2), 65-72.
  15. Kyrylenko, R. S., & Yaremenko, T. O. (2020). Application of natural language processing for improving the quality of medical data. Journal of Medical Informatics, 22(5), 57-63.
  16. Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H., & Kang, J. (2020). BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 36(4), 1234–1240. https://doi. org/10.1093/bioinformatics/btz682.
  17. Li, I., Zhu, X., & Luo, Y. (2019). A survey of natural language processing methods for relation extraction from electronic health records. Journal of the American Medical Informatics Association, 26(4), 357–368. https://doi.org/10.1093/jamia/ocz043.
  18. Lisovyi, O. Y., Savchuk, T. I., & Pylypenko, A. A. (2020). Application of machine learning methods for medical text classification. Informatics, Management and Artificial Intelligence, 17(1), 43-49.
  19. Marchenko, I. P., Chernenko, L. O., & Dmytruk, V. O. (2019). Use of natural language processing methods for medical records analysis. Ukrainian Journal of Medical Informatics and Engineering, 17(2), 32-40.
  20. Marchenko, V. O., Tarasov, Y. I., & Petrenko, I. V. (2021). Diagnostic system based on medical records analysis. Ukrainian Journal of Medical Informatics and Engineering, 18(3), 28-34.
  21. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space.arXiv preprint, arXiv:1301.3781. https://arxiv.org/abs/1301.3781.
  22. Miroshnychenko, K. Y., & Romanenko, V. I. (2021). Data mining methods in medical texts: Modern approaches. Journal of Informatics and Cybernetics, 19(2), 22-28.
  23. Oliinyk, P. S., Parkhomenko, L. K., & Kulyk, D. V. (2022). Adaptation of natural language processing for medical texts in the Ukrainian language. Medical Informatics and Engineering, 15(1), 53-59.
  24. Panchal, R. (2015). Automated Healthcare System using Text Mining: A Survey. International Journal of Engineering Research And.
  25. Porterfield DS, Rojas-Smith L, Lewis M, et al. ( 2015) A Taxonomy of Integration Interventions Between Health Care and Public Health [Internet]. Research Triangle Park (NC): RTI Press. URL: https://www.ncbi.nlm. nih.gov/books/NBK532450/ doi: 10.3768/rtipress.2015.op.0023.1507
  26. Raj, P., & Vijayakumar, R. (2019). Natural language processing and computational linguistics: A practical guide to text analysis with Python, Gensim, spaCy, and Keras. Packt Publishing.
  27. Rajkomar, A., Dean, J., & Kohane, I. (2019). Machine learning in medicine. New England Journal of Medicine, 380, 1347–1358. https://doi.org/10.1056/NEJMra1814259.
  28. Raschka, S., & Mirjalili, V. (2017). Python machine learning. Packt Publishing.
  29. Romanenko, O. V., Shevchenko, T. A., & Ivashchenko, S. V. (2022). Symptom recognition using neural networks in medical records. Scientific Bulletin of the National University of Life and Environmental Sciences of Ukraine, 11(6), 32-41.
  30. Sidorenko, M. P., & Koval, H. O. (2021). A symptom recognition system for medical records. Medical Informatics and Engineering, 16(4), 67-73.
  31. Tarasenko, V. G., Zubchenko, S. P., & Orlov, K. L. (2020). Using NLP methods for processing medical texts in the Ukrainian language. Computer Science and Technology in Medicine, 19(3), 35-42.