Метод первинної обробки слабоструктурованих медичних даних

2020;
: cc. 1 - 10
1
Сумський державний університет, кафедра комп’ютерних наук
2
Сумський державний університет, кафедра комп’ютерних наук
3
Сумський державний університет, кафедра комп’ютерних наук

У статті розглянуто підхід до первинної обробки слабоструктурованих текстових даних медичних протоколів, що зберігаються та розповсюджуються у вигляді файлів у pdf-форматі. Актуальність даної роботи зумовлена відсутністю універсальної структури подання медичних протоколів та методів їх обробки. У ході роботи вирішено задачу первинної обробки даних клінічних протоколів на прикладі уніфікованого клінічного протоколу первинної, вторинної (спеціалізованої) та третинної (високоспеціалізованої) медичної допомоги. Розроблено метод первинної обробки даних для створення чіткої структури симптомів хвороби. Першим етапом структуризації даних клінічного протоколу запропоновано розділення інформації з протоколу на чотири базові частини, що дозволяє пришвидшити його конвертування у інші формати. Даний процес реалізовано за допомогою алгоритму, який розроблено мовою програмування С#. Запропонований алгоритм реалізує парсинг інформації з файлу, що представлений у pdf-форматі, та перетворює її у txt файл. Після цього виконується обробка одержаної інформації, що полягає у синтаксичному аналізі текст протоколу та виділенні структурних частин протоколу, що відповідають заголовкам розділів: титульний аркуш; вступ; перелік скорочень, що використовуються у протоколі; основна частина протоколу; перелік літературних джерел. Ідентифікація назви хвороби у медичному протоколі виконується шляхом порівняння даних з протоколу та переліком назв захворювань, що представлені у світовій класифікації МКХ-10. Було проаналізовано заголовки «Вступ», «Перелік скорочень, що використовуються у протоколі» та основної частини протоколу та запропоновано алгоритм видалення малоінформативних розділів з початку протоколу, наприклад, літературних джерел. Також розроблено алгоритм пошуку інформації у основній частині медичного протоколу шляхом обробки вхідних даних по таблицям, схемам, заголовкам, словам, фразам та спеціальним символам. У результаті роботи алгоритмів обробки клінічного протоколу формується новий файл клінічного протоколу, що має приблизно в три рази менший обсяг в порівнянні з початковим файлом. Він містить у собі лише змістовну інформацію з клінічних протоколів, що прискорить подальшу роботу з цим файлом, а саме його використання в системі підтримки прийняття медичних рішень. Представлено картку хвороби на основі медичного протоколу у форматі JSON.

  1. Jensen, K., Soguero-Ruiz, C., Oyvind Mikalsen, K., Lindsetmo, R., Kouskoumvekaki, I., Girolami, M., Augestad, K. M. (2017). Analysis of free text in electronic health records for identification of cancer patient trajectories. Scientific Reports, 7(1). doi:10.1038/srep46226
  2. Kung, R., Ma, A., Dever, J. B., Vadivelu, J., Cherk, E., Koola, J. D., Ho, S. B. (2015). Mo1043 a natural language processing Alogrithm for identification of patients with cirrhosis from electronic medical records. Gastroenterology, 148(4), S-1071-S-1072. doi:10.1016/s0016-5085(15)33662-3
  3. Li, D., Azoulay, P., & Sampat, B. N. (2017). The applied value of public investments in biomedical research. Science, 356(6333), 78-81. doi:10.1126/science.aal0010
  4. Patel, R., Lloyd, T., Jackson, R., Ball, M., Shetty, H., Broadbent, M., Taylor, M. (2015). Mood instability is a common feature of mental health disorders and is associated with poor clinical outcomes. BMJ Open, 5(5), e007504-e007504. doi:10.1136/bmjopen-2014-007504
  5. Wi, C., Sohn, S., Rolfes, M. C., Seabright, A., Ryu, E., Voge, G., Juhn, Y. J. (2017). Application of a natural language processing algorithm to asthma ascertainment. An automated chart review. American Journal of Respiratory and Critical Care Medicine, 196(4), 430-437. doi:10.1164/rccm.201610-2006oc
  6. Afzal, N., Sohn, S., Abram, S., Scott, C. G., Chaudhry, R., Liu, H., Arruda-Olson, A. M. (2017). Mining peripheral arterial disease cases from narrative clinical notes using natural language processing. Journal of Vascular Surgery, 65(6), 1753-1761. doi:10.1016/j.jvs.2016.11.031
  7. O365devx. (n.d.). Working with XML Schemas in InfoPath. Technical documentation, API, and code examples | Microsoft Docs. https://docs.microsoft.com/en-us/office/client-developer/infopath/form- templates/working-with-xml-schemas-in-infopath
  8. The Latest MML (Medical Markup Language) Version 2.3 — XML-Based Standard for Medical Data Exchange/Storage. (n.d.). ResearchGate. https://www.researchgate.net/publication/10675074_The_Latest_MML_Medical...
  9. Parsing PDF Files using iTextSharp (C#, .NET). (n.d.). Square PDF .NET. https://www.squarepdf.net/parsing-pdf-files-using-itextsharp