Використання класичних технік відновлення втрачених регіонів зображення для покращення роботи моделей глибокого навчання

2022;
: cc. 1 - 6
1
Львівський національний університет імені Івана Франка
2
Львівський національний університет імені Івана Франка
3
Fielden Management Services Pty. Ltd

У сучасному світі щодня кількість наявної інформації зростає експоненційно. Велика частина цих даних належить до візуальних даних. Відповідно зростає попит на алгоритми опрацювання зображень. Традиційно першими підходами до задач комп’ютерного зору були класичні алгоритми без використання машинного навчання. Такі підходи зазвичай обмежені багатьма чинниками. Це стосується насамперед умов, накладених на вхідні зображення, – ракурс знімання, освітлення, положення об’єктів на сцені тощо. З іншого боку, класичні алгоритми не можуть задовольнити потреби сучасних задач комп’ютерного зору.

Нейромережеві підходи та моделі глибинного навчання багато в чому замінили класичне програмування алгоритмів. Найбільшою перевагою глибоких нейронних мереж у задачі комп’ютерного зору і не тільки є можливість автоматичної побудови алгоритмів оброблення даних, які неможливо побудувати іншим способом, а й всеосяжність такого підходу – зазвичай глибинні нейромережі виконують усі етапи оброблення зображень від початку до кінця. Проте такий підхід  не завжди оптимальний. Для тренування моделей необхідна  наявність великої кількості проанотованих даних, щоб уникнути ефекту перенавчання таких моделей. У багатьох задачах для умов середовища характерний значний ступінь варіативності, проте вони є обмеженими. У таких випадках плідною є співпраця обох підходів комп’ютерного зору – попереднє оброблення зображення виконують класичні алгоритми, а безпосередньо передбачення (класи- фікація, пошук об’єктів тощо) – нейромережа.

У статті розглянуто приклад використання пошкоджених зображень у задачі класифікації (у найгірших випадках відсоток пошкодження досягав 60 % площі зображення). Ми показали на практиці, що використання класичних підходів реставрації пошкоджених ділянок зображення (inpainting) дало змогу покращити фінальну точність моделі до 10 % порівняно з базовою моделлю, тренованою у ідентичних умовах на оригінальних даних.

  1. Merino, Ibon & Azpiazu, Jon & Remazeilles, Anthony & Sierra, Basilio (2020). 2D Image Features Detector And Descriptor Selection Expert System. DOI: 10.5121/csit.2019.91206.
  2. Gong, Xin-Yi & Su, Hu & Xu, De & Zhang, Zhengtao & Shen, Fei & Yang, Hua-Bin (2018). An Overview of Contour Detection Approaches. International Journal of Automation and Computing, 15, 1–17. 10.1007/s11633- 018-1117-z. DOI: 10.1007/s11633-018-1117-z.
  3. Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556. DOI: 10.1109/TPAMI.2015.2502579.
  4. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, 770–778. DOI: 10.1109/CVPR.2016.90.
  5. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., ... & Rabinovich, A. (2015). Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition, 1–9. DOI: 10.1109/CVPR.2015.7298594.
  6. Tan, M., & Le, Q. (2019, May). Efficientnet: Rethinking model scaling for convolutional neural networks. In International conference on machine learning, 6105–6114. PMLR. DOI: 10.1109/ECTI-CON54298.2022.9795496.