Метод експоненційної аугментації даних для підвищення ефективності YOLO в задачах комп’ютерного зору

2025;
: cc. 189 - 202
1
Національний університет «Львівська політехніка»
2
Національний університет "Львівська політехніка", м. Львів, Україна

У статті розглядаються методи аугментації даних у завданні розпізнавання зображень, зокрема проаналізовано підхід експоненційної аугментації для покращення роботи глибоких нейронних мереж YOLO у задачах детекції об’єктів. Запропонована методика базується на послідовному та багаторазовому застосуванні різних перетворень, включаючи горизонтальне та вертикальне віддзеркалення, обертання на 90°, Gaussian Blur, зміну яскравості та контрастності. Такий підхід забезпечує експоненційне зростання вибірки та значно підвищує різноманітність навчальних даних, що є критичним для покращення узагальнювальної здатності моделі. На основі експериментів доведено, що застосування експоненційної аугментації сприяє суттєвому покращенню показників детекції, зокрема середньої точності детекції (mAP), зростанню Precision та Recall навіть за умов обмеженого початкового набору зображень. Крім того, було досліджено інтеграцію запропонованого підходу з іншими ефективними методами аугментації, зокрема Mosaic та MixUp. Результати показують, що комбінація експоненційної аугментації з цими методами дозволяє досягти більш стійких моделей, які краще розпізнають об’єкти в різноманітних умовах освітлення, ракурсах та рівнях зашумленості. Окрім аналізу точності, у статті також розглянуто вплив експоненційної аугментації на стабільність навчання, включаючи швидкість збіжності градієнтного спуску та стійкість до переобладнання. Показано, що багатократне збагачення вибірки даних дозволяє нейромережам швидше адаптуватися до складних умов та знижує ймовірність моделі запам’ятовувати лише конкретні приклади з навчальної вибірки. Запропонований метод може бути особливо корисним у задачах комп’ютерного зору, де навчальні набори обмежені або незбалансовані, а також у ситуаціях, коли необхідно підвищити точність моделі без значного збільшення обчислювальних витрат. Отримані результати підтверджують, що експоненційна аугментація є перспективним підходом для підвищення продуктивності YOLO та інших сучасних детекторів у складних сценаріях розпізнавання зображень.

  1. Bochkovskiy, A., Wang, C. Y., & Liao, H. Y. M. (2020). YOLOv4: Optimal speed and accuracy of object detection. arXiv preprint. doi: 10.48550/arXiv.2004.10934
  2. Buslaev, A., Iglovikov, V. I., Khvedchenya, E., Parinov, A., Druzhinin, M., & Seferbekov, S. (2020). Albumentations: Fast and flexible image augmentations. Information, 11(2), 125. doi: 10.3390/info11020125
  3. Cubuk, E. D., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019a). AutoAugment: Learning augmentation policies from data. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 113–123. doi: 10.1109/CVPR.2019.00020
  4. Cubuk, E. D., Zoph, B., Mané, D., Vasudevan, V., & Le, Q. V. (2019b). AutoAugment: Learning augmentation strategies from data. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 113–123). doi: 10.1109/CVPR.2019.00020
  5. Ghiasi, G., Cui, Y., Qian, R., Lin, T. Y., & Le, Q. V. (2021). Simple copy-paste is a strong data augmentation method for instance segmentation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2918–2928. doi: 10.1109/CVPR46437.2021.00293
  6. Luo, P., Zhu, Z., Liu, Z., Wang, X., & Tang, X. (2016). Face model compression by distilling knowledge from neurons. Proceedings of the AAAI Conference on Artificial Intelligence, 30(1). Retrieved from https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/view/12311
  7. Mumuni, A., & Mumuni, F. (2022). Data augmentation: A comprehensive survey of modern approaches. Array, 16, 100258. doi: 10.1016/j.array.2022.100258
  8. Myshkovskyi, Y., & Nazarkevych, M. (2024). Method of fingerprint identification based on convolutional neural networks. SISN, 15, 1–14. doi: 10.23939/sisn2024.15.001
  9. Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 779–788. doi: 10.1109/CVPR.2016.91
  10. Shorten, C., & Khoshgoftaar, T. M. (2019). A survey on image data augmentation for deep learning. Journal of Big Data, 6(1), 60. doi: 10.1186/s40537-019-0197-0
  11. Tan, M., & Le, Q. (2019). EfficientNet: Rethinking model scaling for convolutional neural networks. Proceedings of the 36th International Conference on Machine Learning (ICML), 6105–6114. Retrieved from http://proceedings.mlr.press/v97/tan19a.html
  12. Wang, C. Y., Bochkovskiy, A., & Liao, H. Y. M. (2021). Scaled-YOLOv4: Scaling cross stage partial network. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 13029–13038. doi: 10.1109/CVPR46437.2021.01283
  13. Yun, S., Han, D., Oh, S. J., Chun, S., Choe, J., & Yoo, Y. (2019). CutMix: Regularization strategy to train strong classifiers with localizable features. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 6023–6032. doi: 10.1109/ICCV.2019.00612
  14. Zhang, H., Cisse, M., D auphin, Y. N., & Lopez-Paz, D. (2018). mixup: Beyond empirical risk minimization. International Conference on Learning Representations (ICLR). Retrieved from https://openreview.net/forum?id=r1Ddp1-Rb
  15. Zhong, Z., Zheng, L., Kang, G., Li, S., & Yang, Y. (2020). Random Erasing Data Augmentation. Proceedings of the AAAI Conference on Artificial Intelligence, 34(7), 13001–13008. doi: 10.1609/aaai.v34i07.7000