Комплексний аналіз техніки навчання на малому наборі даних для задачі класифікації методом оптимізації трійок

2022;
: cc. 103 - 109
1
Львівський національний університет імені Івана Франка
2
Львівський національний університет імені Івана Франка

Задача класифікації зображень є дуже важливою сучасною проблемою в області комп’ютерного зору. Перші підходи до розв’язання цієї задачі полягали у використанні класичних  алгоритмів.  Незважаючи  на  певний  прогрес,  отриманий,  класичними  підходами, більшість складніших задач класифікації зображень залишались нерозв’язаними до моменту використання алгоритмів машинного навчання. Перші спроби застосування машинного навчання до задачі розпізнавання зображень допомогли класифікувати набори ознак, які опрацювати прямими алгоритмами не вдавалось. Проте витягування множини ознак залиша- лося за прямими алгоритмами тривалий час. Нещодавний прогрес у сфері глибокого навчання відкрив можливість побудови систем автоматичного витягування множини ознак. Це дало значний прогрес у області ком’ютерного бачення і не тільки. Обробка великомасштабних наборів даних призвела до прориву у задачах розпізнаванні зображень. Проте нове обмеження з’явилося - залежність від кількості наявних проанотованих даних. Методи глибинного навчання для задачі класифікації зображення зазвичай вимагають великої кількості проанотованих зображень. Більше того, сучасні моделі схильні до неочікуваної поведінки на наборах даних з іншого домену (нових класі у випадку розпізнавання зображень). Методи навчання на малому наборі даних дозволяють при тренуванні глибоких нейронних мереж використовувати значно менше даних, зберігаючи таку ж саму точність розпізнавання. Незважаючи на це, залишається компроміс між кількістю наявних даних та точністю моделі. В цій роботі ми побудували сіамську нейронну мережу на основі функції втрат трійки. Ми дослідили як наявна кількість даних впливає на точність розпізнавання сіамської нейронної мережі. Ми порівняли моделі отриманні навчанням на основі метрик та базової моделі, протренованої на великомасштабних наборах даних.

  1. Canny, J. (1986). A computational approach to edge detection. IEEE Transactions on pattern analysis and machine intelligence, (6), 679–698. https://doi.org/10.1109/TPAMI.1986.4767851.
  2. Said, K. A. M., Jambek, A. B., & Sulaiman, N. (2016). A study of image processing using morphological opening and closing processes. International Journal of Control Theory and Applications, 9(31), 15–21. https://doi.org/10.1109/ICED.2016.7804697.
  3. Ye, H. J., Ming, L., Zhan, D. C., & Chao, W. L. (2021). Few-shot learning with a strong teacher. arXiv preprint arXiv:2107.00197. https://doi.org/10.1109/TPAMI.2022.3160362.
  4. Hoffer, E., & Ailon, N. (2015, October). Deep metric learning using triplet network. In International workshop on similarity-based pattern recognition, 84–92. Springer, Cham. https://doi.org/10.1007/978-3-319-24261- 3_7.
  5. Li, X., Wei, T., Chen, Y. P., Tai, Y. W., & Tang, C. K. (2020). Fss-1000: A 1000-class dataset for few-shot segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2869– 2878.    https://doi.org/10.1109/CVPR42600.2020.00294.
  6. Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009, June). Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, 248–255. Ieee. https://doi.org/10.1109/CVPR.2009.5206848.
  7. Xuan, H., Stylianou, A., & Pless, R. (2020). Improved embeddings with easy positive triplet mining. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2474–2482. https://doi.org/10.1109/WACV45572.2020.9093432.