Vision Transformers; Self-Supervised Learning; Cross-Modal Learning; Computer Vision; Deep Learning

САМОНАВЧАЛЬНІ ТРАНСФОРМЕРИ ЗОРУ ДЛЯ КРОС-МОДАЛЬНОГО НАВЧАННЯ (ОГЛЯД)

Системи комп’ютерного зору все більше розширюють межі свого застосування у задачах аналізу візуальних даних. Найбільшого розвитку та вдосконалення зазнають методики навчання моделей, адже результати цього етапу суттєво впливають на кінцеву класифікацію об’єктів та інтерпретацію вхідної інформації. Зазвичай у системах комп’ютерного зору використовують для навчання згорткові нейронні мережі (Convolution Neural Network, CNN).