Автономна навігація безпілотних літальних апаратів (БПЛА) в неструктурованих промислових середовищах залишається складним завданням через нерегулярну геометрію, динамічні перешкоди та невизначеність сенсорних даних. Класичні системи SLAM, попри геометричну узгодженість, часто виявляються нестійкими за умов поганої ініціалізації, відсутності текстури або наявності віддзеркалювальних поверхонь. Щоб подолати ці обмеження, у роботі запропоновано гібридний трансформерно-геометричний підхід, який поєднує навчальні апріорні уявлення сцени з ключовим SLAM-конвеєром. Енкодер TinyViT та легковаговий мультизадачний декодер спільно оцінюють зворотну глибину, нормалі поверхні та семантичну сегментацію, формуючи густі геометричні й семантичні підказки, що стабілізують локалізацію й побудову карти. Ці апріорні дані інтегруються в оптимізацію SLAM для прискорення збіжності, відкидання динамічних об’єктів та покращення релокалізації. Система працює майже в реальному часі (~1 FPS) на CPU Raspberry Pi 5, що робить її придатною для покадрового інференсу. Експерименти демонструють стійку локалізацію та консистентне картографування у захаращених, віддзеркалювальних і динамічних промислових сценах, підтверджуючи, що трансформерна густинна перцепція ефективно доповнює класичний SLAM для ресурсоощадної навігації БПЛА.
- Pistun, Y. , Lesovoy, L. , Matiko, F., Fedoryshyn, R. (2014). Computer Aided Design of Differential Pressure Flow Meters. World Journal of Engineering and Technology, 2, 68-77. https://doi.org/10.4236/wjet.2014.22009
- A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly and J. Uszkoreit. (2020). An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. arXiv preprint arXiv:2010.11929.
- Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin and B. Guo. (2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. Proc. IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, Oct. 10‑17 2021, pp. 10012‑10022. https://doi.org/10.1109/ICCV48922.2021.00986
- Z. Teed and J. Deng. (2021). DROID‑SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB‑D Cameras. Advances in Neural Information Processing Systems (NeurIPS), vol. 34/35. arXiv:2108.10869
- Z. Zhu, S. Peng, et al. (2022). NICE‑SLAM: Neural Implicit Scalable Encoding for SLAM. Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). arXiv:2112.12130. https://doi.org/10.1109/CVPR52688.2022.01245
- J. Czarnowski, T. Laidlow, R. Clark and A. J. Davison. (2020). DeepFactors: Real‑Time Probabilistic Dense Monocular SLAM. IEEE Robot. Autom. Lett. arXiv:2001.05049. https://doi.org/10.1109/LRA.2020.2965415
- X. Zhai, J. Wu, Y. Wang, K. Ye, S. Ruan, et al. (2021). Scaling Vision Transformers. arXiv preprint arXiv:2106.04560.
- Y. Chen, C.–F. Chen, Z. Dong, T. Wu, et al. (2021). CrossViT: Cross‑Attention Multi‑Scale Vision Transformer for Image Classification. Proc. IEEE/CVF International Conference on Computer Vision (ICCV). https://doi.org/10.1109/ICCV48922.2021.00041
- X. Dong, J. Bao, D. Chen, W. Zhang, N. Yu, L. Yuan, D. Chen and B. Guo. (2021). CSWin Transformer: A General Vision Transformer Backbone with Cross‑Shaped Windows. arXiv preprint arXiv:2107.00652. https://doi.org/10.1109/CVPR52688.2022.01181
- X. Zhang, Y. Tian, W. Huang, Q. Ye, L. Xie and Q. Tian. (2022). HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling. arXiv preprint arXiv:2205.14949.
- A. Hassani and H. Shi. (2022). Dilated Neighborhood Attention Transformer. arXiv preprint arXiv:2209.15001.
- X. Yu, et al. (2023). Mix‑ViT: Mixing Attentive Vision Transformer for Ultra‑Fine‑Grained Visual Classification. Signal Processing, vol. 215. https://doi.org/10.1016/j.patcog.2022.109131
- X. Bai, Z. Hu, X. Zhu, et al. (2022). TransFusion: Robust LiDAR‑Camera Fusion for 3D Object Detection with Transformers. Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). arXiv:2203.11496. https://doi.org/10.1109/CVPR52688.2022.00116
- Z. Li, W. Wang, E. Xie, et al. (2022). BEVFormer: Learning Bird’s‑Eye‑View Representation from Multi‑Camera Images via Spatio‑Temporal Transformers. Proc. European Conference on Computer Vision (ECCV). arXiv:2203.17270
- A. Kirillov, E. Mintun, N. Ravi, et al. (2023). Segment Anything (SAM). arXiv preprint arXiv:2304.02643. https://doi.org/10.1109/ICCV51070.2023.00371
- Y. Xiong, B. Varadarajan, et al. (2024). EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything. Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). arXiv:2312.00863. https://doi.org/10.1109/CVPR52733.2024.01525
- N. Silberman, D. Hoiem, P. Kohli, and R. Fergus. (2012). NYU Depth Dataset V2. [Online]. Available: https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- A. Dai, A. X. Chang, M. Savva, et al. (2017). ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. https://doi.org/10.1109/CVPR.2017.261
- J. Sturm, N. Engelhard, F. Endres, W. Burgard, and D. Cremers. (2012). A Benchmark for the Evaluation of RGB-D SLAM Systems. https://doi.org/10.1109/IROS.2012.6385773