Об’єктом дослідження є процес організації сховища дескрипторів у системах пошуку зображень на основі вмісту. Предметом дослідження є метод чисельної оптимізації кластеризації дескрипторів у багатовимірному просторі. Метою даної роботи є розроблення методу оптимізації кластеризації в моделі Багатовимірний Куб для підвищення ефективності пошуку. Основна ідея полягає у забезпеченні рівномірного розподілу дескрипторів між кластерами шляхом коригування меж інтервалів у кожному вимірі, що дозволяє зменшити дисбаланс наповненості кластерів і покращити швидкодію пошуку. Методологія дослідження поєднує аналітичне визначення кількості кластерів та чисельну оптимізацію розподілу дескрипторів за інтервалами. Запропонований метод отримав назву Dimension Intervals Numeric Optimization Algorithm та реалізований у двох варіантах - для розміщення моделі у зовнішньому реляційному сховищі та для розміщення в оперативній пам’яті. Теоретичний аналіз складності показав, що запропонований підхід не потребує багаторазових ітерацій, на відміну від конкурентів, з якими виконувалося порівняння, методу k-means та підходу Inverted Multi-Index, і має нижчу асимптотичну складність. Експериментальні дослідження виконано на наборі дескрипторів зображень. Вони показали, що k-means забезпечує найвищу якість кластеризації за наповненістю кластерів, проте вимагає значно більше часу. Запропонований метод у варіанті з оперативною пам’яттю продемонстрував найкращий баланс між якістю та швидкодією, наближаючись за якістю до Inverted Multi-Index, але перевершуючи його за часом виконання. Реалізація у зовнішньому сховищі виявилася повільнішою через наклад- ні витрати на опрацювання запитів, проте є доцільною у масштабованих системах з централізованими базами даних. Застосування розробленого методу чисельної оптимізації дозволяє досягти більш рівномірного розподілу дескрипторів між кластерами, зменшити дисбаланс їхньої наповненості.
- Ai, L., Cheng, H., Wang, X., Chen, C., Liu, D., Zheng, X., & Wang, Y. (2022). Approximate Nearest Neighbor Search Using Enhanced Accumulative Quantization. Electronics, 11(14), 2236. https://doi.org/10.3390/- electronics11142236.
- Alsmadi, M. K. (2020). Content-Based Image Retrieval Using Color, Shape and Texture Descriptors and Features. Arabian Journal for Science and Engineering, 45(4), 3317–3330. https://doi.org/10.1007/s13369-020- 04384-y.
- Babenko, A., & Lempitsky, V. (2012). The inverted multi-index. 2012 IEEE Conference on Computer Vision and Pattern Recognition, 3069–3076. IEEE. Retrieved from https://doi.org/10.1109/cvpr.2012.6248038.
- Badshah, A., Daud, A., Alharbey, R., Banjar, A., Bukhari, A., & Alshemaimri, B. (2024). Big data applications: overview, challenges and future. Artificial Intelligence Review, 57(11). https://doi.org/10.1007/s10462-024- 10938-5.
- Bano, S., & Khan, M. N. A. (2018). A Survey of Data Clustering Methods. International Journal of Advanced Science and Technology, 113, 133–142. https://doi.org/10.14257/ijast.2018.113.14.
- Chembian, W. T., Senthilkumar, G., Prasanth, A., & Subash, R. (2024). K-means Pelican Optimization Algorithm based Search Space Reduction for Remote Sensing Image Retrieval. Journal of the Indian Society of Remote Sensing, 53(1), 101–115. https://doi.org/10.1007/s12524-024-01994-z.
- Chen, Y., Long, Y., Yang, Z., & Long, J. (2025). Unsupervised random walk manifold contrastive hashing for multimedia retrieval. Complex & Intelligent Systems, 11(4). https://doi.org/10.1007/s40747-025-01814-y.
- Clissa, L., Lassnig, M., & Rinaldi, L. (2023). How big is Big Data? A comprehensive survey of data production, storage, and streaming in science and industry. Frontiers in Big Data, 6. https://doi.org/10. 3389/fdata.2023.1271639.
- COCO. Retrieved from Common Objects in Context website: https://cocodataset.org/#home.
- Danylenko, S., & Smelyakov, S. (2025). Development of a multidimensional data model for efficient content-based image retrieval in big data storage. Radioelectronic and Computer Systems, 2025(1), 137–152. https://doi.org/10.32620/reks.2025.1.10.
- facebookresearch. GitHub - facebookresearch/faiss: A library for efficient similarity search and clustering of dense vectors. Retrieved February 9, 2025, from GitHub website: https://github.com/facebookresearch/faiss.
- Ge, T., He, K., Ke, Q., & Sun, J. (2013). Optimized Product Quantization for Approximate Nearest Neighbor Search. 2013 IEEE Conference on Computer Vision and Pattern Recognition. IEEE. Retrieved from https://doi.org/10.1109/cvpr.2013.379.
- Gupta, D., Loane, R., Gayen, S., & Demner-Fushman, D. (2023). Medical image retrieval via nearest neighbor search on pre-trained image features. Knowledge-Based Systems, 278, 110907. https://doi.org/10.1016/ j.knosys.2023.110907.
- Jatakia, V., Korlahalli, S., & Deulkar, K. (2017). A survey of different search techniques for big data. 2017 International Conference on Innovations in Information, Embedded and Communication Systems (ICIIECS), 1–4. IEEE. Retrieved from https://doi.org/10.1109/iciiecs.2017.8275939.
- Jégou, H., Douze, M., & Schmid, C. (2011). Product Quantization for Nearest Neighbor Search. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(1), 117–128. https://doi.org/10.1109/tpami.2010.57.
- Jiang, X., & Hu, F. (2024). Multi-scale Adaptive Feature Fusion Hashing for Image Retrieval. Arabian Journal for Science and Engineering. https://doi.org/10.1007/s13369-024-09627-w.
- Li, X., Yang, J., & Ma, J. (2021). Recent developments of content-based image retrieval (CBIR). Neurocomputing, 452, 675–689. https://doi.org/10.1016/j.neucom.2020.07.139.
- Liu, J., Zhao, M., & Zhan, C. (2024). Deep Representation-Based Fuzzy Graph Model for Content-Based Image Retrieval. International Journal of Fuzzy Systems, 26(6), 2011–2022. https://doi.org/10.1007/s40815-024- 01682-7.
- Malkov, Y. A., & Yashunin, D. A. (2020). Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(4), 824–836. https://doi.org/10.1109/tpami.2018.2889473.
- RezaAbbasifard, M., Ghahremani, B., & Naderi, H. (2014). A Survey on Nearest Neighbor Search Methods.International Journal of Computer Applications, 95(25), 39–52. https://doi.org/10.5120/16754-7073.
- Tiwari, V. R. (2023). Developments in KD Tree and KNN Searches. International Journal of Computer Applications, 185(17), 17–23. https://doi.org/10.5120/ijca2023922879.
- Vopson, M. M. (2020). The information catastrophe. AIP Advances, 10(8). https://doi.org/10.1063/5.0019941. Wu, Q., Yu, Y., Zhou, L., Lu, Y., Chen, H., & Qian, X. (2023). Storage and Query Indexing Methods on Big Data.
- Arabian Journal for Science and Engineering, 49(5), 7359–7374. https://doi.org/10.1007/s13369-023- 08175-z.