МЕТОД КОМБІНОВАНОГО ПАРТИЦІЮВАННЯ ВЕЛИКИХ ДАНИХ В ІНФОРМАЦІЙНИХ СИСТЕМАХ

Volodymyr Solohub; Mykola Beshley

У сучасних умовах швидкого зростання обсягів даних інформаційні системи мають забезпечувати не лише зберігання та доступ до великих масивів інформації, а й стабільну продуктивність при виконанні різнотипних запитів. Важливим завданням є досягнення балансу між ефективністю аналітичних (OLAP) операцій та швидкодією транзакційних (OLTP) процесів. Традиційні методи організації даних у реляційних СУБД часто втрачають ефективність у масштабованих середовищах, що призводить до збільшення часу обробки, зниження гнучкості та ускладнення управління базами даних. Це зумовлює актуальність пошуку нових підходів до оптимізації партиціювання даних, здатних забезпечити високу швидкодію та масштабованість у гібридних інформаційних системах. У статті досліджено існуючі методи партиціювання даних в інформаційних системах, орієнтованих на роботу з великими обсягами структурованої інформації та здатних обслуговувати одночасно OLAP і OLTP навантаження. Проаналізовано механізми розділення таблиць у сучасних СУБД. Визначено переваги й недоліки кожного підходу з урахуванням вимог до швидкодії, масштабованості та зручності управління даними. Запропоновано метод комбінованого партиціювання даних (range + list), адаптований до гібридних інформаційних систем, що одночасно обслуговують OLAP та OLTP навантаження. Відмінністю від традиційних підходів є не лише застосування комбінованого партиціювання для аналітичних задач, а й комплексний аналіз його впливу на ефективність виконання аналітичних запитів та швидкодію транзакційних операцій. Отримані результати підтверджують, що розроблений метод забезпечує баланс між продуктивністю обох типів навантажень, сприяє підвищенню масштабованості та гнучкості інформаційних систем і може розглядатися як універсальний підхід для роботи з великими обсягами даних. Для дослідження побудовано уніфіковану імітаційну модель обробки даних в інформаційних системах за схемою «зірки» з фактологічною таблицею продажів, що дозволяє виконувати як операції бізнес-аналітики, так і транзакційні CRUD-операції. Експериментальні результати доводять, що комбіноване партиціювання забезпечує скорочення часу виконання аналітичних запитів на 30–40% без істотних втрат швидкодії CRUD-операцій, що робить його ефективним інструментом підвищення продуктивності масштабованих інформаційних систем з великими обсягами даних.

[1] S. Ponnusamy and P. Gupta, "Scalable Data Partitioning Techniques for Distributed Data Processing in Cloud Environments: A Review," in IEEE Access, vol. 12, pp. 26735-26746, 2024, doi: 10.1109/ACCESS.2024.3365810.

[2] H. Song, W. Zhou, H. Cui, X. Peng, and F. Li, “A survey on hybrid transactional and analytical processing,” VLDB J., vol. 33, no. 5, pp. 1485–1515, 2024, doi:10.1007/s00778-024-00858-9

[3] D. Corral-Plaza, I. Medina-Bulo, G. Ortiz, and J. Boubeta-Puig, “A stream processing architecture for heterogeneous data sources in the Internet of Things,” Comput. Stand. Interfaces, vol. 70, no. 103426, p. 103426, 2020, doi:10.1016/j.csi.2020.103426

[4] P.-J. Liu, C.-P. Li, and H. Chen, “Enhancing storage efficiency and performance: A survey of data partitioning techniques,” J. Comput. Sci. Technol., vol. 39, no. 2, pp. 346–368, 2024, doi:10.1007/s11390-024-3538-1