дані великих обсягів

Оцінювання ефективності опрацювання даних великих обсягів технологіями SPARK та HIVE

Проаналізовано технології опрацювання даних великих обсягів. Розроблено програмне рішення на кластері Hadoop та отримано результати порівняння ефектив- ності опрацювання даних великих обсягів технологіями Spark та Hive за часовими характеристиками і форматами даних. Запропоновано підходи до реалізації програмних систем для опрацювання даних великих обсягів технологіями Spark та Hive

Модель Великих даних «сутність-характеристика»

Описано задачі, що призвели до появи Великих даних. Описано особливості баз даних NoSQL та їх категорії. Введено модель Великих даних “сутність-характеристика”, що дає змогу визначити відстань між джерелами даних стосовно наявності інформації про певну сутність.