Оцінювання ефективності опрацювання даних великих обсягів технологіями SPARK та HIVE

Authors:

Павич Н. Я., Крохмальна О. П.

Національний університет “Львівська політехніка”, кафедра програмного забезпечення

Проаналізовано технології опрацювання даних великих обсягів. Розроблено програмне рішення на кластері Hadoop та отримано результати порівняння ефектив- ності опрацювання даних великих обсягів технологіями Spark та Hive за часовими характеристиками і форматами даних. Запропоновано підходи до реалізації програмних систем для опрацювання даних великих обсягів технологіями Spark та Hive

1. Karen Montgomery. Big Data Now: 2014 Edition. O'Reilly Media. – Junuary, 2015 – 165 p. 2. White T. Hadoop: The Definitive Guide, 4th Edition. O'Reilly Media. – March, 2015 – 756 p. 3. Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia. Learning Spark. O'Reilly Media. – February 2015 – 276 p. 4. Edward Capriolo, Dean Wampler, Jason Rutherglen. Programming Hive. O'Reilly Media. – September, 2014. – 365 p. 5. Karau, H. Fast Data Processing With Spark. – Packt Publishing, 2013. – 120 p. 6. Gonzalez Joseph, Xin Reynold, Dave Ankur, Crankshaw Daniel, Franklin Michael, Stoica Ion (Oct 2014). GraphX: Graph Processing in a Distributed Dataflow Framework. 7. How to Process Data with Apache Hive [Електронний ресурс] // Hortonworks: сайт. – Режим доступу: http://hortonworks.com/hadooptutorial/how-to-process-data-with-apache-hive/ 8. Bi-Annual Data Exposition. [Електронний ресурс] // Statistical Computing: сайт. – Режим доступу: http://stat-computing.org/dataexpo/