Аналіз алгоритму Apriori для структурованих та неструктурованих даних

Автори: 
Левус Є. В., Нечипір Н. І., Полиняк Ю. В.

Національний університет “Львівська політехніка”, кафедра програмного забезпечення

Проаналізовано алгоритм Apriori як метод пошуку асоціативних правил у структурованих та неструктурованих даних з погляду кількості знайдених правил, швидкодії та потреб в обчислювальних ресурсах. Неструктуровані дані тісно пов’язані з терміном Big Data. Актуальним завданням інженерії даних є виявлення ефективних засобів опрацювання неструктурованої інформації. Для проведення обчислювальних експериментів розроблено програмну систему, що опрацьовує дані алгоритмом Apriori, предметною областю якої вибрано торгівлю. Така система може бути прототипом реальної рекомендаційної системи. Програмне рішення розроблено на стеку технологій Hadoop.

1. Montgomery Karen. Big Data Now: 2014 Edition. O’Reilly Media. – Junuary, 2015. – 165 p.

2. Майер-Шенбергер Виктор, Кукьер Кеннет. Большие данные. Революция, которая изменит то, как мы живём, работаем и мыслим = Big Data. A Revolution That Will Transform How We Live, Work, and Think / пер. с англ. И. Гайдюк. – М.: Манн, Иванов, Фербер, 2014. – 240 с.

3. Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data. John Wiley & Sons. 2014-12-19.300p.

4. Big Data Applience [Електронний ресурс] // Oracle Big Data: сайт. – Режим доступу https://www.oracle.com/engineered-systems/big-data-appliance/index.html.

5. Almasi, G.S. and A. Gottlieb (2009). Highly Parallel Computing. Benjamin // Cummings publishers, Redwood City, CA. – 235 с.

6. Шаховська Н. Б. Організація великих даних у розподіленому середовищі / Н. Б. Шаховська, Ю. Я. Болюбаш, О. М. Верес// Наукові праці ДонНТУ. Серія: обчислювальна техніка та автоматизація. – 2014. – № 2(27). – С. 147–155.

7. Павич Н. Я. Оцінювання ефективності опрацювання даних великих обсягів технологіями Spark та Hive / Н. Я. Павич, О. П. Крохмальна // Вісник Нац. ун-ту “Львів. політехніка” “Комп’ютерні системи та мережі”. – 2015. – № 830. – С. 128–135.

8. Сєдушев О. Ю. Методи видобування даних з баз нечітких знань / О. Ю. Сєдушев, Є. В. Буров // Вісник Нац. ун-ту “Львів. політехніка” “Інформаційні системи та мережі”. – 2014. – № 783. – С. 193–203.

9. Mapreduce Appliance. [Електронний ресурс] // MapReduce: сайт. – Режим доступу http://www.teradata.com/products/Aster_MapReduce_Appliance.

10. GreenPlum. [Електронний ресурс]//: сайт. – Режим доступу http://www.emc.com/campaign/global/greenplumdca/index.htm.

11. Zhu Yixia, Yao Liwen, Huang Shuiyuan, Huang Longjun. A association rules mining algorithm based on matrix and trees[J]. Computer science. 2006, 33(7):196-198.

12. Tong Qiang, Zhou Yuanchun, Wu Kaichao, Yan Baoping. A quantitative association rules mining algorithm[J]. Computer engineering. 2007.

13. Agrawal R., Imielinski T., Swami A. Mining association rules between sets of items in large database, In Proc. of the 1993 ACM-SIGMOD Int’l Conf. on Management of Data, 1993: 207-216.

14. Agrawal R. and Srikant, R. Fast algorithms for mining association rules. In Proc.20th Int. Conf. Very Large Data Bases, Santiago, Chile, 1994. 487–499.

15. Purdom P. W., Guch D. V., Groth D. P. Avarage case performance of the apriori algorithm – SIAM Journal on Computing, 33(5): 1223–1260, 2004.

16. Mohammed J. Zaki. Scalable algorithms for association mining – IEEE Transactions on Knowledge and Data Engineering, 12(3):373–390, 2000.

17. Brin S., Rajeev Motwani, Ullman J., Tsur S. Dynamic itemset couting and implication rules for market basket data// Proc. ACM SIGMOD Intern. Conference on Management of Data, 255–264 p., USA, 1997.

18. Apache Hadoop. [Електронний ресурс]// Big Data:сайт. – Режим доступу https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

19. Harris, Dereck Intel jettisons its Hadoop distro and puts millions behind Cloudera (27 March 2014).

20. Уайт, Том Hadoop. Подробное руководство= Hadoop: The Definitive Guide. – СПб., 2013. – 672 с.

21. Hadoop File System. [Електронний ресурс]// hadoop-distributed-file-system: сайт. – Режим доступу https://www. safaribooksonline.com/blog/2013/02/13/the-hadoop-distributed-file-system.

22. White T. Hadoop: The Definitive Guide, 4th Edition. O’Reilly Media. – March, 2015 – 756 p.

23. Нечипір Н. І. Опрацювання великих обсягів неструктурованих та структурованих даних алгоритмом Аpriori / Н. І. Нечипір, Є. В. Левус // Математичне та програмне забезпечення інтелектуальних систем: матер. XIIІ Міжнар. наук.-практ. конф. – Дніпропетровськ: Вид-во Дніпропетр. Нац. ун-ту ім. Олеся Гончара, 2015. – С. 34–36.

Левус Є. В. Аналіз алгоритму Apriori для структурованих та неструктурованих даних / Є. В. Левус, Н. І. Нечипір, Ю. В. Полиняк // Вісник Національного університету «Львівська політехніка». Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2017. — № 872. — С. 62–68.