У цій статті представлено імплементацію кластера Apache Spark для розподілених обчислень на базі
мікрокомп'ютерів Raspberry Pi. Рішення складається з трьох пристроїв Raspberry Pi 4 (один головний вузол і два
робочі вузли), кожен з 8 ГБ оперативної пам'яті та високошвидкісним мережевим з'єднанням. Конфігурація
кластера оптимізована шляхом налаштування параметрів SPARK_WORKER_MEMORY та
SPARK_WORKER_CORES для забезпечення максимальної ефективності доступних апаратних ресурсів.
Захищене з’єднання між вузлами забезпечене через автентифікацію з використанням 4096-бітних SSH-ключів.
Функціональність кластера перевірена за допомогою тестового застосунку, що показав ефективний розподіл
обчислювального навантаження між вузлами. Вартість розробленого рішення – 400 доларів США, що в чотири
рази менше, ніж вартість використання еквівалентних хмарних ресурсів протягом року. Результати
дослідження підтверджують, що кластер на базі Raspberry Pi забезпечує всі необхідні можливості для
практичного вивчення технологій розподілених обчислень, забезпечуючи фізичний доступ до всіх компонентів
системи при недорогій собівартості.
- F. Dai, M. A. Hossain, and Y. Wang, “State of the Art in Parallel and Distributed Systems: Emerging Trends and Challenges,” Electronics, vol. 14, no. 4, p. 677, Feb. 2025, doi: 10.3390/electronics14040677.
- V. Thesma, G. C. Rains, and J. Mohammadpour Velni, “Development of a Low-Cost Distributed Computing Pipe- line for High-Throughput Cotton Phenotyping,” Sensors, vol. 24, no. 3, p. 970, Feb. 2024, doi: 10.3390/s24030970.
- A. Alakuu and D. K. Dake, “Cloud Computing in Education: A review of Architecture, Applications, and Integration Challenges,” IJCA, vol. 186, no. 66, pp. 49–65, Feb. 2025, doi: 10.5120/ijca2025924472.
- S. Younus, K. Kumar, I. A. Kandhro, A. A. Laghari, and A. Ali, “Systematic Analysis of On Premise and Cloud Services,” IJCC, vol. 13, no. 3, p. 10063641, 2024, doi: 10.1504/IJCC.2024.10063641.
- A. A. Abdulle, A. Farah Ali, and R. H. Abdullah, “Cost- Benefit Analysis of Public Cloud Versus In-House Computing,” IJETT, vol. 70, no. 6, pp. 300–307, Jun. 2022, doi: 10.14445/22315381/IJETT-V70I6P231.
- A. Katal, S. Dahiya, and T. Choudhury, “Energy efficiency in cloud computing data centers: a survey on software technologies,” Cluster Comput, vol. 26, no. 3, pp. 1845–1875, Jun. 2023, doi: 10.1007/s10586-022-03713-0.
- G. Agapito and M. Cannataro, “An Overview on the Challenges and Limitations Using Cloud Computing in Healthcare Corporations,” BDCC, vol. 7, no. 2, p. 68, Apr. 2023, doi: 10.3390/bdcc7020068.
- P. K. Donta, I. Murturi, V. Casamayor Pujol, B. Sedlak, and S. Dustdar, “Exploring the Potential of Distributed Computing Continuum Systems,” Computers, vol. 12, no. 10, p. 198, Oct. 2023, doi: 10.3390/computers12100198.
- “Spark Overview.” Apache Software Foundation. [Online].Available: https://spark.apache.org/docs/latest/
- P. Sewal and Hari Singh, “Performance Comparison of Apache Spark and Hadoop for Machine Learning based iterative GBTR on HIGGS and Covid-19 Datasets,” SCPE, vol. 25, no. 3, pp. 1373–1386, Apr. 2024, doi: 10.12694/scpe.v25i3.2687.
- M. Zaharia, M. Chowdhury, M. J. Franklin, S. Shenker, and I. Stoica., “Spark: Cluster Computing with Working Sets,” 2010. [Online]. Available: https://www.usenix.org/ legacy/event/hotcloud10/tech/full_papers/Zaharia.pdf
- N. Ahmed, A. L. C. Barczak, M. A. Rashid, and T. Susnjak, “A parallelization model for performance characterization of Spark Big Data jobs on Hadoop clusters,” J Big Data, vol. 8, no. 1, p. 107, Dec. 2021, doi: 10.1186/s40537-021-00499-7.
- Z.-D. Zhang et al., “TopADDPi: An Affordable and Sustainable Raspberry Pi Cluster for Parallel-Computing Topology Optimization,” Processes, vol. 13, no. 3, p. 633, Feb. 2025, doi: 10.3390/pr13030633.
- M. Cloutier, C. Paradis, and V. Weaver, “A Raspberry Pi Cluster Instrumented for Fine-Grained Power Measurement,” Electronics, vol. 5, no. 4, p. 61, Sep. 2016, doi: 10.3390/electronics5040061.
- E. Shoop, S. J. Matthews, R. Brown, and J. C. Adams, “Hands-on parallel & distributed computing with Raspberry Pi devices and clusters,” Journal of Parallel and Distributed Computing, vol. 196, p. 104996, Feb. 2025, doi: 10.1016/j.jpdc.2024.104996.
- “Spark Configuration.” Apache Software Foundation. [Online]. Available: https://spark.apache.org/docs/latest/ configuration.html
- “Amazon EC2 On-Demand Pricing.” AWS. [Online]. Available: https://aws.amazon.com/ec2/pricing/on-demand/