R2 METRIC DYNAMICS FOR K-NEAREST NEIGHBORS REGRESSION MODEL TRAINED ON SERIES OF DIFFERENT SIZES

1
State University of Intellectual Technologies and Telecommunications
2
State University of Intellectual Technologies and Telecommunications
3
State University of Intellectual Technologies and Telecommunications
4
State University of Intellectual Technologies and Telecommunications

R2 або коефіцієнт детермінації часто використовується як метрика для оцінки регресійних моделей. Її можна застосовувати окремо, але зазвичай її поєднують з іншими метриками, щоб підвищити точність оцінки моделі. Метою роботи є дослідження динаміки метрики R2 регресійної моделі к-найближчих сусідів, навченої на серіях різного розміру, щоб запропонувати новий підхід для підвищення надійності та точності оцінки моделі, коли метрика R2 використовується самостійно, без застосування інших метрик. Як правило, значення метрики R2 вище 0,8 вважається прийнятним, тоді як оцінювана модель вважається достатньо точною. Однак такий спосіб інтерпретації оцінки R2 може призвести до невірної оцінки точності моделі, що і показано в запропонованій статті. Отримані результати чітко показують, що значення метрики R2 можуть суттєво відрізнятися в деяких випадках залежно від конкретних значень ознак, відібраних до тестової частини вибірки, яка використовується для оцінки моделі. Зазначене відхилення може сприяти завищенню точності моделі, що, у свою чергу, може призвести до некоректних результатів застосування моделі. Відомі методи підвищення точності оцінювання моделі передбачають використання інших метрик додатково. Натомість ця стаття зосереджена на підвищенні оцінки точності моделі без необхідності використання інших метрик. Динаміка метрики R2 досліджується за допомогою 25000 циклів навчання та оцінки регресійної моделі к-найближчих сусідів. Відбір значень до навчальної та тестової частин вибірки відбувався випадковим чином. Для всіх експериментів кількість сусідів є фіксованою та дорівнює значенню за замовчуванням n_neighbors=5 методу KNeighborsRegressor, наданого бібліотекою Sklearn. У роботі формулюється та підтверджується наступна гіпотеза про те, що варіація метрики R2, як очікується, збільшиться зі зменшенням розміру серії, і передбачається, що варіація буде спостерігатися для моделей, навчених на тій самій вибірці, через випадковість відбору навчальних/тестових значень. Проведені експерименти дозволили запропонувати альтернативний підхід, який не потребує додаткових метрик. Запропонований підхід передбачає застосування метрики R2 разом із її варіацією, яка не повинна перевищувати 0,2 для регресійної моделі к-найближчих сусідів.

[1]   Sarkar, D., Bali, R., Sharma, T. (2018). Practical Machine Learning with Python. A Problem-Solver's Guide to Building Real-World Intelligent Systems. Apress Berkeley, CA, 545 p. DOI: 10.1007/978-1-4842-3207-1.

[2]   Scikit-learn library web page. Sklearn.metrics.r2_score. Available at https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_sco...

[3]   Nakagawa S., Johnson, P., Schielzeth, H. (2017). The coefficient of determination R2 and intra-class correlation coefficient from generalized linear mixed-effects models revisited and expanded. Journal of The Royal Society Interface vol. 14(134), pp. 1–11. DOI: 10.1098/rsif.2017.0213.

[4]   Zhang, D. (2017) A Coefficient of Determination for Generalized Linear Models, The American Statistician, vol. 71:4, pp. 310–316, DOI: 10.1080/00031305.2016.1256839

[5]   Gurubaran, K. et al. (2023). Machine Learning Approach for Soil Nutrient Prediction. 2023 IEEE Silchar Subsection Conference (SILCON), Silchar, India, 2023, pp. 1-6. DOI: 10.1109/SILCON59133.2023.10405095.

[6]   Gehlot, A., Sidana, N., Jawale, D., Jain, N., Singh, B.P., Singh,B. (2022). Technical analysis of crop production prediction using Machine Learning and Deep Learning Algorithms. 2022 International Conference on Innovative Computing, Intelligent Communication and Smart Electrical Systems (ICSES), Chennai, India, 2022, pp. 1-5. DOI: 10.1109/ICSES55317.2022.9914206.

[7]   Tran, T. T. H., et al. (2022). Polygenic risk scores adaptation for Height in a Vietnamese population. 14th International Conference on Knowledge and Systems Engineering (KSE), Nha Trang, Vietnam, 2022, pp. 1-7. DOI: 10.1109/KSE56063.2022.9953620.

[8]   Aulia, Y., Purnamasari, P.D., Zulkifli, F.Y. (2023). A Comparative Analysis of Machine Learning Algorithms for Predicting the Dimensions of Rectangular Microstrip Antennas. 2023 IEEE International Symposium On Antennas And Propagation (ISAP), Kuala Lumpur, Malaysia, 2023, pp. 1-2. DOI: 10.1109/ISAP57493.2023.10388517.

[9]   Shashank, S., Gourisaria, M.K., Bilgaiyan, S. (2023). Weather Forecasting Based Shared Bike Demand Analysis using Machine Learning. 6th International Conference on Information Systems and Computer Networks (ISCON), Mathura, India, 2023, pp. 1-6. DOI: 10.1109/ISCON57294.2023.10112160.

[10]Kumar, A., Mishra, S.K., Kejriwal, A. (2022). Prediction of Happiness Score of Countries by Considering Maximum Infection Rate of People by COVID-19 using Random Forest Algorithm. 2nd International Conference on Intelligent Technologies (CONIT), Hubli, India, 2022, pp. 1-6. DOI: 10.1109/CONIT55038.2022.9847791.

[11]Géron, A. (2019). Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media, Inc., Sebastopol, CA., USA. 510 p. ISBN: 9781492032649.

[12]Pandas library web page via NumFOCUS Inc. Available at https://pandas.pydata.org/

[13]NumPy. The fundamental package for scientific computing with Python by NumPy team. Available at https://numpy.org/

[14]Scikit-learn library web page. Sklearn.neighbors.KNeighborsRegressor. Available at https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNei...

[15]Matplotlib.pyplot by the Matplotlib development team. Available at https://matplotlib.org/3.5.3/api/_as_gen/matplotlib.pyplot.html