Комп’ютерне моделювання логістичної регресії для бінарної класифікації

2024;
: cc. 167 - 190
1
Національний університет «Львівська політехніка»
2
Національний університет «Львівська політехніка»
3
Національний університет «Львівська політехніка»
4
Національний університет “Львівська політехніка”, кафедра інформаційних систем та мереж

У цій статті розглянуто практичні аспекти застосування логістичної регресії для бінарної класифікації даних. Логістична регресія визначає імовірність належності об’єкта до одного із двох класів. Ця імовірність обчислюється за допомогою сигмоїдної функції, аргументом якої є лінійна згортка вектора ознак об’єкта із ваговими коефіцієнтами, отриманими у ході мінімізації логарифмічної функції втрат. Прогнозовані мітки класу визначаються порівнянням обчисленої імовірності із заданим пороговим значенням.
Дослідження логістичної регресії виконано методом комп’ютерного моделювання. Для цього розроблено програмний комплекс, робота якого відтворює основні етапи логістичної регресії: підготовка вхідних даних, навчання, тестування з визначенням метрик якості бінарної класифікації, застосування методу логістичної регресії для класифікації даних на практиці.
У роботі вивчено вплив перекриття та дизбалансу класів у вхідному наборі даних на ефективність бінарної класифікації. Перекриття класів змодельовано формуванням вхідних даних на основі двох зміщених одна відносно одної функцій густини нормального розподілу випадкових величин. Дизбаланс класів імітується імовірністю перемикання між цими функціями.
Показано, що при зменшенні відстані між математичними сподіваннями функцій густини нормального розподілу або при зростанні дисперсії випадкових величин перекриття актуальних класів зростає, що призводить до збільшення кількості об’єктів, які класифікатор може віднести як до одного так і до іншого класу.
Наближення імовірності перемикання між функціями розподілу випадкових величин до крайніх значень одиничного інтервалу призводить до зростання дизбалансу класів, що проявляється у збільшенні кількості елементів вхідного набору даних, маркованих міткою одного й того ж класу.
Експериментально підтверджено, що популярна у задачах бінарної класифікації метрика
AUC ROC є залежною від ступеня перекриття класів і відносно стійкою до дизбалансу класів.

  1. Ewens, W. J. & Brumberg, K. (2023). Introductory Statistics for Data Analysis. Springer.
  2. Friedman, J. (2011). The Elements of Statistical Learning. Springer.
  3. Hosmer, D. W., & Lemeshow, S. (2000). Applied Logistic Regression. John Wiley & Sons, Inc. https://doi.org/https://doi.org/10.1002/0471722146.
  4. Hilbe, J. M. (2009). Logistic Regression Models (1st ed.). Chapman and Hall/CRC. https://doi.org/https:// doi.org/10.1201/9781420075779.
  5. Kleinbaum, D. G., & Klein, M. (2010). Logistic Regression: A Self-Learning Text (3rd ed.). Springer.
  6. Harrell, F. E. (2015). Regression Modeling Strategies: With Applications to Linear Models, Logistic and Ordinal Regression, and Survival Analysis (2nd ed.). Springer.
  7. Басюк, Т. М., Литвин, В. В., Захарія, Л. М., & Кунанець, Н. Е. (2019). Машинне навчання: навчальний посібник, Львів: Видавництво “Новий Світ – 2000”.
  8. Ponniah, P. (2007). Data Modeling Fundamentals: A Practical Guide for IT Professionals. Wiley. John Wiley & Sons, LTD.
  9. Дубровін, В. І., Дейнега, Л. Ю., & Яценко, А. К. (2023). Програмне забезпечення статистичного аналізу. Електроніка та електротехніка, Автоматизація та комп’ютерно-інтегровані технології, 3, 25–32. https://doi.org/10.15588/1607-6761-2023-3-3.
  10. Blokdyk, G. (2019). What is Custom Software Development? Your Guide to Building Software That Works for You. Emereo Pty The Limited. https://multishoring.com/blog/what-is-custom-software-development/.
  11. Baruah, R., Ramani, S. S., & Chandratrey, K. (2024). Data Science Toolkit - Logistic regression custom model service. https://learn.microsoft.com/en-us/xandr/data-science-toolkit/logistic-re....
  12. Build vs. buy. A strategic framework for evaluating third-party solutions. (2022). https://www.thoughtworks.com/content/dam/thoughtworks/documents/e-book/tw_ebook_build_vs_buy_2022.pdf.
  13. How do you weigh using software development tools versus building your own solutions? (2024). https://www.linkedin.com/advice/0/how-do-you-weigh-using-software-development.
  14. Hackeling, G. (2014). Mastering Machine Learning With Scikit-learn: Apply Effective Learning Algorithms to Real-world Problems Using Scikit-learn. Packt Publishing.
  15. Adams, S. A. (2020). An Introduction to Logistic Regression in Python with statsmodels and scikit-learn. Level Up Coding. https://levelup.gitconnected.com/an-introduction-to-logistic-regression-... scikit-learn-1a1fb5ce1c13.
  16. Wiley, M., & Wiley, J. F. (2019). Advanced R Statistical Programming and Data Models: Analysis, Machine Learning, and Visualization. APress.
  17. Agresti, A., & Kateri, M. (2021). Foundations of Statistics for Data Scientists: With R and Python. CRC Press.
  18. Allison, P. D. (2018). Logistic Regression Using SAS. Theory and Application, Second Edition. SAS Institute.
  19. Nasser, H. (2020). Logistic Regression Using SPSS. https://doi.org/10.13140/RG.2.2.21524.12162. https://www.researchgate.net/publication/344138306_Logistic_Regression_Using_SPSS.
  20. George, D., & Mallery, P. (2021). IBM SPSS Statistics. 27 Step by Step: A Simple Guide and Reference. Taylor & Francis.
  21. Geron, A. (2023). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems, 3rd Edition. O'Reilly Media.
  22. Karimpour, A. (2020). Fundamentals of Data Science with MATLAB: Introduction to Scientific Computing, Data Analysis, and Data Visualization. Amazon.
  23. Lin, M., & Chen, J. (2023). Research on Credit Big Data Algorithm Based on Logistic Regression. Procedia Computer Science, 228, 511–518. https://doi.org/10.1016/j.procs.2023.11.058. https://www.sciencedirect. com/science/article/pii/S1877050923018823.
  24. Tutz, G. (2020). Modelling heterogeneity: on the problem of group comparisons with logistic regression and the potential of the heterogeneous choice model. Advances in Data Analysis and Classification, 14, 517–542 (2020). https://doi.org/10.1007/s11634-019-00381-8.
  25. Gibbons,  L.  E.,  &  Hosmer,  D.  W.   (1991).   Conditional   logistic   regression   with   missing data. Communications in Statistics-Simulation and Computation, 20(1), 109–120.
  26. Bootkrajang, J., & Kabán, A. (2012, September). Label-noise robust logistic regression and its applications. In Joint European conference on machine learning and knowledge discovery in databases (pp. 143– 158). Berlin, Heidelberg: Springer Berlin Heidelberg.
  27. Sohn, S. Y., Kim, D. H., & Yoon, J. H. (2016). Technology credit scoring model with fuzzy logistic regression. Applied soft computing, 43, 150–158.
  28. Larsen, K., Petersen, J. H., Budtz Jørgensen, E., & Endahl, L. (2000). Interpreting parameters in the logistic regression model with random effects. Biometrics, 56(3), 909–914.
  29. Can logistic regression be used for non linear relationships between the independet variables? (2024). https://typeset.io/questions/can-logistic-regression-be-used-for-non-lin....
  30. Zhang, L., Geisler, T., Ray, H., & Xie, Y. (2021). Improving logistic regression on the imbalanced data by a novel penalized log-likelihood function. Journal of applied statistics, 49(13), 3257–3277. https://doi.org/10.1080/02664763.2021.1939662.
  31. Jing, Q., & Yifei, L. (2019). L 1–2 Regularized Logistic Regression. 53rd Asilomar Conference on Signals, Systems, and Computers, 779-783. IEEE. https://doi.org/10.1109/IEEECONF44664.2019.9048830.
  32. Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society, 58(1), 267–288.
  33. Munkhdalai, L., Lee, J. Y., & Ryu, K. H. (2020). A Hybrid Credit Scoring  Model  Using  Neural Networks and Logistic Regression. In Advances in Intelligent Information Hiding and Multimedia Signal Processing. Smart Innovation, Systems and Technologies, 156. Springer, Singapore. https://doi.org/10.1007/978-981-13-9714- 1_27.
  34. Мацуга, О. М., Дудукіна, С. О., & Григорук, С. П. (2020). Побудова моделі прогнозування результату лікування на прикладі однієї медичної задачі. Актуальні проблеми автоматизації та інформаційних технологій, 24, 47–56.
  35. Зубченко, В. П., & Авраменко, А. В. (2023). Дослідження скорингової моделі для кредито- позичальників банку. Вісник Київського національного університету імені Тараса Шевченка, серія: фізико- математичні науки, 2, 44–53. https://doi.org/10.17721/1812-5409.2023/2.5.
  36. Кравець, П., Твердохліб, Ю. (2023). Інформаційна система моніторингу відгуків у соціальних мережах для формування рекомендацій придбання товарів. Вісник Національного університету „Львівська політехніка”, серія: інформаційні системи та мережі, 13, 218–234. https://doi.org/10.23939/sisn2023.13.218.
  37. Rahman, H. A. A., & Yap, B. W. (2016). Imbalance Effects on Classification Using Binary Logistic Regression. In International Conference on Soft Computing in Data Science, SCDS 2016, Communications in Computer and Information Science, Springer, Singapore, 652, 136–147. https://doi.org/10.1007/978-981-10-2777- 2_12.
  38. Sun, T., Tang, K., & Li, D. (2022). Gradient Descent Learning With Floats. IEEE Transactions on Cybernetics, 3 (52), 1763–1771. https://doi.org/10.1109/TCYB.2020.2997399.
  39. Fehrman, B., Gess, B., & Jentzen, A. (2020). Convergence Rates for the Stochastic Gradient Descent Method for Non-Convex Objective Functions. Journal of Machine Learning Research, 21 (136), 1–48. https://www.jmlr.org/papers/volume21/19-636/19-636.pdf.
  40. Кравець, П., Пасічник, В., & Проданюк, М. (2024). Математична модель логістичної регресії для бінарної  класифікації.  Ч.  1.  Регресійні  моделі  узагальнення  даних.  Вісник  Національного  університету „Львівська  політехніка”,  серія:  інформаційні  системи  та  мережі,  15,  290–321.  https://doi.org/10.23939/ sisn2024.15.290.
  41. Кравець, П., Пасічник, В., & Проданюк, М. (2024). Математична модель логістичної регресії для бінарної класифікації. Ч. 2. Процеси підготовки, навчання і тестування даних. Вісник Національного університету “Львівська політехніка”, серія: інформаційні системи та мережі, 15, 322–340. https://doi.org/10.23939/sisn2024.15.322.
  42. Barzilai, J., & Borwein, J. M. (1988). Two-Point Step Size Gradient Methods. IMA Journal of Numerical Analysis, 8, 141–148. https://doi.org/10.1093/imanum/8.1.141.
  43. Wolfe, P. (1969). Convergence Conditions for Ascent Methods. SIAM Review. 11 (2), 226–235. https://doi.org/10.1137/1011036. JSTOR 2028111.
  44. Walton, N. (2019). Robbins-Monro – Applied Probability Notes. https://appliedprobability.blog/ 2019/01/26/robbins-munro-2/.
  45. Hossin, M., & Sulaiman, M.N. (2015). A Review on Evaluation Metrics for Data Classification Evaluations. International Journal of Data Mining & Knowledge Management Process 5(2), 1–11. https://doi.org/10.5121/ijdkp.2015.5201.