У представленій роботі досліджено проблему автоматизації виявлення агресивних висловлювань в українському сегменті інтернету, що є критично важливим через дефіцит спеціалізованих лінгвістичних ресурсів для цієї мови. Основний фокус уваги було приділено створенню та випробуванню інформаційної технології, здатної ефективно класифікувати токсичні повідомлення за допомогою моделей основних алгоритмів машинного навчання. Для проведення експериментів було сформовано набір даних із 4600 записів, у яких об’єднано дані з платформ YouTube та Google Play із відкритими датасетами. Методологія дослідження базувалася на порівнянні шести архітектур, серед яких є логістична регресія, SVM, Random Forest та Gradient Boosting, із застосуванням технік векторизації TF-IDF та балансування класів методом SMOTE.
Аналіз результатів продемонстрував, що логістична регресія забезпечує оптимальний баланс для модерації коментарів і відгуків на соціальних платформах, маючи найвищий F1-score 0,6775 та здатність виявляти понад 64% шкідливого контенту. Цікавим спостереженням стало те, що логістична регресія та SVC досягнули ідентичного рівня якості за метрикою ROC-AUC у 0,78, проте SVC проявив себе як вкрай обережний класифікатор із високою влучністю у 0,8398 за рахунок значного пропуску позитивних випадків, але з надто гіршою повнотою, що дорівнює 0,4974. Для підсумку роботи можна сказати, що для широкого застосування в системах реального часу краще використовувати логістичну регресію через її гнучкість, проте SVC залишається корисним у вузькоспеціалізованих завданнях, де не можна допускати помилкові спрацювання.
- Carta, S., Corriga, A., Mulas, R., Recupero, D. R., & Saia, R. (2019). A supervised multi-class multi-label word embeddings approach for toxic comment classification. In Proceedings of the 34th ACM/SIGAPP Symposium on Applied Computing (pp. 1046–1053). Association for Computing Machinery. https://doi.org/10.1145/3297280.3297384
- Chakrabarty, N. (2019). A machine learning approach to comment toxicity classification. In Computational Intelligence in Pattern Recognition (pp. 183–193). Springer. https://doi.org/10.1007/978-981-13-9042-5_16
- Dementieva, D., Khylenko, V., Babakov, N., & Groh, G. (2024). Toxicity classification in Ukrainian. In Proceedings of the 8th Workshop on Online Abuse and Harms (WOAH 2024) (pp. 234–244). Association for Computational Linguistics. https://doi.org/10.48550/arXiv.2404.17841
- Georgakopoulos, S. V., Tasoulis, S. K., Vrahatis, A. G., & Plagianakos, V. P. (2018). Convolutional neural networks for toxic comment classification. In Proceedings of the 10th Hellenic Conference on Artificial Intelligence (pp. 1–6). Association for Computing Machinery. https://doi.org/10.1145/3200947.3208069
- Ghosh, S., Kumar, S., & Lepcha, S. (2020). Toxic text classification. In Data Science and Security (pp. 251–260). Springer. https://doi.org/10.1007/978-981-15-5309-7_27
- Gunasekara, I., & Nejadgholi, I. (2018). A review of standard text classification practices for multi-label toxicity identification of online content. In Proceedings of the 2nd Workshop on Abusive Language Online (ALW2) (pp. 21–25). Association for Computational Linguistics. https://doi.org/10.18653/v1/W18-5103
- Hammouda, N. G., & Toujani, R. (2024). Improving multi-class opinion classification in social networks by combining Fuzzy SVM and CNN. Procedia Computer Science, 246, 2994–3003. https://doi.org/10.1016/j.procs.2024.09.372
- Pavel, M. I., Razzak, R., Sengupta, K., Niloy, M., Kabir, D., Muqith, M. B., & Tan, S. Y. (2021). Toxic comment classification implementing CNN combining word embedding technique. In Inventive Computation and Information Technologies (pp. 897–909). Springer. https://doi.org/10.1007/978-981-33-4305-4_65
- Wang, K., Yang, J., & Wu, H. (2021). A survey of toxic comment classification methods. arXiv. https://doi.org/10.48550/arXiv.2112.06412
- Zaheri, S., Leath, J., & Stroud, D. (2020). Toxic comment classification. SMU Data Science Review, 3(1), Article 13. https://scholar.smu.edu/datasciencereview/vol3/iss1/13