Ідентифікація звуку голосів птахів за допомогою згорткових нейронних мереж з використанням STFT та MEL спектрограм

2023;
: cc. 297 - 311
1
Національний університет «Львівська політехніка», кафедра спеціалізованих комп’ютерних систем
2
Національний університет «Львівська політехніка» кафедра систем штучного інтелекту

Загрози для клімату та глобальні зміни в екологічних процесах залишаються актуальною проблемою у всьому світі. Тому важливий постійний моніторинг цих змін, зокрема із використанням нестандартних підходів. Це завдання можна виконати на основі дослідження інформації про міграцію птахів. Одним із ефективних методів дослідження міграції птахів є слуховий метод, який потребує вдосконалення. Ось чому побудова моделі на основі методів машинного навчання, яка допоможе точно ідентифікувати наявність голосів птахів у аудіофайлі з метою дослідження міграцій птахів з певної території, є актуальною проблемою. У цій роботі роглянуто способи побудови моделі машинного навчання на основі аналізу спектрограм, яка допоможе точно ідентифікувати наявність голосів птахів в аудіофайлі з метою дослідження міграції птахів по визначеній території. Дослідження передбачає збирання та аналіз аудіофайлів, які можна використати для виявлення характеристик, відповідно до яких звук файлів буде ідентифікуватись як голоси птахів або відсутність звуку у файлі. Продемонстровано використання моделі CNN для класифікації наявності голосів птахів у аудіофайлі. Аналіз ефективності та точності моделі CNN в класифікації звуків у аудіофайлах показав, що краще використовувати Mel-спектрограми, ніж STFT-спектрограми, для дослідження та класифікації наявності звуків птахів у середовищі. Точність класифікації моделі, тренованої на основі Mel-спектрограм, становила 72 %, що на 8 % вище, ніж точність моделі, натренованої на STFT-спектрограмах.

  1. Ghosh A., Sufian A., Sultana F., Chakrabarti A. & Debashis De. (2020). Fundamental Concepts of Convolutional Neural Network. Recent Trends and Advances in Artificial Intelligence and Internet of Things, 519–567. DOI:10.1007/978-3-030-32644-9_36.
  2. Krizhevsky A., Sutskever I., & Hinton G. E. (2012). Imagenet classification with deep convolutional neural networks. In F. Pereira, C. J. C. Burges, L. Bottou, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 25, 1097–1105.
  3. Sultana F., Sufian A., & Dutta P. (2019). A review of object detection models based on convolutional neural network. CoRR, abs/1905.01614. DOI:10.1007/978-981-15-4288-6_1.
  4. Sultana F., Sufian A., & Dutta P. (2018). Advancements in image classification using convolutional neural network. In 2018 Fourth International Conference on Research in Computational Intelligence and Communication Networks (ICRCICN), 122–129.
  5. Everingham M., Van Gool L., Williams C. K. I., Winn J. & Zisserman A. (2010). The pascal visual object classes (VOC) challenge. International Journal of Computer Vision, 88(2), 303–338. DOI:10.1007/s11263-009-0275- 4.
  6. Szegedy C., Liu W., Jia Y., Sermanet P., Reed S., Anguelov D., Erhan D., Vanhoucke V., & Rabinovich A. (2015). Going deeper with convolutions. In The IEEE Conference on ComputerVision and Pattern Recognition (CVPR). DOI: 10.48550/arXiv.1409.4842.
  7. Shelhamer E., Long J., & Darrell T. (2015). Fully convolutional networks for semantic segmentation. IEEE Trans. Pattern Anal. Mach. Intell., 39(4), 640–651. DOI: 10.1109/CVPR.2015.7298965.
  8. Dennis J. W. (2014). Sound event recognition in unstructured environments using spectrogram image processing.                     Doctoral            thesis, Nanyang Technological University,                                                                    Singapore. DOI: 10.32657/10356/59272
  9. Mesaros A., Heittola T., Eronen A., & Virtanen T. (2010). Acoustic event detection in real life recordings.Proceedings of the European Signal Processing Conference (EUSIPCO), 1267–1271.
  10. Tsau E., Chachada S., & Kuo C.-C. J. (2012). Content/Context-Adaptive Feature Selection for Environmental Sound Recognition. Proceedings of the Asia Pacific Signal & Information Processing Association (APSIPA).
  11. Zhang Z. and Schuller B. Semi-supervised learning helps in sound event classification. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), IEEE, 333–336. March, 2012.
  12. Maccagno A., Mastropietro A., Mazziotta U., Scarpiniti M., Lee Y.-Ch. & Uncini A. (2021). A CNN Approach for Audio Classification in Construction Sites. Progresses in Artificial Intelligence and Neural Systems, 371– 381. DOI: 10.1007/978-981-15-5093-5_33.
  13. Ekpezu A., Wiafe I., Katsriku F. & Yaokumah W. (2021). Using deep learning for acoustic event classification: The case of natural disasters. The Journal of the Acoustical Society of America, 149(4): 292. DOI: 10.1121/10.0004771.
  14. Khamparia A., Gupta D., Nguyen N. G., Khanna A., Pandey B., & Tiwari P. (2019). Sound classification using convolutional neural network and tensor deep stacking network, IEEE Access, 7(1), 7717–7727. DOI: 10.1109/ACCESS.2018.2888882.
  15. Zhang, T., Lee, Y.-C., Scarpiniti, M., Uncini, A. (2018). A supervised machine learning-based sound identification for construction activity monitoring and performance evaluation. Proceedings of 2018 Construction Research Congress (CRC 2018), New Orleans, Louisiana, USA, 358–366.
  16. Kons Z., Toledo-Ronen O. (2013). Audio Event Classification Using Deep Neural Networks. Proc. Interspeech 2013, 1482–1486. DOI: 10.21437/Interspeech.2013-384.
  17. Lee H., Grosse R., Ranganath R., & Ng A.Y. (2011). Unsupervised Learning of Hierarchical Representations with Convolutional Deep Belief Networks. Communications of the ACM, Vol. 54, No. 10, 95–103. DOI: 10.1145/2001269.2001295.
  18. Gartzman D. Getting to Know the Mel Spectrogram. Towards Data Science. August, 2019. Retrieved from: https://towardsdatascience.com/getting-to-know-the-mel-spectrogram-31bca3e2d9d0 (date of access: 20.09.2023)
  19. Papia Nandi – CNNs for audio classification. A primer in deep learning for audio classification using TensorFlow. Towards Data Science. Murch, 2021. Retrieved from: https://towardsdatascience.com/cnns-for- audio- classification-6244954665ab (date of access: 16.09.2023)
  20. Chollet, F. Deep Learning with Python (2018), v. 361, New York: Manning.
  21. SHANTAMVIJAYPUTRA - Bird Voice Detection Dataset. Retrieved from: https://www.kaggle.com/datasets/vshantam/bird-voice-detection (date of access: 15.05.2023)