Інформаційна технологія розпізнання статі за голосом

2023;
: cc. 350 - 360
1
Національний університет «Львівська політехніка», кафедра інформаційних систем та мереж

Розпізнавання статі людини за голосом є складною проблемою в опрацюванні мовлення. Це завдання передбачає виділення значущих ознак із мовних сигналів, класифікацію їх на чоловічі чи жіночі категорії. У статті реалізовано інформаційну технологію розпізнавання статі. Спочатку записали зразки голосу як чоловічого, так і жіночого і визначили кепстральні коефіцієнти Mel-частоти (MFCC) як характеристики. Потім, пройшовши навчання, класифікатор опорних векторів (SVM) вивчав ці функції та оцінював їх ефективність, використовуючи показники точності, запам’ятовування та показників F1. Ці експерименти продемонстрували, що запропонована інформаційна технологія повинна досягати високої точності на тестовому наборі та точно передбачати стать мовця на основі прослуховування його голосу. Досліджено використання попередньо навчених моделей, щоб зменшити потребу у великих обсягах навчальних даних, і виявлено, що вони можуть забезпечити високу продуктивність, і потребують менше обчислень. Це дослідження підкреслює потенціал використання методів машинного навчання для розпізнавання статі за голосом і може бути поширене на інші програми опрацювання мовлення.

  1. Balasubramanian, V., & Manikandan, M. S. (2018). Automatic Gender Recognition from Speech Using Machine Learning Techniques. International Journal of Engineering & Technology, 7(4.35), 116–119. https://doi.org/10.14419/ijet.v7i4.35.22005
  2. Sethi, P., & Chandra, M. (2018). Gender Classification of Speakers using Mel Frequency Cepstral Coefficients and Support Vector Machine. International Journal of Advanced Research in Computer Science, 9(3), 129–133.    https://doi.org/10.26483/ijarcs.v9i3.5507
  3. Koshtura D. and Kunanets N. (2022). Information Sysem Project for Communication of Hearing Impaired Users, 2022 IEEE 17th International Conference on Computer Sciences and Information Technologies (CSIT), Lviv, 247–251. DOI: 10.1109/CSIT56902.2022.10000866.
  4. Andrunyk V., Shestakevych T. and Koshtura D. (2021). The text analysis software for hearing-impaired persons, 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT), Lviv, Ukraine,  119–123. DOI: 10.1109/CSIT52700.2021.9648605.
  5. Chen G., Li J., Li Y., and Li J. (2020). Gender classification using a fusion of MFCC and deep residual network features. IEEE Transactions on Affective Computing, Vol. 11, No. 4,  656–665, Oct.–Dec. 2020.
  6. Huang X., Cai M., and Zhang Q. (2021). Gender recognition in noisy environments using convolutional neural networks. Journal of Ambient  Intelligence  and  Humanized  Computing,  Vol.  12,  No. 10,  10425–10438, Oct. 2021.
  7. Srivastava, R., & Singh, N. (2016). A Study of Feature Extraction Techniques for Gender Recognition System. International Journal of Computer Science and Mobile Computing, 5(11), 15–21. http://www.ijcsmc.com/docs/papers/November2016/V5I11201602.pdf.
  8. Librosa documentation: https://librosa.org/doc/latest/index.html.
  9. Scikit-learn documentation: https://scikit-learn.org/stable/documentation.html.