ембедінги голосу

Використання ембедінгів голосу в інтегрованих системах для діаризації мовців та виявлення зловмисників

У цій роботі досліджується використання систем діаризації, які застосовують передові алгоритми машинного навчання для точного виявлення та розділення різних спікерів в аудіозаписах для реалізації системи виявлення зловмисників. Порівнюються декілька передових моделей діаризації, зокрема NeMo від Nvidia, Pyannote та SpeechBrain. Ефективність цих моделей оцінюється за допомогою типових метрик, що використову- ються для систем діаризації, таких як коефіцієнт помилки діаризації (DER) та коефіцієнт помилки Жакара (JER). Система діаризації була протестована в різних аудіоумовах.