An experimental review of speaker diarization methods with application to two-speaker conversational telephone speech recordings

La diarizzazione dei parlatori consiste nell’identificare chi e quando parla in ciascun segmento di una conversazione audio. Essa trova applicazione come stadio preliminare in diversi campi come la trascrizione automatica delle conversazioni, la creazione di sottotitoli o l’analisi di interazioni vocali in un centro di chiamata.
In questo contesto, il lavoro che vi proponiamo questa settimana presenta una review sperimentale che esamina in maniera approfondita otto diversi sistemi di diarizzazione dello stato dell’arte (da quelli basati su clustering a quelli di tipo end-to-end) nell’ambito delle conversazioni telefoniche, prendendo in considerazione più lingue e anche i casi in cui i parlatori si sovrappongono, effettuando un’analisi quantitativa sia dal punto di vista delle prestazioni che del consumo di risorse computazionali.
L’attività di ricerca descritta in questo lavoro rientra nell’ambito del progetto AGEVOLA (SIME code 2019.0227), finanziato da Fondazione CARITRO.

Il paper è disponibile al seguente link: https://doi.org/10.1016/j.csl.2023.101534