End-to-end integration of speech separation and voice activity detection for low-latency diarization of telephone conversations

La diarizzazione automatica del parlato è un importante task in ambito speech processing che consiste nell’identificare, all’interno di una conversazione audio, chi parla e quando. Numerose sono le applicazioni in cui la diarizzazione svolge un ruolo di primaria importanza, come la trascrizione automatica del parlato o l’analisi delle interazioni vocali relative ai servizi di call-center.
Il lavoro che vi proponiamo questa settimana presenta un metodo Deep Learning innovativo basato su tecniche di separazione per la diarizzazione di 2 persone in una conversazione telefonica. L’approccio è interamente end-to-end e presenta una latenza molto ridotta rispetto alle tecniche attualmente esistenti in letteratura. Ciò ha reso la soluzione proposta adeguata per il real-time processing e quindi concretamente utilizzabile in contesti reali.
Questa ricerca è stata realizzata nell’ambito del progetto AGEVOLA (SIME code 2019.0227), finanziato da Fondazione CARITRO, che ha visto l’Università Politecnica delle Marche come capofila e le aziende PerVoice Spa (ora Almawave) e lo SpeechTek Lab della Fondazione Bruno Kessler come partner.

Il paper è disponibile al seguente link: https://doi.org/10.1016/j.csl.2023.101534