Recent trends in distant conversational speech recognition: A review of CHiME-7 and 8 DASR challenges

Il lavoro che vi proponiamo questa settimana riassume i risultati delle challenge scientifiche CHiME-7 e CHiME-8 sulla trascrizione e diarizzazione di parlato conversazionale distante e multicanale. Le due challenge hanno coinvolto 9 team con 32 sistemi, contribuendo in maniera importante allo stato dell’arte nel settore di riferimento.
Dall’analisi fatta emerge un forte passaggio dai sistemi ibridi ai sistemi ASR end-to-end, favorito da grandi modelli pre-addestrati. Nonostante i progressi fatti in questi ultimi anni, la separazione neurale delle sorgenti resta poco affidabile e la diarizzazione accurata rimane cruciale. Indubbiamente, la trascrizione di parlato spontaneo in ambienti acusticamente complessi resta una sfida assolutamente aperta.
L’articolo è disponibile qui: doi.org/10.1016/j.csl.2025.101901