...

L'intelligibilité des voix parlées dans Nuendo 11

Est-ce que l'intelligibilité des voix parlées et la facilité d'écoute désignent la même chose ?

Pour répondre précisément, mesurer l'intelligibilité de la parole revient à déterminer la proportion d'éléments du langage, par exemple des mots, qui sont correctement reconnaissables dans une situation donnée. Plus largement, le terme « intelligibilité » est souvent utilisé pour décrire l'effort perçu que l'auditeur doit effectuer pour comprendre une voix parlée. Cela concerne aussi les applications de télédiffusion parce que, même si je suis techniquement capable de comprendre chaque mot d'un dialogue, il se peut que ce soit au prix d'un investissement massif de ressources cognitives, par exemple quand les bruits en arrière plan sont trop forts. Cette définition large de l'intelligibilité de la parole correspond à ce que nous mesurons avec le nouvel outil de Nuendo.

Quelles sont les « caractéristiques » du discours prises en compte pour déterminer si ce dernier est intelligible ou pas ?

La parole est composée de petits blocs. Ce sont les phonèmes. Les syllabes et les mots sont composés de plusieurs phonèmes. Les moteurs de reconnaissance vocale automatique détectent les phonèmes et les convertissent en une parole compréhensible. Dans un discours très clair, les phonèmes se succèdent sans se chevaucher. Sur le plan technique, une machine entraînée à reconnaître la parole fonctionne en établissant une forte probabilité de la présence d'un phonème donné et une probabilité faible concernant tous les autres phonèmes. Plus le discours est perturbé, moins la probabilité est nette : la machine sait avec moins de certitude quel phonème est présent. C'est ce système que nous utilisons pour quantifier l'intelligibilité.

Comment entraînez-vous l'algorithme d'intelligence artificielle ?

L'algorithme doit effectuer différentes tâches. D'abord, il doit détecter si un discours est présent ou pas. Ça paraît évident mais c'est une tâche difficile quand on pense à la diversité des sons qui peuvent se trouver en arrière plan et à leur proximité potentielle avec la parole. Ensuite, nous utilisons la technologie de reconnaissance vocale automatique et calculons le degré de certitude concernant la reconnaissance des phonèmes. Pour finir, nous échelonnons cette certitude sur une échelle qui correspond à la perception humaine telle qu'elle a été mesurée pendant des centaines d'heures d'écoute expérimentale. Pour que tout ça fonctionne de façon fiable, nous avons utilisé le deep learning (apprentissage profond) sur des milliers d'heures de contenus d'entraînement qui utilisent de vrais discours et des bruits de fond problématiques.

Pour en savoir plus sur l'intelligibilité de la parole, consultez le site de Fraunhofer.
https://www.idmt.fraunhofer.de/en/hsa/research_fields/speech_intelligibility.html

Interlocuteur chez Fraunhofer IDMT à Oldenburg :
Dr. Jan Rennies-Hochmuth
Directeur du groupe « Personalized Hearing Systems »
Fraunhofer-Institute for Digital Media Technology IDMT
Hearing, Speech and Audio Technology
Marie-Curie-Str. 2
D-26129 Oldenburg, Allemagne