...

Sprachverständlichkeit in Nuendo 11

Sind Sprachverständlichkeit und gute Hörbarkeit das Gleiche?

Streng genommen wird Sprachverständlichkeit an der Menge der korrekt wahrgenommenen Sprachelemente (Worte) in einer bestimmten Situation bemessen. Weiter gefasst wird der Terminus Verständlichkeit oft synonym mit dem Aufwand verwendet, welcher vom Hörer aufgebracht werden muss um Sprache zu verstehen. Dies ist bei Broadcast-Anwendungen im besonderen Maße relevant, da ich trotz der technischen Fähigkeit jedes einzelne Wort eines Dialogs verstehen zu können, bei zu lauten Hintergrundgeräuschen dennoch einiges an kognitiven Ressourcen aufwenden muss. Dieser erweiterte Sinn von Sprachverständlichkeit ist exakt das, was wir mit dem neuen Werkzeug in Nuendo nun messen können.

Welche Charakteristiken der Sprache sind für eine gute oder schlechte Sprachverständlichkeit relevant?

Sprache besteht aus kleinen Bausteinen, den sogenannten Phonemen. Mehrere Phoneme bilden schließlich Silben oder ganze Wörter. Spracherkennungs-Algorithmen sind ebenfalls auf die Erkennung von Phonemen getrimmt, damit das Erkannte schließlich in sinnvolle Sprache übertragen werden kann. Bei sehr deutlicher Aussprache, lässt sich zu einem gegebenen Zeitpunkt immer nur ein einziges Phonem gleichzeitig wahrnehmen. Technisch gesprochen lässt sich eine Maschine bei der Erkennung von Sprache auf eine hohe Wahrscheinlichkeit eines bestimmten Phonems, bei gleichzeitigem Ausschluss unwahrscheinlicherer Phoneme trainieren. Je mehr Sprache gestört wird, desto unsicherer wird die Maschine bei der Bewertung der Wahrscheinlichkeit des auftretenden Phonems. Das ist dann letztlich auch der Gradmesser den wir nutzen, um Sprachverständlichkeit zu quantifizieren.

Wie trainiert man KI-Algorithmen?

Der Algorithmus muss verschiedene Aufgaben erfüllen. Zunächst muss er einmal in der Lage sein zu erkennen, ob es sich um Sprache handelt oder nicht. Das mag trivial klingen, ist in der Praxis aber ausgesprochen anspruchsvoll, wenn man bedenkt wie sprachähnlich manche Hintergrundgeräusche einer Übertragung wirken können. Dann nutzen wir eine automatische Spracherkennungs-Technologie um zu errechnen, mit welcher Wahrscheinlichkeit individuelle Phoneme erkannt werden können. Am Ende weisen wir diese Wahrscheinlichkeit einer entsprechenden Skala zu, welche wir mittels hunderter von Stunden an Hörexperimenten in Relation zur menschlichen Wahrnehmung abgleichen konnten. Damit dies in der Praxis stabil läuft, nutzten wir Deep-Learning-Prozesse auf der Basis von mehreren tausend Stunden Trainingsmaterial, bestehend aus echter Sprache in Kombination mit ausgesprochen herausfordernden Hintergründen.

Mehr Informationen zum Thema Sprachverständlichkeit finden sich auf der Website des Fraunhofer Instituts:
https://www.idmt.fraunhofer.de/en/hsa/research_fields/speech_intelligibility.html

Kontaktperson am Fraunhofer IDMT in Oldenburg:

Dr. Jan Rennies-Hochmuth
Head of Group ‘Personalized Hearing Systems’
Fraunhofer-Institute for Digital Media Technology IDMT
Hearing, Speech and Audio Technology
Marie-Curie-Str. 2
D-26129 Oldenburg, Germany