Multiquellentraining: Chancen für kleine Trainingsmengen in der automatischen Spracherkennung

Authors: Matthias Wölfel

Abstract:

Eine große Anzahl an Faktoren beeinflussen die Akustik von Sprache, z.B. Sprachstil, Geschwindigkeit, Dialekt, Muttersprache, Hintergrundgeräusche und Hall. Ein Ungleichgewicht dieser Faktoren zwischen Trainings- und Testmaterial eines automatischen Spracherkenners mindert dessen Leistung erheblich. Deshalb werden Spracherkenner auf eine bestimmte Aufgabe trainiert, in dem man möglichst viele Daten mit Eigenschaften die den späteren Einsatzbedingungen entsprechen sammelt und transskribiert. Diese Arbeit ist sehr kosten- und zeitintensiv und führt oft, wie sich aus dem Schlagwort ”There’s no data like more data!” folgern lässt, nicht zu einer ausreichenden Anzahl an Daten um gute Ergebnisse zu erzielen. In unserer Arbeit zeigen und untersuchen wir verschiedene Verfahren um diese Lücke zu schliessen. Dies wird erreicht indem Trainingsmaterial aus einer anderen Quelle die im Sprachstil und akustischer Umgebung stark von dem Testmaterial abweichen kann, mit ein paar Stunden Adaptionsmaterial, das aus gleicher akustischer Umgebung stammt wie das Testmaterial, geschickt kombiniert wird. Hierfür untersuchten wir die folgenden Ansätze: • Training des akustischen Modells des Spracherkenners mit Sprachmaterial das sich in Sprachstil und akustischer Umgebung stark vom zu erkennenden Sprachmaterial unterscheidet und anschliessende überwachte Adaption mit aus gleicher Quelle stammendem Sprachmaterial wie die zu testende Sprache. • Berechnung der linearen Diskriminanzanalyse die auf dem Adaptionsmaterial und nicht wie üblich auf dem Trainingmaterial basiert. • Einführung einer sprecherabhängigen Modellordnung der Minimum Variance Distortionless Response Einhüllenden. • Unüberwachte sprecherabhängige Adaption des akustischen Modells anhand von Hypothesen die aus einem anderen akustischen Modell stammen. Alle Untersuchungen wurden mit dem automatischen Spracherkenner Janus Recognition Toolkit (JRTk) der Interactive Systems Laboratories (Universität Karlsruhe, Deutschland und Carnegie Mellon University, USA) durchgeführt, tabellarisch zusammengestellt und werden diskutiert.


Year: 2004
In session: Spracherkennung
Pages: 87 to 94