@InProceedings{Wölfel2004_506,
author = {Matthias Wölfel},
booktitle = {Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2004},
title = {Multiquellentraining: Chancen für kleine Trainingsmengen in der automatischen Spracherkennung},
year = {2004},
editor = {Klaus Fellbaum},
month = mar,
pages = {87--94},
publisher = {TUDpress, Dresden},
abstract = {Eine große Anzahl an Faktoren beeinflussen die Akustik
von Sprache, z.B. Sprachstil, Geschwindigkeit, Dialekt, Muttersprache, Hintergrundgeräusche und Hall. Ein Ungleichgewicht dieser Faktoren zwischen
Trainings- und Testmaterial eines automatischen Spracherkenners mindert dessen
Leistung erheblich. Deshalb werden Spracherkenner auf eine bestimmte Aufgabe
trainiert, in dem man möglichst viele Daten mit Eigenschaften die den späteren
Einsatzbedingungen entsprechen sammelt und transskribiert. Diese Arbeit ist sehr
kosten- und zeitintensiv und führt oft, wie sich aus dem Schlagwort ”There’s no
data like more data!” folgern lässt, nicht zu einer ausreichenden Anzahl an Daten
um gute Ergebnisse zu erzielen. In unserer Arbeit zeigen und untersuchen wir verschiedene
Verfahren um diese Lücke zu schliessen. Dies wird erreicht indem Trainingsmaterial
aus einer anderen Quelle die im Sprachstil und akustischer Umgebung
stark von dem Testmaterial abweichen kann, mit ein paar Stunden Adaptionsmaterial,
das aus gleicher akustischer Umgebung stammt wie das Testmaterial, geschickt
kombiniert wird. Hierfür untersuchten wir die folgenden Ansätze:
• Training des akustischen Modells des Spracherkenners mit Sprachmaterial
das sich in Sprachstil und akustischer Umgebung stark vom zu erkennenden
Sprachmaterial unterscheidet und anschliessende überwachte Adaption mit
aus gleicher Quelle stammendem Sprachmaterial wie die zu testende Sprache.
• Berechnung der linearen Diskriminanzanalyse die auf dem Adaptionsmaterial
und nicht wie üblich auf dem Trainingmaterial basiert.
• Einführung einer sprecherabhängigen Modellordnung der Minimum Variance
Distortionless Response Einhüllenden.
• Unüberwachte sprecherabhängige Adaption des akustischen Modells anhand
von Hypothesen die aus einem anderen akustischen Modell stammen.
Alle Untersuchungen wurden mit dem automatischen Spracherkenner Janus Recognition
Toolkit (JRTk) der Interactive Systems Laboratories (Universität Karlsruhe,
Deutschland und Carnegie Mellon University, USA) durchgeführt, tabellarisch
zusammengestellt und werden diskutiert.},
isbn = {978-3-937672-65-6},
issn = {0940-6832},
keywords = {Spracherkennung},
url = {https://www.essv.de/pdf/pdf/2004_87_94.pdf},
}