@InProceedings{Micheel2016_327,
author = {Alexander Micheel and Hans-Günter Hirsch},
booktitle = {Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2016},
title = {Erzeugung von Lautsequenzen für unbekannte Textsegmente mit Hilfe eines statistischen Ansatzes},
year = {2016},
editor = {Oliver Jokisch},
month = mar,
pages = {85--92},
publisher = {TUDpress, Dresden},
abstract = {Zur synthetischen Generierung eines Sprachsignals aus einem
Textsegment als auch zur Definition von Referenzmodellen für Wörter im Bereich
der lautbasierten Spracherkennung benötigt man ein Verfahren zur Festlegung einer
Abfolge von Lauten für die Buchstabenfolge eines gegebenen Textsegments oder
eines Worts, wenn das Textsegment oder das Wort nicht in einem
Aussprachelexikon enthalten ist. In diesem Beitrag wird ein statistischer Ansatz zur
Realisierung dieser Zuordnung einer Lautfolge vorgestellt, dessen Entwicklung
durch den Bedarf zum Betrieb eines Spracherkennungsdienstes initiiert wurde. Der
statistische Ansatz beruht auf der Verwendung eines Markov Modells, das eine der
Anzahl von Lauten entsprechende Zahl von Zuständen besitzt. Jeder Zustand
emittiert mit einer entsprechenden Wahrscheinlichkeit eine Folge von 1 bis 3
Buchstaben. Die Zuordnung einer Lautfolge zu einem Textsegment erfolgt durch die
Bestimmung der Zustandsfolge, die mit größter Wahrscheinlichkeit die
Buchstabenfolge des gegebenen Textsegments emittiert. Die Vorgehensweisen zur
Festlegung der Modellparameter in einer Trainingsphase sowie zur Ermittlung der
Zustandsfolge für ein vorgegebenes Textsegment werden detailliert erläutert. Zur
quantitativen Beschreibung der Effizienz des Verfahrens werden die Ergebnisse von
Simulationsexperimenten vorgestellt. Dabei wird ein Aussprachelexikon als
Referenz herangezogen, das von der Carnegie Mellon Universität (CMU) zur freien
Verwendung zur Verfügung gestellt wird. Es werden die Fehlerraten bei der
Festlegung der Anzahl und der Abfolge der Laute im Vergleich zur lautsprachlichen
Beschreibung im Lexikon ermittelt. Dabei wird zum Test des Verfahrens ein
kleinerer Anteil aller Einträge im CMU Lexikon benutzt. Die verbleibenden Anteile
werden zum Training der Modellparameter herangezogen. Man erhält damit
beispielsweise eine Lautfehlerrate von 12,9 %, wenn man zum Training 95 % der
zufällig ausgewählten Einträge und zum Test die verbleibenden 5 % verwendet.},
isbn = {978-3-959080-40-8},
issn = {0940-6832},
keywords = {Spracherkennung und Dialogsysteme},
url = {https://www.essv.de/pdf/pdf/2016_85_92.pdf},
}