@InProceedings{Micheel2016_327,
author = {Alexander Micheel and Hans-Günter Hirsch},
booktitle = {Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2016},
title = {Erzeugung von Lautsequenzen für unbekannte Textsegmente mit Hilfe eines statistischen Ansatzes},
year = {2016},
editor = {Oliver Jokisch},
month = mar,
pages = {85--92},
publisher = {TUDpress, Dresden},
abstract = {Zur synthetischen Generierung eines Sprachsignals aus einem Textsegment als auch zur Definition von Referenzmodellen für Wörter im Bereich der lautbasierten Spracherkennung benötigt man ein Verfahren zur Festlegung einer Abfolge von Lauten für die Buchstabenfolge eines gegebenen Textsegments oder eines Worts, wenn das Textsegment oder das Wort nicht in einem Aussprachelexikon enthalten ist. In diesem Beitrag wird ein statistischer Ansatz zur Realisierung dieser Zuordnung einer Lautfolge vorgestellt, dessen Entwicklung durch den Bedarf zum Betrieb eines Spracherkennungsdienstes initiiert wurde. Der statistische Ansatz beruht auf der Verwendung eines Markov Modells, das eine der Anzahl von Lauten entsprechende Zahl von Zuständen besitzt. Jeder Zustand emittiert mit einer entsprechenden Wahrscheinlichkeit eine Folge von 1 bis 3 Buchstaben. Die Zuordnung einer Lautfolge zu einem Textsegment erfolgt durch die Bestimmung der Zustandsfolge, die mit größter Wahrscheinlichkeit die Buchstabenfolge des gegebenen Textsegments emittiert. Die Vorgehensweisen zur Festlegung der Modellparameter in einer Trainingsphase sowie zur Ermittlung der Zustandsfolge für ein vorgegebenes Textsegment werden detailliert erläutert. Zur quantitativen Beschreibung der Effizienz des Verfahrens werden die Ergebnisse von Simulationsexperimenten vorgestellt. Dabei wird ein Aussprachelexikon als Referenz herangezogen, das von der Carnegie Mellon Universität (CMU) zur freien Verwendung zur Verfügung gestellt wird. Es werden die Fehlerraten bei der Festlegung der Anzahl und der Abfolge der Laute im Vergleich zur lautsprachlichen Beschreibung im Lexikon ermittelt. Dabei wird zum Test des Verfahrens ein kleinerer Anteil aller Einträge im CMU Lexikon benutzt. Die verbleibenden Anteile werden zum Training der Modellparameter herangezogen. Man erhält damit beispielsweise eine Lautfehlerrate von 12,9 %, wenn man zum Training 95 % der zufällig ausgewählten Einträge und zum Test die verbleibenden 5 % verwendet.},
isbn = {978-3-959080-40-8},
issn = {0940-6832},
keywords = {Spracherkennung und Dialogsysteme},
url = {https://www.essv.de/pdf/pdf/2016_85_92.pdf},
}