ESSV Konferenz Elektronische Sprachsignalverarbeitung

Title: Automatische Zeichensetzung in Spracherkennungssystemen: Entscheidungsbaum und Sprachmodell im Vergleich

Authors: Heike Adel, Kevin Kilgour, Sebastian Stüker, Alex Waibel

Abstract:

In diesem Artikel wird die Möglichkeit vorgestellt, Spracherkennerausgaben in englischer Sprache durch Punkte und Kommata automatisch zu strukturieren. Dazu werden ein Entscheidungsbaum auf prosodischen Merkmalen und Wortarten und ein Hidden-N-Gramm-Modell auf Worten trainiert. F¨ur die Entscheidung, ob und welches Satzzeichen gesetzt werden sollte, werden die Wahrscheinlichkeiten der Modelle linear interpoliert. Als prosodische Merkmale werden Pausen nach dem aktuellenWort, eine Wortlängen- Wortsprechdauer-Relation sowie die Information, ob nach dem aktuellen Wort ein Sprecherwechsel vorliegt, betrachtet. Die Arbeit zeigt, dass die prosodischen Merkmale des Entscheidungsbaums allein ähnliche Ergebnisse liefern wie dieWorte des Sprachmodells. Allerdings wird auch deutlich, dass eine Modellkombination zu besseren Ergebnissen führt. Die verwendeten Modelle setzen die Zeichen, die sie finden, zufriedenstellend, erkennen aber zu wenige Zeichen. Daher wird ein Faktor eingeführt, der dafür sorgt, dass die Wahrscheinlichkeit für ”kein Zeichen“ heruntergewichtet wird und die Wahrscheinlichkeiten für die Satzzeichen entsprechend hochgewichtet werden. Dieser Faktor berechnet sich aus einer linearen Gleichung, die von der Anzahl der Worte seit dem letzten Satzzeichen abhängt. Der Ansatz führt zu einer Fehlerrate bei der Satzgrenzenerkennung von 65,95 % auf den Hypothesen des Spracherkenners sowie zu einer Fehlerrate von 45,83 % auf den Referenztexten.


Year: 2012
In session: Spracherkennung
Pages: 50 to 57