Entwicklung und Performance eines Sprachdialogsystems mit begrenzten Hardwareressourcen

Abstract:

Die Integration von Spracherkennung und -synthese auf Systeme mit begrenzten Hardwareressourcen wird immer häufiger benötigt. Wir haben ein Dialogsystem entwickelt, welches auf einer Kombination aus einem digitalen Signalprozessor (DSP) und einem Field Programmable Gate Array (FPGA) lauffähig ist. Es wurde versucht die Verluste in der Erkennungsleistung sowie der Synthesequalität möglichst gering zu halten. Um Speicherplatz zu sparen, verwenden Erkenner und Synthese die selben, sprecherunabhängigen Hidden-Markov-Modelle. Der Spracherkenner ist phonembasiert und kann beliebige kontextfreie Grammatiken verarbeiten sowie zwischen verschiedenen Grammatiken wechseln. Die Synthese basiert auf der Verkettung von HMM-kodierten Einheiten. Die Einheiten bestehen aus einer Folge von Indizes der Verteilungsdichten der HM-Modelle des Spracherkenners, einer FO- sowie einer Intensitäts-Kontur. Zur Generierung einer Zielstimme werden die sprecherunabhängigen Syntheseparameter auf Merkmalebene konvertiert. Im Rahmen dieser Veröffentlichung werden wir Ergebnisse zur Leistungsfähigkeit, Performancemessung sowie zum Speicherbedarf des Dialogsystems vorstellen. Außerdem soll das entstandene System vorgeführt werden.


Year: 2010
In session: Speech Interfaces and Dialog
Pages: 174 to 179