ESSV Konferenz Elektronische Sprachsignalverarbeitung

Title: Ein Sprachdialogsystem mit begrenzten Hardwareressourcen

Authors: Frank Duckhorn, Guntram Strecha, Matthias Wolff, Rüdiger Hoffmann

Abstract:

Wir entwickeln ein Sprachdialogsystem, welches auch unter begrenzten Hardwareressourcen lauffähig sein soll. Deswegen verwenden wir für die Erkennung sowie für die Synthese die selben, sprecherunabhängigen Hidden- Markov-Modelle (HMM). Der Spracherkenner ist phonembasiert und kann beliebige reguläre Grammatiken verarbeiten. Die Synthese beruht auf der Verkettung von Syntheseeinheiten (Morpheme und Wörter), welche jeweils durch eine Zustandssequenz innerhalb des HMMs sowie dem Grundfrequenz- und Energieverlauf definiert werden. Für die Auswahl der Einheiten benutzen wir eine endliche Grammatik. Um mit einer bestimmten Stimme zu synthetisieren, werden die Merkmalvektoren der sprecherunabhängigen HMMs je nach gewünschtem Sprecher in Line-Cepstral-Frequency-Merkmale (LCQ) transformiert und geglättet. Das gesamte Sprachdialogsystem ist auf einem digitalen Signalprozessor (DSP) lauffähig. Ein Field Programmable Gate Array (FPGA) übernimmt dabei die rechenintensiven Algorithmenteile. Unser Ziel ist die Hardwaregröße und den Strombedarf soweit zu reduzieren, dass das Sprachdialogsystem in Form eines USB-Sticks an verschiedenen Ger¨aten eingesetzt werden kann.


Year: 2009
In session: Sprachdialog
Pages: 88 to 93