Optimierung einer trainingsbasierten Prosodiegenerierung für Sprachsynthese

Abstract:

Ausgehend vom trainingsbasierten, silbenorientierten Integrated Model of German Prosody (IGM, Mixdorff und Jokisch, 2003) diskutiert der Beitrag Ansätze und Ergebnisse der weiteren Optimierung. IGM schätzt in einem Schritt je Silbe 8 Modellparameter zur Intonations-, Dauer- sowie Intensitätssteuerung und nutzt dazu ein multi-layer feed-forward neural network (MFN) mit einem Eingangsvektor aus 24 linguistischen und phonetischen Merkmalen. Der Beitrag untersucht Ansätze zur Erweiterung der Trainingsdaten, zur evolutionären Strukturoptimierung des MFN sowie zur Optimierung einzelner, zu schätzender Modellausgabeparameter.


Year: 2004
In session: Sprachsynthese
Pages: 175 to 182