Erzeugung schneller Sprache mittels Unit Selection Sprachsynthese

Abstract:

In unserem Beitrag wird ein neuer Ansatz zur Synthese schnell gesprochener Sprache in der Unit-Selection-Sprachsynthese vorgestellt. Schnell gesprochene Sprache unterscheidet sich hinsichtlich ihrer akustischen Eigenschaften von in normalem Tempo gesprochener Sprache. Um besonders unerwünschte Eigenschaften schneller Sprache bei der Erstellung eines schnell gesprochenen Bausteininventars für die Unit-Selection-Sprachsynthese weitestgehend zu vermeiden, wurde eine geeignete Sprecherin ausgewählt, die in der Lage war, bei maximalem Sprechtempo möglichst deutlich zu sprechen. Anschließend wurden zwei unabhängige, bezüglich des linguistischen Inhalts identische Synthesekorpora erstellt: eines in normalem (ca. 4 Silben pro Sekunde) und eines in schnellem und möglichst deutlichem Sprechtempo (ca. 8 Silben pro Sekunde). Für beide Korpora wurde die Verwendung so genannter Phoxsy Units [1] als Syntheseeinheiten untersucht. Die Ergebnisse einer perzeptiven Evaluation zeigen, dass Phoxsy Units insbesondere für die Synthese schnell gesprochener Sprache geeignet sind.


Year: 2010
In session: Speech Synthesis
Pages: 119 to 125