Schnell gesprochene Sprache als Einheiten-Auswahl-Inventar in der Unit-Selection-Sprachsynthese

Authors: Donata Moers

Abstract:

In diesem Beitrag wird ein neuer Ansatz zur Erzeugung schneller Sprache in der Unit-Selection-Sprachsynthese vorgestellt. Für die Erstellung eines eigenen Bausteininventars für schnell gesprochene Sprache wurde zunächst eine geeignete Sprecherin ausgewählt, die in der Lage war, bei maximaler Sprechgeschwindigkeit möglichst deutlich zu sprechen. Typischerweise bei schnellem Sprechen auftretende Phänomene wie zu starke Reduktion und Koartikulation konnten so weitestgehend vermieden werden. Anschließend wurden zwei unabhängige, bezüglich des linguistischen Inhalts jedoch identische Synthesekorpora aufgenommen: eines in normalem und eines in schnellem und möglichst deutlichem Sprechtempo. Auf Grundlage beider Korpora wurden Äußerungen in verschiedenen Sprechgeschwindigkeiten erzeugt und mittels Perzeptionstests mit verschiedenen Hörergruppen untersucht. Dabei wurde sowohl die Verständlichkeit mittels Semantisch Unvorhersagbarer Sätze (SUS, [1]), als auch der Gesamteindruck mit Hilfe eines Mean Opinion Scores (MOS) im Vergleich zu einem Formantsynthesesystem erhoben. Die Ergebnisse der perzeptiven Evaluation zeigen, dass 1) die Beurteilung in erster Linie von der Verständlichkeit abhängt, 2) die Gewöhnung an bestimmte Sprachausgabeanwendungen einen signifikanten Einfluss auf die Beurteilung der Gesamtqualität hat und 3) ein eigenes Inventar für schnell gesprochene Sprache in der Unit-Selection-Sprachsynthese bei hohen Sprechgeschwindigkeiten keinen Vorteil gegenüber einem normal gesprochenen Inventar aufweist.


Year: 2011
In session: Poster zu verschiedenen Themenbereichen
Pages: 221 to 228