ESSV Konferenz Elektronische Sprachsignalverarbeitung

Title: Prominenzbasierte Prosodieprädiktion für die Unit-Selection-Sprachsynthese

Authors: Andreas Windmann, Igor Jauk, Fabio Tamburini, Petra Wagner

Abstract:

Der Beitrag stellt einen Prosodievorhersagealgorithmus für das Unit-Selection-Sprachsynthesesystem BOSS vor, der prosodische Strukturen nicht in Form akustischer Parameter wie Segmentdauern und Grundfrequenz, sondern direkt in der perzeptiven Domäne modelliert. Die prosodische Struktur einer Äußerungwird dabei als Muster von Werten wahrgenommener Prominenz repräsentiert. Für die Prominenzprädiktion verwenden wir einen regelbasierten Algorithmus, der dasProminenzmuster einer Äußerung auf Silbenebene basierend auf Wortbetonung, Vokalreduktion, Phrasenstruktur und Wortklasseninformation vorhersagt. In einerfrüheren Arbeit konnte gezeigt werden, dass die Vorhersagen dieses Algorithmus eine hohe Übereinstimmung mit der Prominenzwahrnehmung deutscherMuttersprachler erreichen. Um die Auswahl von Einheiten mit entsprechenden Prominenzwerten aus dem BOSS-Sprachkorpus zu gewährleisten, wurde diesesmittels eines akustikbasierten automatischen Annotationswerkzeugs mit kontinuierlichen Prominenzwerten auf Silbenebene etikettiert. Für dieEinheitenauswahl werden die vorhergesagten Prominenzwerte linear auf den Wertebereich der Korpusannotation abgebildet und die Differenz zwischenvorhergesagter und tatsächlicher Prominenz einer Einheit zu ihrem Zielkostenvektor hinzugefügt. Präferenzurteile von Hörern aus einem paarweisen Vergleichstestzeigen, dass unser Ansatz die Prosodie der Sprachausgabe gegenüber der Standardausführung des Systems deutlich verbessert. Ein Transkriptionsexperimentmit semantisch unvorhersagbaren Sätzen ergab allerdings, dass dies bei ungenügender Korpusabdeckung zu Lasten der Verständlichkeit gehen kann. Da diesjedoch ein allgemeines Problem der Prosodieprädiktion in der Unit-Selection- Sprachsynthese ist, argumentieren wir, dass der prominenzbasierte Ansatz eineernstzunehmende Alternative zu akustikbasierten Verfahren darstellt.


Year: 2011
In session: Sprachsynthese-Evaluation und Prosodie
Pages: 83 to 90