ESSV Konferenz Elektronische Sprachsignalverarbeitung

Title: Verstärkungslernen zur Prosodievorhersage in einem Sprachproduktionssystem

Authors: Markus Schnell

Abstract:

Text-to-Speech-Systeme werden neben dem Vorlesen von Zeitungsartikeln, E-Mail oder Internetseiten auch für die Versprachlichung von Daten aus Datenbanken oder in Dialogsystemen eingesetzt. In diesen Fällen erzeugt der Computer nicht nur das Sprachsignal, sondern auch den zugrundeliegenden Text. Dies bietet die Möglichkeit die Prosodie deutlich zu verbessern, da man den in der Zwischenstufe erzeugten Text mit Markierungen zu Akzentuierung und Phrasierung versehen kann. Solche Systeme zur Sprachproduktion, auch Concept-to-Speech genannt, waren bisher reine Expertensysteme, das heisst, die Regeln zur Prosodieerzeugung wurden manuell kodiert. Der vorliegende Artikel verfolgt einen anderen Ansatz. Anstatt die Regeln manuell einzugeben, werden sie mit einem maschinellen Lernverfahren gelernt. Bei dem eingesetzten Verfahren handelt es sich um das Verstärkungslernen (reinforcement learning). Beim Verstärkungslernen wird nach jeder Aktion des Systems eine Bewertung der aktuellen Situation vorgenommen. Aus der Gesamtbewertung erschließt das Lernsystem die Anteile der einzelnen Aktionen am Erfolg bzw. Misserfolg, und passt seine Strategie entsprechend an. Um das Verfahren zu demonstrieren wird das Concept-to-Speech-System Demosthenes vorgestellt, das auf dem Text-to-Speech-System DRESS beruht. Der Artikel erläutert insbesondere die Anwendung des Verstärkungslernens in der Prosodiekomponente des Systems. Ein Präferenztest zeigt eine deutliche Bevorzugung der Prosodie des Concept-to-Speech-Systems gegenüber dem Text-to-Speech-System.


Year: 2004
In session: Sprachsynthese
Pages: 140 to 147