Markov-Entropie basierte Auswahl geeigneter Sprachsegmente für korpusbasierte Sprachsynthese-Systeme

Authors: Christian Weiss

Abstract:

Konkatenative Text-to-Speech Systeme, welche auf der Grundlage des „variable size non-uniform unit-selection“ Algorithmus aufgebaut sind, haben die Aufgabe adäquate Sprachbausteine auszuwählen, die die qualitativen und quantitativen Zielvorgaben maximal approximieren. Hieraus ergibt sich die Problemstellung ein geeignetes Sprachdatenkorpus zu erstellen, welches maximale Abdeckung aufweist und minimal redundant ist. In bestehenden Systemen wird die Segmentauswahl zur Laufzeit mittels einer Einheitenkosten-Funktion und Übergangskosten-Funktion berechnet. Als Alternative zur Einheiten-Kostenfunktion wird in diesem Beitrag ein statistisches Verfahren vorgestellt, welches auf abhängigen Wahrscheinlichkeiten der jeweiligen parametrisierten Sprachsegmente beruht. In der Abfolge der zu synthetisierenden Äußerung wird aus diesen ein Markov-Graph der auszuwählenden Sprachsegmente aufgebaut. Die Auswahl eines geeigneten Sprachsegments wird mit Hilfe des Entropie-Maßes ermittelt. Ist dadurch die Auswahl eines bestimmten Sprachsegments nicht eindeutig identifizierbar, kommt die Mahalonobis-Distanz zwischen den spektralen Eigenschaften der Sprachbausteine abhängig vom Kontext zum Tragen. Das hier beschriebene Verfahren eignet sich sowohl zur Überprüfung der in Sprachdatenkorpora verwendeten Sprachsegmente als auch im Speziellen für eine Reduktion nicht verwendeter Sprachbausteine. Aus diesem Grund kann das Verfahren auch zur Korpuserstellung für die konkatenative Sprachsynthese eingesetzt werden, da nicht relevante Sprachbausteine eine geringe Auswahlwahrscheinlichkeit haben und somit aus der Datenbasis entfernt werden können.


Year: 2004
In session: Sprachsynthese
Pages: 194 to 200