@InProceedings{Weiss2004_521,
author = {Christian Weiss},
booktitle = {Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2004},
title = {Markov-Entropie basierte Auswahl geeigneter Sprachsegmente für korpusbasierte Sprachsynthese-Systeme},
year = {2004},
editor = {Klaus Fellbaum},
month = mar,
pages = {194--200},
publisher = {TUDpress, Dresden},
abstract = {Konkatenative Text-to-Speech Systeme, welche auf der Grundlage des
„variable size non-uniform unit-selection“ Algorithmus aufgebaut sind, haben die
Aufgabe adäquate Sprachbausteine auszuwählen, die die qualitativen und
quantitativen Zielvorgaben maximal approximieren. Hieraus ergibt sich die
Problemstellung ein geeignetes Sprachdatenkorpus zu erstellen, welches maximale
Abdeckung aufweist und minimal redundant ist. In bestehenden Systemen wird die
Segmentauswahl zur Laufzeit mittels einer Einheitenkosten-Funktion und
Übergangskosten-Funktion berechnet.
Als Alternative zur Einheiten-Kostenfunktion wird in diesem Beitrag ein statistisches
Verfahren vorgestellt, welches auf abhängigen Wahrscheinlichkeiten der jeweiligen
parametrisierten Sprachsegmente beruht. In der Abfolge der zu synthetisierenden
Äußerung wird aus diesen ein Markov-Graph der auszuwählenden Sprachsegmente
aufgebaut. Die Auswahl eines geeigneten Sprachsegments wird mit Hilfe des
Entropie-Maßes ermittelt. Ist dadurch die Auswahl eines bestimmten
Sprachsegments nicht eindeutig identifizierbar, kommt die Mahalonobis-Distanz
zwischen den spektralen Eigenschaften der Sprachbausteine abhängig vom Kontext
zum Tragen. Das hier beschriebene Verfahren eignet sich sowohl zur Überprüfung
der in Sprachdatenkorpora verwendeten Sprachsegmente als auch im Speziellen für
eine Reduktion nicht verwendeter Sprachbausteine. Aus diesem Grund kann das
Verfahren auch zur Korpuserstellung für die konkatenative Sprachsynthese
eingesetzt werden, da nicht relevante Sprachbausteine eine geringe
Auswahlwahrscheinlichkeit haben und somit aus der Datenbasis entfernt werden
können.},
isbn = {978-3-937672-65-6},
issn = {0940-6832},
keywords = {Sprachsynthese},
url = {https://www.essv.de/pdf/2004_194_200.pdf},
}