ESSV Konferenz Elektronische Sprachsignalverarbeitung

Title: Neue Ansätze zur Sprachsynthese mit kodierten Sprachsegmenten

Authors: Guntram Strecha

Abstract:

Der Einsatz in kommerziellen Produkten (Embedded Systems) stellt an die Sprachverarbeitung spezielle Anforderungen. Neben einer hohen Akzeptanz beim Nutzer spielt beim Hersteller der Ressourcenverbrauch der Synthese eine wichtige Rolle. Im Vordergrund stehen dabei der Speicherbedarf und der Rechenaufwand. Im Bereich des Mobilfunks zeigt sich außerdem ein Trend zu höheren Bandbreiten als 8 kHz. In dem Beitrag wird ein Synthesesystem vorgestellt, welches kodierte Sprachsegmente synthetisiert. Alle Segmente des (Diphon-)Inventars sind mit einem im Mobilfunkbereich häufig eingesetzten standardisierten Sprachkodierer komprimiert. Während der Synthese werden die geforderten Sprachsegmente dekodiert. Der Ansatz, der bei dem vorgestellten Synthesesystem verfolgt wird, ist die Integration der Prosodiemanipulation (f0-, Dauersteuerung) in den Dekodierer. Dieser integrierte Ansatz basiert auf Gemeinsamkeiten des CELP-basierten Kodierers/Dekodierers mit Sprachsynthesetechniken. Unter Verwendung verschiedener Kodierstufen werden Kompressionsraten von bis zu 18:1 (8 kHz) bzw. 26:1 (16 kHz) erreicht. Das entspricht Inventargrößen von 119 kByte bzw. 164 kByte.


Year: 2004
In session: Sprachsynthese
Pages: 156 to 162