Nichtkausales cepstrales Sprachmodell

Robert Vích

Nichtkausales cepstrales Sprachmodell

Abstract:

Konventionelle cepstrale Sprachsynthese basiert auf dem minimalphasigen parametrischen Spracherzeugungsmodell mit unendlicher Impulsantwort. Die Übertragungsfunktion des minimalphasigen cepstralen Vokaltraktmodells wird aus dem gefensterten reellen Cepstrum mit Hilfe der Padé Approximation gewonnen. In diesem Fall approximiert der logarithmische Frequenzgang des Modells nur das logarithmische Betragsspektrum des zugehörigen Sprachsegments. In diesem Beitrag wird für das cepstrale Sprachmodell das komplexe Cepstrum angewendet, das auch die Phaseninformation beinhaltet. Das mischphasige Spracherzeugungsmodell wird in diesem Fall durch die Kaskadenschaltung eines kausalen und eines nichtkausalen Filters mit endlicher Impulsantwort realisiert. Das kausale Filter entspricht dem kausalen Teil, das nichtkausale Filter dem antizipativen Teil des komplexen Cepstrums. Beide Filter können separat aus den zugehörigen gefensterten Cepstrumteilen mit Hilfe der diskreten Fourier Transformation oder rekursiv konstruiert werden. Man kann auch die nichtkausale mischphasige Impulsantwort des Vokaltraktmodells direkt mit Hilfe der diskreten Fourier Transformation zu dem gefensterten komplexen Cepstrum bestimmen. Das nichtkausal synthetisierte Sprachsignal approximiert mit größerer Genauigkeit das originelle Signal im Vergleich zu der konventionellen Cepstralsynthese mit Hilfe des reellen Cepstrums, ist aber rechentechnisch mindestens doppelt so anspruchsvoll.

Year: 2009
In session: Signalverarbeitung
Pages: 107 to 114