ESSV Konferenz Elektronische Sprachsignalverarbeitung

Title: Schätzung der spektralen Einhüllenden – Ein Vergleich von tiefen neuronalen Netzen und Codebüchern

Authors: Christopher Seitz, Mohammed Krini

Abstract:

Viele Methoden der Sprachsignalverbesserung, wie die Bandbreitenerweiterung oder die Geräuschreduktion, sind modellbasiert und basieren aufdem sogenannten Quelle-Filter-Modell der Vokalproduktion. Mit Bezug auf dasModell lässt sich Sprache in zwei Komponenten aufteilen. Die Stimmbänder generieren einen Laut, mit eigener spektralen Form und Struktur (Quelle-Teil), deranschließend von den Resonanzeigenschaften des Vokaltrakts gefiltert wird (Filter-Teil). Daher sind zuverlässige Methoden zur Schätzung des Filter-Teils (spektraleEinhüllende) und des Quelle-Teils (Anregungssignal) notwendig. Der Fokus dieser Arbeit liegt auf der Schätzung der spektralen Einhüllenden, da diese sehr wichtig ist für die Rekonstruktion von stark gestörten Sprachsignalen. KonventionelleMethoden liefern keine zuverlässige Schätzung der spektralen Einhüllenden mithohem Geräuschanteil. Daher werden zwei verschiedene Verfahren vorgestellt undanalysiert. Zum einen ein Codebuch, das ungestörte spektrale Einhüllenden enthält. Das Codebuch wird mittelsk-MeansAlgorithmus in unterschiedlichen Größen trainiert. Die Einhüllenden des Codebuch-Verfahrens werden mit der Schätzung derEinhüllenden eines tiefen rekurrenten neuronalen Netzes (RNN) verglichen. Weiterhin werden verschiedene Optimierungen bei dem tiefen RNN angewendet, umdie Mappingfunktion zwischen gestörter und ungestörter spektralen Einhüllenden zu verbessern. Die Qualität der erhaltenen Modelle wird durch ein objektives Maßanalysiert.


Year: 2019
In session: Poster und Demonstrationen
Pages: 178 to 185