ESSV Konferenz Elektronische Sprachsignalverarbeitung

Title: Vergleich verschiedener Machine-Learning Ansätze zur kontinuierlichen Schätzung von perzeptivem Sprechtempo

Authors: Benjamin Weiss, Thilo Michael, Uwe Reichel, Oliver Pauly

Abstract:

Perzeptives, lokales Sprechtempo im Deutschen ist nach Pfitzinger (1999) ein geglättetes kontinuierliches Signal, das aus einer Kombination von Silben- und Lautrate generiert wird und für die menschliche Wahrnehmung von Sprechtempo im Deutschen validiert ist. Ein bestehender akustischer Schätzer auf Basis von LSTMs mit MFCCs als Eingangsparametern wurde auf der ESSV 2018 vorgestellt. Dieser Ansatz wird nun mit moderneren Ansätzen verglichen. Zum einen werden komplexere neuronale Netzarchitekturen verwendet, die CNN und LSTM kombinieren. Zum anderen werden unterschiedliche Eingangsdaten getestet, indem zusätzlich zu und anstatt MFCCs die Einhüllende des Zeitsignals verwendet wird. Für die abschließende Evaluierung wird mit PhonDat 1 ein zusätzlicher Datensatz mit unterschiedlichem linguistischem Material herangezogen. Einfache rekurrente Netze sind hierbei CNNs etwas überlegen. Eine einfache Kombination von CNN und LSTM führt nicht zu einer Verbesserung. Zudem zeigt sich, dass komplexere CNN Architekturen MFCCs als Merkmale überflüssig machen können.


Year: 2019
In session: Poster und Demonstrationen
Pages: 164 to 169