ESSV Konferenz Elektronische Sprachsignalverarbeitung

Title: Kontinuierliche Schätzung von Sprechgeschwindigkeit mit einem Rekurrenten Neuronalen Netzwerk

Authors: Benjamin Weiss, Thilo Michael, Stefan Hillmann

Abstract:

Um händische Segmentation bei der Analyse von Tempo aus Sprachaufnahmen zu vermeiden, können automatische Spracherkenner oder Verfahren wie das Praat-Skript von de Jong und Wempe 2009 verwendet werden. Als Ersatz wurde ein Verfahren für die kontinuierliche Schätzung von Sprechtempo entwickelt, das nicht wie automatische Spracherkenner auf ein Sprachmodell zurückgreifen muss, und dennoch praktikabler als das etablierte Praat-Skript ist, da es die Sprechzeit präziser berücksichtigt. Unser Ansatz nutzt ein rekurrentes neuronales Netz mit LSTM Zellen und wurde mit ca. 70% des Kiel Korpus trainiert. Das resultierende Modell schätzt die verbleibenden 30% Testdaten mit r=0,9.


Year: 2018
In session: Speech Processing and Prosody
Pages: 186 to 191