Kontinuierliche Schätzung von Sprechgeschwindigkeit mit einem Rekurrenten Neuronalen Netzwerk
Authors: Benjamin Weiss, Thilo Michael, Stefan Hillmann
Abstract:
Um händische Segmentation bei der Analyse von Tempo aus Sprachaufnahmen zu vermeiden, können automatische Spracherkenner oder Verfahren wie das Praat-Skript von de Jong und Wempe 2009 verwendet werden. Als Ersatz wurde ein Verfahren für die kontinuierliche Schätzung von Sprechtempo entwickelt, das nicht wie automatische Spracherkenner auf ein Sprachmodell zurückgreifen muss, und dennoch praktikabler als das etablierte Praat-Skript ist, da es die Sprechzeit präziser berücksichtigt. Unser Ansatz nutzt ein rekurrentes neuronales Netz mit LSTM Zellen und wurde mit ca. 70% des Kiel Korpus trainiert. Das resultierende Modell schätzt die verbleibenden 30% Testdaten mit r=0,9.