@InProceedings{Weiss2019_78,
author = {Benjamin Weiss and Thilo Michael and Uwe Reichel and Oliver Pauly},
booktitle = {Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2019},
title = {Vergleich verschiedener Machine-Learning Ansätze zur kontinuierlichen Schätzung von perzeptivem Sprechtempo},
year = {2019},
editor = {Peter Birkholz and Simon Stone},
month = mar,
pages = {164--169},
publisher = {TUDpress, Dresden},
abstract = {Perzeptives, lokales Sprechtempo im Deutschen ist nach Pfitzinger (1999) ein geglättetes kontinuierliches Signal, das aus einer Kombination von Silben- und Lautrate generiert wird und für die menschliche Wahrnehmung von Sprechtempo im Deutschen validiert ist. Ein bestehender akustischer Schätzer auf Basis von LSTMs mit MFCCs als Eingangsparametern wurde auf der ESSV 2018 vorgestellt. Dieser Ansatz wird nun mit moderneren Ansätzen verglichen. Zum einen werden komplexere neuronale Netzarchitekturen verwendet, die CNN und LSTM kombinieren. Zum anderen werden unterschiedliche Eingangsdaten getestet, indem zusätzlich zu und anstatt MFCCs die Einhüllende des Zeitsignals verwendet wird. Für die abschließende Evaluierung wird mit PhonDat 1 ein zusätzlicher Datensatz mit unterschiedlichem linguistischem Material herangezogen. Einfache rekurrente Netze sind hierbei CNNs etwas überlegen. Eine einfache Kombination von CNN und LSTM führt nicht zu einer Verbesserung. Zudem zeigt sich, dass komplexere CNN Architekturen MFCCs als Merkmale überflüssig machen können. },
isbn = {978-3-959081-57-3},
issn = {0940-6832},
keywords = {Poster und Demonstrationen},
url = {https://www.essv.de/pdf/pdf/2019_164_169.pdf},
}