@InProceedings{Schmidt2021_1133,
author = {Georg Schmidt and Ingo Siegert},
booktitle = {Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2021},
title = {Studie zur Lösbarkeit des Problems starker Pegelschwankungen im Home-Entertainment},
year = {2021},
editor = {Stefan Hillmann and Benjamin Weiss and Thilo Michael and Sebastian Möller},
month = mar,
pages = {303--310},
publisher = {TUDpress, Dresden},
abstract = {Das Phänomen erheblicher Pegelunterschiede in der Audiospur ist allgegenwärtig. Diese tritt nicht nur nur beim regulären Fernsehen oder Abspielen von DVDs auf, sondern vermehrt auch bei der Verwendung von Streaming-Diensten. Es ist oft nicht möglich, eine erträgliche Lautstärkeeinstellung zu finden, bei der alle Dialoge verstanden werden können und die Musik- oder Actionszenen nicht zu laut sind sowie Werbeblöcke als zu störend empfunden werden. Dies führt insbesondere für ältere Menschen und Menschen mit Hörschwäche zu Problemen. In diesem Beitrag werden zwei Kompressionsverfahren als Lösung des Problems diskutiert. Ziel ist es, eine Methode zu entwickeln, mit der die (Lautstärke-)Pegel der audiovisuellen Medien konstanter gehalten und Aspekte der Verständlichkeit und der Immersion berücksichtigt werden. Die erste Variante nutzt als Ansatz die dynamischen Kompression (Dynamic Range Compression - DRC). Der zweite Ansatz ist eine Kombination aus dem Clustern der Audiospur über die Berechnung leistungsbasierter Merkmale mittels Mel-Filterbank, gekoppelt mit einer Voice Activity Detection (VAD). Die Kompression wird anschließend anhand der identifizierten Cluster durchgeführt. Die VAD wird genutzt um den Dialoglevel auf einer konstanten Lautstärke zu halten. Beide Verfahren werden mit einer Hörerstudie evaluiert. Es wird durch die Bewertung von ausgewählten Filmausschnitten bestätigt, dass die Lautstärke nach Kompression „insgesamt angenehmer“ ist. Ein eindeutiger Vorteil der zweiten Methode gegenüber der DRC wird durch die Hörerstudie nicht bestätigt. Das finale Ziel ist die Entwicklung eines kostengünstigen Echtzeitsystems, welches Audiospuren im Home-Entertainment hinsichtlich ihrer Lautstärke bewerten und als zusätzliche Steuereinheit für die Lautstärkeregelung fungieren kann.},
isbn = {978-3-959082-27-3},
issn = {0940-6832},
keywords = {Sprachsignalverarbeitung und Evaluation},
url = {https://www.essv.de/pdf/2021_303_310.pdf},
}