Anwendung des MFCC-Plotters zur Erfassung cepstraler Unterschiede in emotionaler Sprache

Abstract:

Diese Arbeit stellt einen Ansatz zur explorativen Analyse von Mel Frequency Cepstral Coefficients (MFCCs) vor. Es sollen Unterschiede in der gesprochenen Sprache zwischen den Emotionen Ekel, Wut, Angst, Freude und Trauer jeweils im Vergleich zu einer neutralen Emotion untersucht werden. Dieser Vergleich wird mit Mel Frequency Cepstral Coefficents, sogenannten MFCCs, durchgeführt. Da MFCCs als numerische Werte abstrakt und nicht intuitiv verständlich sind, werden die Abweichungen visuell mit dem MFCC-Plotter dargestellt. Der MFCC-Plotter ist ein von uns entwickeltes open source Werkzeug zur graphischen Aufbereitung von MFCC-Daten. Es erlaubt nicht nur eine Visualisierung einzelner MFCC-Datensätze, sondern ermöglicht es durch den sogenannten Merge-Modus schnell Unterschiede zwischen zwei Datensätzen erkennen zu können. Interaktiv können diverse Plots (Boxplot, ECDF-Plot, Histogramm) erzeugt werden, die eine detailreichere Analyse einzelner Dimensionen ermöglichen. Ergänzt werden diese Plots durch gängige statistische Kenngrößen, wie Durchschnittswerte, den Median und die Standardabweichung. Die Einbindung des cepstralen Raums soll bekannte phonetische Analysen unterstützen und neue Sichtweisen auf die Daten ermöglichen. Der MFCC-Plotter steht auf GitHub zum Download zur Verfügung und kann für die Untersuchung verschiedener phonetischer Fragestellungen verwendet werden. Ziel ist es, mit dieser beispielhaften Anwendung des MFCC-Plotters zur Analyse von emotionaler Sprache, die Vorteile des MFCC-Plotters aufzuzeigen und zu einer engeren Zusammenarbeit zwischen der Sprachtechnologie und der traditionellen Phonetik anzuregen.


Year: 2023
In session: Visualisation
Pages: 9 to 16