ESSV Konferenz Elektronische Sprachsignalverarbeitung

Title: Einatmungsgeräusche vor synthetisch erzeugten Sätzen: Eine Pilotstudie

Authors: Jürgen Trouvain, Bernd Möbius

Abstract:

Die vorliegende Pilotstudie untersucht, ob das Einfügen kaum wahrnehmbarer Einatmungsgeräusche die Präferenz synthetischer Sprache positiv beeinflusst. Während in synthetischer Sprache Einatmungsgeräusche üblicherweise nicht vorkommen, sind sie in menschlicher Sprache mehr oder minder gut hörbar, werden aber meist "überhört". Experimente mit Formantsynthese zeigen, dass synthetisch erzeugte Sätze, denen Einatmungsgeräusche vorangestellt werden, besser memoriert werden als solche ohne [6]. Im hier berichteten Experiment werden mit konkatenativer Synthese erzeugte Telefonnummern verwendet. Ein Stimulus bestand aus zwei Kopien derselben Telefonnummer, wobei jeweils einer Kopie ein Einatmungsgeräusch vorangestellt wurde. Die elf Versuchspersonen hatten zu entscheiden, ob sie die erste oder die zweite Telefonnummer bevorzugen. Die Ergebnisse zeigen zwar für wenige Hörer die erwartete Präferenz der Version mit Einatmungsgeräusch, für einen Hörer allerdings eine negative Einstellung. Die Mehrheit zeigt weder eine Präferenz noch eine bewusstes Wahrnehmen dieser kurzen Vokalisierung. Die Hypothese, dass synthetisch erzeugte Äußerungen durch Voranstellen hörbarer Einatmungsgeräusche positiver wahrgenommen werden als solche ohne, konnte durch das vorgestellte Hörexperiment nicht im angenommenen Umfang bestätigt werden. Es kann nicht ausgeschlossen werden, dass die fehlende Kongruenz zwischen dem Sprecher der Synthese und dem "Sprecher" des Atmungsgeräusches sowie die fehlende Variation der Einatmungsgeräusche zu diesem Befund beigetragen haben. Die vorliegende Pilotstudie zeigt bezüglich der Steigerung der "Natürlichkeit" synthetischer Sprache zum einen, wie komplex sich die Beziehung zwischen Modellierung und Analyse des natürlichen Vorbilds verhält, zum anderen deutet die Studie aber auch den potenziellen Nutzen, aber auch das Risiko dieser Modellierung an.


Year: 2013
In session: Sprachsynthese
Pages: 50 to 55