@InProceedings{Wagner2011_53,
author = {Petra Wagner},
booktitle = {Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2011.},
title = {Wie relevant ist die Phonetik noch für die Sprachsynthese?},
year = {2011},
editor = {Bernd J. Kröger and Peter Birkholz},
month = mar,
pages = {12--12},
publisher = {TUDpress, Dresden},
abstract = {Die sprachtechnologischen Entwicklungen der letzten Jahre haben
die Notwendigkeit für traditionelle phonetische Systemanteile, z.B. Modelle für die
Bestimmung akustischer Parameter, immer geringer werden lassen. Auch in der
Evaluation ersetzen objektive Messverfahren mittlerweile immer mehr aufwändige
Perzeptionstests. Dieser Trend spiegelt sich auch in den Veröffentlichungen zur
Sprachsynthese der letzten Jahre wider. Es stellt sich daher die Frage, welche Rolle
die Phonetik jenseits der Erstellung von Aussprachelexika und Trainingsdatenbanken
in Zukunft überhaupt spielen kann bzw. sollte.
Die Antwort ergibt sich direkt aus einer Analyse der gegenwärtigen Schw¨achen
synthetischer Sprache. Genau da, wo die Synthesesysteme derzeit an ihre Grenzen
stoßen, kann die Phonetik möglicherweise nach wie vor wichtige Impulse liefern.
Eine ähnliche Einsicht setzt sich derzeit in der Spracherkennungsforschung
durch, wo verstärkt menschliche Sprachentwicklungs- und Lernmodelle berücksichtigt
werden.
Die aktuellen Synthesen liefern qualitativ sehr verständliche, weitgehend natürlich
– im Sinne von menschlich – klingende Sprache und werden immer besser in
der Generierung verschiedener Sprechstile und unterschiedlicher Sprecher, z.B.
durch Voice Morphing. Trotz dieser Möglichkeiten sind die bestehenden Systeme
in aller Regel wenig adaptiv, und scheinen im Regelfall auf eine/n Durchschnittshörer/in zugeschnitten. Dieser Ansatz ignoriert, dass jeder Mensch gewissermaßen ein Special Listener ist, also jemand mit situations- und personenspezifisch
besonderen Bedürfnissen an den Synthesestil. Eine solche Betrachtung geht
weit über die Unterscheidung zwischen >>normalen<< und >>speziellen<< Hörergruppen
wie Blinde, Fremdsprachenlerner etc. hinaus. Menschen sind hingegen in der Regel
sehr gut in der Lage, ihre Sprechstile situations-, hörer- und textspezifisch angemessen
anzupassen. Ein weiterer Punkt ist die Frage nach dem Adäquatheit bestimmter
Sprechstile im Kontext einer Sprachsyntheseanwendung. Zwischenmenschliche
Kommunikationsstrategien können ein Vorbild sein, wir müssen aber damit rechnen,
dass sich die Hörererwartungen an Synthese sich von denen an menschliche
Interaktionspartner stark unterscheiden. Wir benötigen daher eine weitergehende
Erforschung zwischenmenschlicher sprachlicher und phonetischer Anpassungsprozesse,
hörerspezifischer Erwartungen an synthetische Sprache sowie nutzerzentrierter
Evaluationstechniken. Eine entsprechende Forschungsausrichtung könnte im
hohen},
isbn = {978-3-942710-37-4},
issn = {0940-6832},
keywords = {Phonetik und Sprachtechnologie I},
url = {https://www.essv.de/pdf/pdf/2011_12_12.pdf},
}