@InProceedings{Holzapfel2004_507,
author = {Hartwig Holzapfel and Alex Waibel},
booktitle = {Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2004},
title = {Fehlertolerante Multimodale Fusion von N-Besten Listen von Spracheingabe und Zeitgesten},
year = {2004},
editor = {Klaus Fellbaum},
month = mar,
pages = {95--102},
publisher = {TUDpress, Dresden},
abstract = {Gestik wird häufig in Mensch-Mensch-Kommunikation eingesetzt, um
Gesprochenes zu verdeutlichen (Redundanz) oder nichtredundante Informationen
hinzu zu fügen. Derartige nichtredundante Information sind z.B. Zeigegesten, die
zur Disambiguierung von Objekten dienen.
Fusion von Sprache und Gestik setzen wir bereits erfolgreich in unserem Projekt
humanoide Roboter ein, um dem Benutzer eine natürlichere Schnittstelle zu bieten.
In der vorliegenden Arbeit wird nun ein darauf aufsetzendes Verfahren beschrieben,
das neben der Gestikauflösung auch Hypothesen aus der n-besten Liste
der Spracherkenner-Ausgabe wählt, um das Fusionsergebnis zu verbessern. Hierzu
wird eine Score-Funktion verwendet, die es erlaubt, Kombinationen der verschiedenen
n-besten Listen zu bewerten und damit verschiedene Fusionsergebnisse zu
ordnen. Die Ausgabe der Fusion stellt dabei ebenfalls eine n-besten Liste dar.
Die Fusion verwendet Informationen über die zeitliche Abfolge von Eingaben,
um darauf mögliche Gruppierungen zu erstellen. Dabei bestimmen Fusionsregeln
durch Constraints, ob verschiedene Eingaben aufgrund ihrer semantischen Repräsentation kombiniert werden können. Verschiedene Kombinationsmöglichkeiten entstehen erst durch die Verarbeitung von n-besten Listen. Die Score-Funktion, zur
Bewertung der unterschiedlichen Ergebnisse, verwendet Konfidenzen von Sprach- und
Gestikerkenner, sowie Wahrscheinlichkeiten für Fehldetektionen von Gesten.
Der Ansatz wurde mit zwei Basissystemen verglichen. Der erste Ansatz verwendet
jeweils nur die beste Hypothese von Sprach- und Gestikerkenner, der zweite Ansatz
versucht die am besten passende Geste aus einer n-besten Liste zu wählen. Eine
Evaluation wird gezeigt, dass der neue Ansatz eine Verbesserung gegenüber den
bestehenden Systemen darstellt.},
isbn = {978-3-937672-65-6},
issn = {0940-6832},
keywords = {Spracherkennung},
url = {https://www.essv.de/pdf/2004_95_102.pdf},
}