Fehlertolerante Multimodale Fusion von N-Besten Listen von Spracheingabe und Zeitgesten

Hartwig Holzapfel; Alex Waibel

Fehlertolerante Multimodale Fusion von N-Besten Listen von Spracheingabe und Zeitgesten

Authors: Hartwig Holzapfel, Alex Waibel

Abstract:

Gestik wird häufig in Mensch-Mensch-Kommunikation eingesetzt, um Gesprochenes zu verdeutlichen (Redundanz) oder nichtredundante Informationen hinzu zu fügen. Derartige nichtredundante Information sind z.B. Zeigegesten, die zur Disambiguierung von Objekten dienen. Fusion von Sprache und Gestik setzen wir bereits erfolgreich in unserem Projekt humanoide Roboter ein, um dem Benutzer eine natürlichere Schnittstelle zu bieten. In der vorliegenden Arbeit wird nun ein darauf aufsetzendes Verfahren beschrieben, das neben der Gestikauflösung auch Hypothesen aus der n-besten Liste der Spracherkenner-Ausgabe wählt, um das Fusionsergebnis zu verbessern. Hierzu wird eine Score-Funktion verwendet, die es erlaubt, Kombinationen der verschiedenen n-besten Listen zu bewerten und damit verschiedene Fusionsergebnisse zu ordnen. Die Ausgabe der Fusion stellt dabei ebenfalls eine n-besten Liste dar. Die Fusion verwendet Informationen über die zeitliche Abfolge von Eingaben, um darauf mögliche Gruppierungen zu erstellen. Dabei bestimmen Fusionsregeln durch Constraints, ob verschiedene Eingaben aufgrund ihrer semantischen Repräsentation kombiniert werden können. Verschiedene Kombinationsmöglichkeiten entstehen erst durch die Verarbeitung von n-besten Listen. Die Score-Funktion, zur Bewertung der unterschiedlichen Ergebnisse, verwendet Konfidenzen von Sprach- und Gestikerkenner, sowie Wahrscheinlichkeiten für Fehldetektionen von Gesten. Der Ansatz wurde mit zwei Basissystemen verglichen. Der erste Ansatz verwendet jeweils nur die beste Hypothese von Sprach- und Gestikerkenner, der zweite Ansatz versucht die am besten passende Geste aus einer n-besten Liste zu wählen. Eine Evaluation wird gezeigt, dass der neue Ansatz eine Verbesserung gegenüber den bestehenden Systemen darstellt.

Year: 2004
In session: Spracherkennung
Pages: 95 to 102