Detektion unbekannter Wörter in der automatischen Erkennung spontaner Sprache

Abstract:

Aufgrund der Vielfalt von Ausdrucksmöglichkeiten in Spontansprache verwenden Benutzer von Spracherkennungssystemen Wörter, die nicht im begrenzten Erkennervokabular vorhanden sind, sogenannte unbekannte Wörter. Solche Wörter führen zu Erkennungsfehlern und müssen zur Verbesserung des Sprachverstehens detektiert werden. Dieser Beitrag stellt zwei Methoden zur Detektion gegenüber. Die explizite Modellierung verwendet spezielle HMM für unbekannte Wörter, die jeweils auf allen Wörtern einer bestimmten Länge trainiert wurden. Die implizite Methode basiert auf erkenner-internem Wissen(Konfidenzmerkmalen), das unbekannte Wörter von Wörtern des Vokabulars unterscheidet. Beide Methoden eignen sich zur Detektion unbekannter Wörter, wobei gezeigt werden kann, daß die vorgestellten impliziten Modelle signifikant bessere Leistungen als die expliziten Modelle erreichen. Sie sind in der Lage, etwa jedes dritte unbekannte Wort zu detektieren, wobei jede zweite OOV-Hypothese korrekt ist. Erstmals werden hybride Ansätze vorgestellt, die beide Methoden kombinieren. Sie erhöhen die Präzision der Detektion geringfügig, jedoch kompensiert diese Verbesserung den wesentlich höheren Rechenaufwand nicht. Eine weitere Präzisierung der expliziten Modelle wird zur Verbesserung der Detektion vorgeschlagen.


Year: 2004
In session: Spracherkennung
Pages: 103 to 110