ESSV Konferenz Elektronische Sprachsignalverarbeitung

Title: Untersuchungen zur Güte der Simulation einer Spracheingabe im Freisprechmodus bei der Evaluierung von Spracherkennungssystemen

Authors: Andreas Kitzig, Hans-Günter Hirsch

Abstract:

Bei der Entwicklung von robusten Spracherkennungssystemen ist es von großem Interesse, zur Evaluation der Leistungsfähigkeit eines Systems Sprachsignale zur Verfügung zu haben, die möglichst realistisch die akustischen Bedingungen praxisrelevanter Störszenarien beinhalten. Durch die Evaluation wird gewährleistet, dass das System im späteren Praxiseinsatz zuverlässig funktioniert und die bestmögliche Erkennungsrate liefert. Eine Möglichkeit zur Generierung solcher Sprachdaten besteht in der Simulation der akustischen Bedingungen, z.B. durch die additive Überlagerung von ungestörten Sprachsignalen und Störgeräuschen oder einer Faltung mit geeigneten Raumimpulsantworten zur Simulation einer Spracheingabe im Freisprechmodus. Bei einer Simulation der akustischen Bedingungen stellt sich jedoch die Frage, wie gut die Simulation die reale Aufnahme von Sprachsignalen in der jeweiligen akustischen Umgebung widerspiegelt. Dies wird im Rahmen der hier vorgestellten Arbeiten für eine Spracheingabe im Freisprechmodus in Räumen untersucht. Dazu wurden mittels eines eigenen Aufnahmeaufbaus Sprachdaten der TiDigits Sprachdatenbank [3] in insgesamt sechs verschiedenen Räumen wiedergeben und an 19 unterschiedlichen Aufnahmepositionen aufgezeichnet, um reale Sprachdaten im Freisprechmodus zu erzeugen. Zusätzlich wurde in jeder Aufnahmeposition die Raumimpulsantwort bestimmt und ein entsprechender Datensatz künstlich verhallter Daten generiert. Die Güte der realen und der simulierten Daten wurde abschließend anhand von verschiedenen Spracherkennungsexperimenten untersucht. Der vorliegende Text ist wie folgt aufgebaut: Nach einer Einleitung, in der die Simulation von geeigneten Testdaten für Spracherkennungssysteme theoretisch betrachtet wird, folgt ein Überblick über die praktische Umsetzung zur Erzeugung der realen und simulierten Testdaten. Anschließend werden die für die Bestimmung der Güte der generierten Testdaten verwendeten Spracherkennungssysteme dargestellt. Abschließend erfolgt die Darstellung und Diskussion der Ergebnisse.


Year: 2012
In session: Postersitzungen
Pages: 204 to 211