@InProceedings{Madany2010_568,
author = {Katja Madany},
booktitle = {Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2010},
title = {Mixed-Type-Multi-Class Audio Klassifikation und Segmentation für die Inhaltserfassung von Broadcast Medien},
year = {2010},
editor = {Hansjörg Mixdorff},
month = mar,
pages = {265--272},
publisher = {TUDpress, Dresden},
abstract = {Angestrebt ist eine Vorverarbeitung von Audiosignalen aus Mediadaten
durch Klassifikation und Segmentation. Die in den Signalen vorkommende Sprache
soll von den anderen Elementen wie Musik und Hintergrundgeräuschen getrennt
werden, um eine ressourcen-optimierte Spracherkennung mit einer hohen
Erkennungsrate zu gewährleisten. Mediadaten bestehen häufig aus Elementen, die
nicht eindeutig einer Klasse zuzuordnen sind, sondern Mischformen aus den eben
genannten Audioklassen darstellen. Die gängig für die Unterscheidung von Sprache
und Musik eingesetzten akustischen Merkmale wurden daher in einer Mixed-Type-
Multi-Class-Klassifikation angewendet, um darin ihre Aussagekraft zu überprüfen.
Bei den verwendeten Merkmalen handelt es sich um statistische Kennwerte der
zeitlichen und spektralen Struktur der Signale: Zero-Crossing-Rate, RMS-Energie,
Spectral Centroid, Spectral Rolloff-Point, Spectral Flux und MFCCs. Während
Sprache auch in den Mischformen mit Musik oder Hintergrundgeräuschen gut als
diese klassifiziert werden konnte,stellt die Diskrimination der Hintergrundgeräusche
ein Problem und eine Herausforderung an zukünftige Lösungsansätze dar.},
isbn = {978-3-941298-85-9},
issn = {0940-6832},
keywords = {Automotive and Multimedia},
url = {https://www.essv.de/pdf/pdf/2010_265_272.pdf},
}