@InProceedings{Madany2010_568,
author = {Katja Madany},
booktitle = {Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2010},
title = {Mixed-Type-Multi-Class Audio Klassifikation und Segmentation für die Inhaltserfassung von Broadcast Medien},
year = {2010},
editor = {Hansjörg Mixdorff},
month = mar,
pages = {265--272},
publisher = {TUDpress, Dresden},
abstract = {Angestrebt ist eine Vorverarbeitung von Audiosignalen aus Mediadaten durch Klassifikation und Segmentation. Die in den Signalen vorkommende Sprache soll von den anderen Elementen wie Musik und Hintergrundgeräuschen getrennt werden, um eine ressourcen-optimierte Spracherkennung mit einer hohen Erkennungsrate zu gewährleisten. Mediadaten bestehen häufig aus Elementen, die nicht eindeutig einer Klasse zuzuordnen sind, sondern Mischformen aus den eben genannten Audioklassen darstellen. Die gängig für die Unterscheidung von Sprache und Musik eingesetzten akustischen Merkmale wurden daher in einer Mixed-Type- Multi-Class-Klassifikation angewendet, um darin ihre Aussagekraft zu überprüfen. Bei den verwendeten Merkmalen handelt es sich um statistische Kennwerte der zeitlichen und spektralen Struktur der Signale: Zero-Crossing-Rate, RMS-Energie, Spectral Centroid, Spectral Rolloff-Point, Spectral Flux und MFCCs. Während Sprache auch in den Mischformen mit Musik oder Hintergrundgeräuschen gut als diese klassifiziert werden konnte,stellt die Diskrimination der Hintergrundgeräusche ein Problem und eine Herausforderung an zukünftige Lösungsansätze dar.},
isbn = {978-3-941298-85-9},
issn = {0940-6832},
keywords = {Automotive and Multimedia},
url = {https://www.essv.de/pdf/pdf/2010_265_272.pdf},
}