@InProceedings{Hillmann2020_464,
author = {Stefan Hillmann and Tilo Himmelsbach and Benjamin Weiss},
booktitle = {Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2020},
title = {Vergleichende Untersuchung von Reinforcement Learning Verfahren beim Training eines Dialog Managers},
year = {2020},
editor = {Andreas Wendemuth and Ronald Böck and Ingo Siegert},
month = mar,
pages = {249--256},
publisher = {TUDpress, Dresden},
abstract = {Unter Verwendung des Frameworks PLATO wurde die Policy eines Dialogmanagers mit drei verschiedenen Reinforcement Learning Algorithmen trainiert. Es zeigt sich, dass REINFORCE etwas schneller lernt als WoLF-PHC und deutlich schneller als Q-Learning. Auch hinsichtlich des erreichten Aufgabenerfolgs liegen REINFORCE und WoLF-PHC in etwa gleich auf und beide deutlich vor Q-Learning.},
isbn = {978-3-959081-93-1},
issn = {0940-6832},
keywords = {Dialogue},
url = {https://www.essv.de/pdf/2020_249_256.pdf},
}