Vergleichende Untersuchung von Reinforcement Learning Verfahren beim Training eines Dialog Managers
Authors: Stefan Hillmann, Tilo Himmelsbach, Benjamin Weiss
Abstract:
Unter Verwendung des Frameworks PLATO wurde die Policy eines Dialogmanagers mit drei verschiedenen Reinforcement Learning Algorithmen trainiert. Es zeigt sich, dass REINFORCE etwas schneller lernt als WoLF-PHC und deutlich schneller als Q-Learning. Auch hinsichtlich des erreichten Aufgabenerfolgs liegen REINFORCE und WoLF-PHC in etwa gleich auf und beide deutlich vor Q-Learning.