Vergleichende Untersuchung von Reinforcement Learning Verfahren beim Training eines Dialog Managers

Stefan Hillmann; Tilo Himmelsbach; Benjamin Weiss

Vergleichende Untersuchung von Reinforcement Learning Verfahren beim Training eines Dialog Managers

Authors: Stefan Hillmann, Tilo Himmelsbach, Benjamin Weiss

Abstract:

Unter Verwendung des Frameworks PLATO wurde die Policy eines Dialogmanagers mit drei verschiedenen Reinforcement Learning Algorithmen trainiert. Es zeigt sich, dass REINFORCE etwas schneller lernt als WoLF-PHC und deutlich schneller als Q-Learning. Auch hinsichtlich des erreichten Aufgabenerfolgs liegen REINFORCE und WoLF-PHC in etwa gleich auf und beide deutlich vor Q-Learning.

Year: 2020
In session: Dialogue
Pages: 249 to 256