一言でいうと
熟練者の行動をまねるように学習させる、模倣学習についてのサーベイ。最新の研究というよりは、基礎的な手法が丁寧にまとめられている。限られた熟練者の行動を、学習+生徒の行動を矯正する形で使うDAgger(性能がいい)についてOpenAI Gymを使った検証結果もまとめられている
論文リンク
https://arxiv.org/abs/1801.06503
著者/所属機関
Alexandre Attia, Sharone Dayan
投稿日付(yyyy/MM/dd)
2018/1/19
概要
新規性・差分
手法
結果
コメント