エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。 また、前提知識... この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。 また、前提知識として必要なマルコフ決定過程についてはこちらをご覧ください。 部分観測マルコフ決定過程 マルコフ決定過程では全ての状態が観測できることが前提でした。 しかし、状態が一部分しか観測されない事は十分に考えられます。 これを仮定したモデルが部分観測マルコフ決定過程(partially observable Markov decision process; POMDP)です。 マルコフ決定過程の要素は以下でした。 \begin{align} S = \{s_1, s_2, ..., s_N \} &: 状態の有限集合\\ A = \{a_1, a_2, ..., a_M \} &: アクションの有限集合\\ p(s'|s, a) &: sにてaを選んだ後にs'に遷移する確率(状態遷