はじめに 強化学習について日本語で説明したゆるふわ入門があればいいなと思ったので書きます。ちょっと冗長だったので、簡潔にしました。 重要な注意点として、今回の記事では、環境のモデル(MDPの全ての要素)が分かっている場合を扱います。後に環境のモデルが不明な場合を扱いますが、そのための数学的なバックグラウンドとなるものが今回の記事で扱われます。 強化学習とは 強化学習が何かについては、たくさんの人がゆるふわな紹介を行っているので、飛ばします。代わりに、数学的な定義を説明します。 マルコフ決定過程(MDP) 強化学習において、環境の定義が必要となる。この環境の定義には、通常、マルコフ決定過程またはMarkov(ian?) Decision Process(MDP)を用いる。 MDPは5-tuple $(\mathcal{S}, \mathcal{A}, p, r, \gamma)$によって定ま