はじめに
今回は2017/9/21に出版された「速習 強化学習-基礎理論とアルゴリズム」についてザッと読んだ感想などを述べていきます。
- 作者: Csaba Szepesvari,小山田創哲,前田新一,小山雅典,池田春之介,大渡勝己,芝慎太朗,関根嵩之,高山晃一,田中一樹,西村直樹,藤田康博,望月駿一
- 出版社/メーカー: 共立出版
- 発売日: 2017/09/21
- メディア: 単行本
- この商品を含むブログを見る
本書の概要
- マルコフ決定過程
- 価値推定問題
- 制御
- さらなる勉強のために
- 割引マルコフ決定過程の理論
- TD法の前方観測的な見方と後方観測的な見方について
- 深層強化学習を含む最近の発展
となっています。
特筆すべきなのは、問題を数式で定式化してから解説するということを一貫して行っている点です。
また技術書にしてはかなりページ数が少ないです。110ページの解説と、18ページの参考文献リスト、索引という作りになっています(全体で約130ページ)。この薄さの理由は前書きにも書いてありますが、
・研究者が分野の視座を広げる
・初学者が最先端の感覚を養う
・最新のコンテンツを含む(ただし、本書の英版は2010年に出版されているものである)
・短くまとまり、自己完結している
という要件を満たすように執筆されたためです。強化学習の本として素晴らしい物は他にもあるので、「本」として未だ無かったタイプのものを提供したかったというのが意図のようです。
本の対象者
必要な前提知識
前提知識として
- 微分積分
- 線形代数
- 確率論
の基本が要求されます。これらがない場合は、まず読むのは無理だと思っていいでしょう(本書の中でこれらについて少しでも振り返って詳しく書いてくれるようなことは無い)。逆に、出てくる数式それ自体は、上記のような知識があれば十分わかるということになります。
おすすめできない人
最近の機械学習の本でよくある、「詳しく文章で書いて、豊富な具体例を基に基礎を掴んでもらおう」というタイプの本ではありません(「深層強化学習を含む最近の発展」の章は除く)。
例えば、「ゼロから作るDeep Learning」や「詳解ディープラーニング」のように、ディープラーニングの基本を具体例(Pythonのプログラム)と共に学んでいくようなタイプの本とは全く異なります。
本書は擬似コードなどを載せていますが、プログラミングベースで学びたい人に取っては(無理に等しいぐらい)厳しい本です。
理由としては、「本書の理論を理解した上でそれを実際に動かすとしたらどんなコードになるのか」を擬似コードで載せているのであって、「コードを動かすことで具体例を見て理論の理解に役立てよう」という形にはなっていないためです。
また、前提となる数学の知識を有していたとしても、数学独特の表記にアレルギーのようなものを持っている場合は少し厳しいかもしれません(この機に克服するのもいいが)。具体的には
加算MDPは、状態の空でない加算集合、行動の空でない加算集合、遷移確率カーネルの3つの組で定義され、その中でも遷移確率カーネルは各状態と行動の組に対し、上の確率測度を割り当てる。
中略
遷移確率カーネルは、以下の状態遷移確率カーネルを定める。
というような表記(あるいは話の仕方)が全く受け付けない場合は厳しいです。
おすすめの人
この本を手に取ることで恩恵を受ける人というのは、おすすめできない人に該当しておらず、かつ強化学習の理論の(主要な部分の)全体像を短ページで身につけたい方です(こりゃまあ前書きの通りです)。手短に学びたいというのを前提とすれば、状態空間モデル(特に確率的な動的システム)の基礎知識を持っていたりするとハイペースで読むことができるのではないかと思われます。
より具体的に挙げてみると
・普通の機械学習は学んできたが、強化学習にも興味が出てきた人
・強化学習を動かしてみたことはあるけども、理論を勉強していなかった人
・強化学習を学びたいが以下の書籍が分厚く、説明が冗長に感じられた人
- 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
- 出版社/メーカー: 森北出版
- 発売日: 2000/12/01
- メディア: 単行本(ソフトカバー)
- 購入: 5人 クリック: 76回
- この商品を含むブログ (29件) を見る
・最適制御は学んできたが、学習制御にも興味が出てきた人(以下の記事のような繋がりに関して興味を持った人)
と言ったところであり、この本書が想定している「初学者」というのは「強化学習」という枠組みの初学者のことであり、学習や制御(その他周辺の応用数学的な話)など自体に触れるのが初めてという意味ではないと思われます。主に周辺の基本知識を有する学部上級生以上からという雰囲気です。