記事が少ないと寂しいので,自分の専門について書こうと思います.
私が現在専攻しているのは,簡単に言うと「機械学習」ということになるでしょう.
細かく言うと,その中でも機械学習の観点から,統計的な「時系列解析」を扱っています.
最近,ビッグデータだのディープラーニングだので機械学習が(まさに)にわかに脚光を浴びていますので,機械学習を勉強したいんだけど,なにから初めていいのかわからない...という人があふれているかもしれません.
そういう人のために,教科書を紹介するのも専門家の役目だと私は思っているので,浅学ながら紹介します.
全くの初心者向け
機械学習を学ぶために必要な数学的知識として,主なものは
まず,解析学・線形代数は大学初年度程度のリテラシーがあれば大体は大丈夫です.
解析学では,多変数関数の偏微分,重積分,ヤコビ行列,ラグランジュの未定乗数法あたりわかっていればなんとかなりそう.
線形代数では,とにかくベクトル・行列・線型空間への土地勘と,固有分解,正定値行列,直交行列など.
ベクトル・行列の微分は Matrix cookbook を参照のこと.
統計学は,検定を勉強したことがあれば十分かと思います.
一般的な統計学の教科書に書いてある内容と,機械学習に必要な「統計」はちょっと離れてるようなので.
これらの数学的知識がない人は,まずそこから勉強すると,あとが楽かもしれません.急がばまわれ,ということで。。
知識があいまいでも,機械学習を勉強するうちに本質がわかっていく,という面もあるかと思います.
ベイズ統計に全く触れたことがない人は,「図解・ベイズ統計『超』入門 あいまいなデータから未来を予測する技術」をはじめに読んでみるといいでしょう.
数式の多い本を読み,頭がぐるぐるして投げ出すよりは,このような簡単な本から始めるのがかと.
数式を暗記するより,なぜその式を使う必要があるのかというココロを理解するのが大事というのは,どの分野でも同じですね.
(補足)
三本柱のうち,喫緊で何が一番必要かと言ったら,やはり線形代数かと思います.
線形代数の教科書のうち,私の周辺で人気があるのは「プログラミングのための線形代数」です.
線形代数を応用に使ったことがある人にとってはそんなに必要ないかもしれませんが(数値計算については充実してる),「線形空間ってなんだっけ?」って感じに,線形代数と空間のイメージが明確で無い場合はいいかもしれません.
数学がある程度できる初心者向け
ここまでは基礎の基礎,機械学習の読み書きソロバンの話でしたが,次は機械学習のイントロ本.
一番初めに読むのは何がよいか,人によって意見は違うと思いますが,私がいいとも思う本は杉山先生の「統計的機械学習―生成モデルに基づくパターン認識」です.
私が学部4年生のとき一番初めに読んだのはこれ.
この本だけでは内容的に足りていない,というのは注意すべきですが,
迷ったら買って損はありません.
ただ,「5章 最尤推定法の理論的性質」はちょっと難しいかもしれませんので,はじめは読み飛ばしても良いかも.
久保先生の「データ解析のための統計モデリング入門」も評判がいいです.
通称「みどりぼん」.
私は読んだことないのですが,読みたい本の一つです.
ただ,本当の意味での初心者が独学で突っ込んでいくには,ちょっとハードルが高めのような気がしています.
説明はめちゃわかりやすいらしいんですが.
上述の杉山先生の本の次くらいに読むのがいいのではないでしょうか.
あるいは輪講するとか.
扱っているトピックはかなり深くて,一般化線形モデル・MCMC・階層モデルを含んでいるので,実用にすぐ応用できるでしょう.
ただ,あくまで統計的モデリングの教科書なので,「機械学習を勉強する」という目的には合わないかもしれません.
機械学習を学んだと言える教科書
さて,本題です.
「俺っち機械学習知ってるんやけど~wwww」と嘯けるようになるにはどの教科書を読めばいいか,ということです.
1. パターン認識と機械学習 (PRML)
まずはじめに紹介しなければならないド定番は,PRMLでしょう.
通称「きいろいほん」.
英語の原著が出版されたのは2006年.
この時期に出版されたにしては信じられないくらい,幅広いトピックが網羅され,定番になったことも頷けます.
まずこの本を通読することを目標としている人は数知れないでしょう.
そして日本中で数多くの輪講が開かれ,大体3・4章読み終わったぐらいで頓挫していますww さもあらん.
まさに魔の山.
しかしその分,登頂したときのリターンは大きいです.
2006年の時点で機械学習に関して学ばなければならないことは,かなりカバーしています.
これを読み終えれば,あとは研究に入るだけ,と言えましょう.
ただ,手法の詳細・実装に関してはあまり書いていないという面もあります.
が,それは論文を読めば良い話です.
この本を読む上での障害は,やはり数学的知識です.
輪講が頓挫するのは,基礎がわかっていないことによるものが大きいです.
また,ほんとうの意味での機械学習初心者も弾かれてしまいます.
しかしながら,数学の基礎があり,また杉山先生の本を読んだ後であれば,読み進めていけるでしょう.
それでもまだまだ難しいのですが。。
幸い,PRMLに関しては slideshare などで意識高い人達がいっぱいスライドをアップしてくれていますので,そちらも参考になるでしょう.
機械学習を学ぶものが避けては通れない壁,それがPRMLです.
なお,PRMLにはアンチョコ同人誌があります.
初学者,それも独学者には強い見方です.
英語版は以下.
タイトル+pdf でぐぐったら幸せになれるかも
2. 統計的機械学習の基礎 (ESL)
最近になって邦訳が出た,これも統計的学習の定番の教科書.
私の研究室でも輪講しています.
英語の原著が出版されたのは2001年で,少々古いのが難(2版は2008年).
この本の素晴らしいのは,英語版の pdf を公開してくれていること!!
この本もまた,久保先生の本と同様に統計的学習・モデリングを対象としており,機械学習(特に日本におけるトレンド)を期待していると拍子抜けするかもしれません.
特徴としては,正則化についての記述がとても詳しく,著者らの経歴が色濃く出ているように感じます.
なので,最適化・信号処理まわりの人達には適しているかもしれません.
難易度としては,PRMLよりも難しい(!)ので,はじめに読む本として私はオススメできません.
ただ,かなり内容としてはディープで,特に正則化についてとても勉強になります.
正則化は機械学習では避けては通れないので(みんな大好きディープラーニングでも),機械学習の研究者としてこの本を知らないのは,邦訳が出た以上モグリになってしまうかも.
PRMLが幅広いトピックを表面的になぞる本ならば,この本は正則化の観点から統計的学習をディープに弄っていく本.
欠点としては,やはり本が古いこと.
しかし,ディープラーニングの構成要素である,制限ボルツマンマシン(RBM)をしれっと扱っています.これはメリット.
PRMLでは扱っていない,ランダムフォレストも扱っています.
前述のとおり,英語版は pdf を公開してくれています.
http://statweb.stanford.edu/~tibs/ElemStatLearn/
3. Machine Learning: a Probabilistic Perspective (MLaPP)
英語しかありませんが,今熱い教科書がMLaPPです.
出版は2012年で,PRML・ESLよりかなり新しいです.
1000ページ以上あり,通読するというより,リファレンスとして使うのが適当かもしれません.
扱っているトピックは凄まじく広く,ディープラーニングやディリクレ過程混合さえ載っています.
アメリカの大学でも学部生の授業の教科書として使われ始めているようです.
(RasmussenとGhahramaniが先生って...ヤバすぎる)
意識の高いデータサイエンティスト()は,PRMLだけでなくこちらも輪講すべきです.
4. Bayesian Reasoning and Machine Learning (BRML)
この教科書も pdf が公開されています.2012年の出版です.
さらに,MATLAB のツールキットも公開されており,割と充実しています.
私はあまり好きではないのですが。。
具体例が豊富なので,独習には向いているかも.
また何か思いついたら追記します.
私が現在専攻しているのは,簡単に言うと「機械学習」ということになるでしょう.
細かく言うと,その中でも機械学習の観点から,統計的な「時系列解析」を扱っています.
最近,ビッグデータだのディープラーニングだので機械学習が(まさに)にわかに脚光を浴びていますので,機械学習を勉強したいんだけど,なにから初めていいのかわからない...という人があふれているかもしれません.
そういう人のために,教科書を紹介するのも専門家の役目だと私は思っているので,浅学ながら紹介します.
全くの初心者向け
機械学習を学ぶために必要な数学的知識として,主なものは
- 解析学(微分積分学)
- 線形代数
- 統計学
まず,解析学・線形代数は大学初年度程度のリテラシーがあれば大体は大丈夫です.
解析学では,多変数関数の偏微分,重積分,ヤコビ行列,ラグランジュの未定乗数法あたりわかっていればなんとかなりそう.
線形代数では,とにかくベクトル・行列・線型空間への土地勘と,固有分解,正定値行列,直交行列など.
ベクトル・行列の微分は Matrix cookbook を参照のこと.
統計学は,検定を勉強したことがあれば十分かと思います.
一般的な統計学の教科書に書いてある内容と,機械学習に必要な「統計」はちょっと離れてるようなので.
これらの数学的知識がない人は,まずそこから勉強すると,あとが楽かもしれません.急がばまわれ,ということで。。
知識があいまいでも,機械学習を勉強するうちに本質がわかっていく,という面もあるかと思います.
ベイズ統計に全く触れたことがない人は,「図解・ベイズ統計『超』入門 あいまいなデータから未来を予測する技術」をはじめに読んでみるといいでしょう.
数式の多い本を読み,頭がぐるぐるして投げ出すよりは,このような簡単な本から始めるのがかと.
数式を暗記するより,なぜその式を使う必要があるのかというココロを理解するのが大事というのは,どの分野でも同じですね.
(補足)
三本柱のうち,喫緊で何が一番必要かと言ったら,やはり線形代数かと思います.
線形代数の教科書のうち,私の周辺で人気があるのは「プログラミングのための線形代数」です.
線形代数を応用に使ったことがある人にとってはそんなに必要ないかもしれませんが(数値計算については充実してる),「線形空間ってなんだっけ?」って感じに,線形代数と空間のイメージが明確で無い場合はいいかもしれません.
数学がある程度できる初心者向け
ここまでは基礎の基礎,機械学習の読み書きソロバンの話でしたが,次は機械学習のイントロ本.
一番初めに読むのは何がよいか,人によって意見は違うと思いますが,私がいいとも思う本は杉山先生の「統計的機械学習―生成モデルに基づくパターン認識」です.
私が学部4年生のとき一番初めに読んだのはこれ.
この本だけでは内容的に足りていない,というのは注意すべきですが,
- 機械学習の定番の教科書(PRMLなど)より簡単
- Octave での実装が記述してある
迷ったら買って損はありません.
ただ,「5章 最尤推定法の理論的性質」はちょっと難しいかもしれませんので,はじめは読み飛ばしても良いかも.
久保先生の「データ解析のための統計モデリング入門」も評判がいいです.
通称「みどりぼん」.
私は読んだことないのですが,読みたい本の一つです.
ただ,本当の意味での初心者が独学で突っ込んでいくには,ちょっとハードルが高めのような気がしています.
説明はめちゃわかりやすいらしいんですが.
上述の杉山先生の本の次くらいに読むのがいいのではないでしょうか.
あるいは輪講するとか.
扱っているトピックはかなり深くて,一般化線形モデル・MCMC・階層モデルを含んでいるので,実用にすぐ応用できるでしょう.
ただ,あくまで統計的モデリングの教科書なので,「機械学習を勉強する」という目的には合わないかもしれません.
機械学習を学んだと言える教科書
さて,本題です.
「俺っち機械学習知ってるんやけど~wwww」と嘯けるようになるにはどの教科書を読めばいいか,ということです.
1. パターン認識と機械学習 (PRML)
まずはじめに紹介しなければならないド定番は,PRMLでしょう.
通称「きいろいほん」.
英語の原著が出版されたのは2006年.
この時期に出版されたにしては信じられないくらい,幅広いトピックが網羅され,定番になったことも頷けます.
まずこの本を通読することを目標としている人は数知れないでしょう.
そして日本中で数多くの輪講が開かれ,大体3・4章読み終わったぐらいで頓挫していますww さもあらん.
まさに魔の山.
しかしその分,登頂したときのリターンは大きいです.
2006年の時点で機械学習に関して学ばなければならないことは,かなりカバーしています.
これを読み終えれば,あとは研究に入るだけ,と言えましょう.
ただ,手法の詳細・実装に関してはあまり書いていないという面もあります.
が,それは論文を読めば良い話です.
この本を読む上での障害は,やはり数学的知識です.
輪講が頓挫するのは,基礎がわかっていないことによるものが大きいです.
また,ほんとうの意味での機械学習初心者も弾かれてしまいます.
しかしながら,数学の基礎があり,また杉山先生の本を読んだ後であれば,読み進めていけるでしょう.
それでもまだまだ難しいのですが。。
幸い,PRMLに関しては slideshare などで意識高い人達がいっぱいスライドをアップしてくれていますので,そちらも参考になるでしょう.
機械学習を学ぶものが避けては通れない壁,それがPRMLです.
なお,PRMLにはアンチョコ同人誌があります.
初学者,それも独学者には強い見方です.
英語版は以下.
Christopher Bishop
Springer
2010-02-15
2. 統計的機械学習の基礎 (ESL)
最近になって邦訳が出た,これも統計的学習の定番の教科書.
私の研究室でも輪講しています.
英語の原著が出版されたのは2001年で,少々古いのが難(2版は2008年).
この本の素晴らしいのは,英語版の pdf を公開してくれていること!!
この本もまた,久保先生の本と同様に統計的学習・モデリングを対象としており,機械学習(特に日本におけるトレンド)を期待していると拍子抜けするかもしれません.
特徴としては,正則化についての記述がとても詳しく,著者らの経歴が色濃く出ているように感じます.
なので,最適化・信号処理まわりの人達には適しているかもしれません.
難易度としては,PRMLよりも難しい(!)ので,はじめに読む本として私はオススメできません.
ただ,かなり内容としてはディープで,特に正則化についてとても勉強になります.
正則化は機械学習では避けては通れないので(みんな大好きディープラーニングでも),機械学習の研究者としてこの本を知らないのは,邦訳が出た以上モグリになってしまうかも.
PRMLが幅広いトピックを表面的になぞる本ならば,この本は正則化の観点から統計的学習をディープに弄っていく本.
欠点としては,やはり本が古いこと.
しかし,ディープラーニングの構成要素である,制限ボルツマンマシン(RBM)をしれっと扱っています.これはメリット.
PRMLでは扱っていない,ランダムフォレストも扱っています.
前述のとおり,英語版は pdf を公開してくれています.
http://statweb.stanford.edu/~tibs/ElemStatLearn/
3. Machine Learning: a Probabilistic Perspective (MLaPP)
英語しかありませんが,今熱い教科書がMLaPPです.
出版は2012年で,PRML・ESLよりかなり新しいです.
1000ページ以上あり,通読するというより,リファレンスとして使うのが適当かもしれません.
扱っているトピックは凄まじく広く,ディープラーニングやディリクレ過程混合さえ載っています.
アメリカの大学でも学部生の授業の教科書として使われ始めているようです.
(RasmussenとGhahramaniが先生って...ヤバすぎる)
意識の高いデータサイエンティスト()は,PRMLだけでなくこちらも輪講すべきです.
Kevin P. Murphy
The MIT Press
2012-08-24
4. Bayesian Reasoning and Machine Learning (BRML)
この教科書も pdf が公開されています.2012年の出版です.
さらに,MATLAB のツールキットも公開されており,割と充実しています.
私はあまり好きではないのですが。。
具体例が豊富なので,独習には向いているかも.
また何か思いついたら追記します.
コメント