渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる

追記2

2015年末の時点での最新リストはこちらです。

追記

この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。

今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。


※以下僕も持っているものには「*」を打ってあります*1*2*3

統計学


統計学入門 (基礎統計学)

統計学入門 (基礎統計学)

*古典的名著。これぞ本当の「統計学の教科書」。統計学の基礎の基礎のほぼ全てを網羅しています。2変量までの検定・推定ならこれ一冊で十分。

自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

*これまた古典的名著。僕は自然科学の研究者だったのでこちらを持っていました。分散分析・最尤法やカテゴリカルデータの検定・推定、はたまた確率過程・乱数理論についても触れていて重宝します。ベイズ理論も少しだけ触れてます。

人文・社会科学の統計学 (基礎統計学)

人文・社会科学の統計学 (基礎統計学)

人文・社会学系の人はこちらの方がとっつきやすいかも。

分散分析のはなし

分散分析のはなし

*またまた古典ですみません。分散分析はともかく、共分散分析をきちんと解説しているテキストは実はあまり多くないので、こういう分かりやすいテキストは重宝します。

サンプルサイズの決め方 (統計ライブラリー)

サンプルサイズの決め方 (統計ライブラリー)

*サンプル抽出によるデータ分析業務を行っている人は必携。恐らく、日本で唯一のサンプルサイズ決定法に関するテキスト。特に非心t分布を用いたサンプルサイズ推定はどの本にもちゃんと載っていないので、大変貴重な本。

マンガでわかる統計学

マンガでわかる統計学

アナリティクス系の仕事をしている同僚が持ってます。基礎的な内容を分かりやすくイラスト(萌え系マンガ笑)で解説してくれています。

マンガでわかるナースの統計学 -データの見方から説得力ある発表資料の作成まで-

マンガでわかるナースの統計学 -データの見方から説得力ある発表資料の作成まで-

これもアナリティクス系の仕事をしている別の同僚が持ってます。これまた基礎的な内容を平易にイラスト(非萌え系マンガ笑)で解説してくれています。


機械学習・データマイニング


わかりやすいパターン認識

わかりやすいパターン認識

*古典。サポートベクターマシン(SVM)がまだ載ってなかったり内容は古いんですが、この本には機械学習(パターン認識)の最低限のエッセンスと教養が詰まっているので初学者にお薦め。特に、機械学習で有名な「次元の呪い」などの概念を非常に平易に解説してくれていて、読みやすいです。

サポートベクターマシン入門

サポートベクターマシン入門

*和書では恐らくこれが唯一かも?と思われるSVMの解説書。はっきり言ってどの書評もボロカスで気の毒な限りなんですが*4、この本ほどアルゴリズム実装を念頭に置いてきちんと書かれた本はない上に、SVMの高速化に貢献した凸二次最適化計画アルゴリズムであるSMO (Sequential Maximal Optimization)のアルゴリズムを解説している資料は和書ではこれ以外どこにも見当たらない*5ので、どうしてもSVMをきちんと理解したい人は必読。

パターン認識と機械学習 上

パターン認識と機械学習 上

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

*言わずと知れた、機械学習の最高峰テキスト。はっきり言って、読んでるだけで死ねます。でも読みながらPythonやMatlabなどでコードを書いてだましだまし実装することで、実力が身に付く凄い本です。たぶん上級者向け。

入門 機械学習

入門 機械学習

Rを用いて機械学習を学ぼうというテキスト。評判は良いようです。

入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック

入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック

Pythonでソーシャルデータの扱い方を学ぶというテキスト。これも色々なところで紹介されていますね。

集合知プログラミング

集合知プログラミング

同僚が輪読会をずっとやっていました。これもソーシャルデータ分析システムのPython主体での実装を目指すというテキストです。


R関連


Rによるデータサイエンス-データ解析の基礎から最新手法まで

Rによるデータサイエンス-データ解析の基礎から最新手法まで

*僕が辞書代わりに使っている本。大半の手法を網羅しているので、一通り勉強し終わったらこれを脇に置いておくと便利かも。

Rプログラミングマニュアル (新・数理工学ライブラリ 情報工学)

Rプログラミングマニュアル (新・数理工学ライブラリ 情報工学)

*コードを書くときに辞書代わりに置いている本。Rはデータ構造がややこしいので、こういうRの仕様を何もかも解説してくれる本があると助かります。

RとS-PLUSによる多変量解析

RとS-PLUSによる多変量解析

*S-Plus前提(純正R向けではない)の本。ただしサンプルデータを著者のサイトで配布していたりしてそこそこ使いやすい。手法はやや古めですが、基本的な部分は大体カバーしてます。

Rによるテキストマイニング入門

Rによるテキストマイニング入門

*たまたまMeCabで何かしようかなーと思った時に買ってきた本。今はRMeCab使わずにPython-MeCabでやってるのであまり読んでないんですが、Rでテキストマイニングをしたいという人はこれがあれば大体事足ります。

データマイニング入門

データマイニング入門

割と定評のあるテキスト。同僚でも持ってる人が多いです。カバーがお洒落?笑

Rクックブック

Rクックブック

これも同僚で持ってる人がちらほら。オライリーが好きな人はこちらの方が良いかも。

計量時系列分析


経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

*以前も取り上げた、通称「沖本本」。計量時系列分析のほぼ全てが、コンパクトかつ簡潔にまとめられている上に、演習問題が載っていてさらには著者の沖本竜義先生の個人サイトでサンプルデータまで提供されているという、至れり尽くせりの名著。僕にとってはバイブルです。

Time Series Analysis

Time Series Analysis

*マルコフ転換モデルの発案者である、Hamiltonの大著。洋書ですが、計量時系列分析の「本当に全て」が網羅されている素晴らしいテキスト。データサイエンス業務で計量時系列分析を多用する人は、絶対に持っていて損をしない一冊。


データサイエンス全般・webデータ分析など


Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)

Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)

*仏語版が原著でさらに英訳したという面倒な由来を持つ洋書ですが、ビジネスの現場において「意思決定のためにいかにして統計学・データマイニング・機械学習を利用するか?」という点を実際の事例を挙げながら、非常に分かりやすく解説している名著。統計分析ツール同士の性能比較一覧(R vs. SAS vs. SPSS)も載せており、きわめて有用な一冊。

入門 ウェブ分析論――アクセス解析を成果につなげるための新・基礎知識 増補改訂版

入門 ウェブ分析論――アクセス解析を成果につなげるための新・基礎知識 増補改訂版

クチコミページと社長ブログ、売上に貢献しているのはどちら? ~マンガでわかるウェブ分析

クチコミページと社長ブログ、売上に貢献しているのはどちら? ~マンガでわかるウェブ分析

*我らが小川卓さんのwebデータ分析シリーズ。実際にwebサイトを運営していく上で必要なアクセス&データ分析、データの見方、そしてデータ分析&可視化ツールの使い方を分かりやすく解説しています。「ビジネスも実務もデキる一味違ったデータサイエンティスト」を目指すなら、必携のシリーズです。


最後に


以上のリストは僕の独断と偏見に基づくものですので、鵜呑みにしてはいけません。笑 ぜひ皆さんに合ったテキストを探してみて下さい!

*1:アフィリエイトの類は一切やっておりませんので、下記リンクからテキストをお買い上げになっても儲かるのはAmazonだけです(笑)

*2:あくまでも僕が持っているorチラ見させてもらって良さげなものを選んだだけですので、全くもって「万人にお薦めできる」とかそういう観点はありませんので悪しからず。。。

*3:もっと書いてしまうと、僕が普段こなしているデータサイエンス業務を片付けるに足る程度のテキスト群しか選んでいないので、例えばサーバーサイドでのアルゴリズム実装を実践する人向けには全く別のテキストたちが必要になると思います

*4:特に邦訳が日本語としてもぐちゃぐちゃで何言ってるか分からないという苦情多数

*5:しかもPlattの原著論文から擬似アルゴリズムを引用して細かく実装時の注意点を解説している