2012年1月10日火曜日

統計学を勉強するときに知っておきたい7つのポイント

このエントリーをはてなブックマークに追加
Pocket

マイクロソフト社が技術分野でもっと熱い専攻の一つとして分析/統計をあげている(Microsoft JobsBlog)。同社以外でも統計学は、今後最も有益なスキルの一つだと考えているようだ(NYT - For Today’s Graduate, Just One Word: Statistics)。しかし、データマイニングの話も一般化しつつあって学習ノウハウなども公開されているが、経験にあわない部分が多い。統計学を初めて勉強するときに知っておいた方が良い7つのポイントをあげてみた。

1. 学習機会やテキストは山のようにあるので利用する

確率・統計の日本語テキストは山のようにあり、大学のコースワークを振り返っても、理文問わずにほとんどの学部で確率・統計はあったはずだ。大学院のコースワークでは英語の文献を好む傾向があるが、上級テキストでも日本語のものも少なくない。また「マンガでわかる統計学」のような軽いノリのテキストもあるのも日本の特徴だ。

テキスト自体は小説と比較すれば高めだが、古本で安い事も多いし、一冊を終えるのにかかる時間を考えれば大した問題では無い。一回のデート代を節約すれば5冊は参考書が買えて、読み終わるのに1年ぐらいかかるはずだ。

2. 微分積分と線形代数は復習しておく

正規分布の形状を見れば分かると思うが、数式を使って表現される。入門レベルのテキストを見れば微積分で理解できそうだが、専門分野になってくると行列形式の微積分になるので性質が悪くなる。正しく理解するには数学の知識が必要だ。

ただしテキストの説明が理解できればいいので、数学記号の意味や基本的な展開を理解できれば良い。ナブラ、グラディエント、ヤコビアンあたりを忘れている人でも、索引から意味を確認できれば問題ない。

なおテキストとして微積分だと「現代の古典解析」、線形代数だと「線形代数―基礎と応用」の評判が良いが、テキストの種類は幅広いので自分にあったモノを探して見る事をおすすめする。基本的な事を確認するための薄くて分かりやすい本で十分だ。

3. 統計解析パッケージも学習していく

RやStata、SPSS等の統計解析パッケージを使えないと、学習した知識も絵に描いた餅でしかない。テキストで覚えた分析手法を、統計解析パッケージで実際に使えるようにしておく事は大切だ。オープンソースのRを推奨だが、有償パッケージの方が細かいところが行き届いている事も少なくない。まずは周囲で使っているものから学習していこう。

4. 分野ごとに統計学は異なるので殻に篭る

実験結果を分析する統計学と、調査データを分析する統計学は手法が異なり、後者の方が概ね複雑になる。また調査データでも、個票データを扱う場合や、時系列データを取り扱う場合には、高度な手法が用いられる。各分野ごとに発達しているので、同じモノでも違う用語がついている事も少なくない。最初のうちは、自分の分野の殻に篭って学習するのが良い。

5. 分析パターンを覚えてそれに習う

分析にはパターンがある。例えば基本統計量を確認した上で、重回帰分析などの計量分析を行う事がそれだ。

派生的な検定方法もある。最小二乗法(OLS)を覚えたら、制約条件のつけ方や、複数パラメータの同時検定、F検定等も覚えておこう。また、分析手法が高度になって来ると、その分析手法が正しいか検定を行う必要が出てくる。

こういうパターンをどうやって覚えるかだが、テキストにもある程度は書いてあるし、他人の分析結果を見ると使い方が分かるはずだ。つまり論文を読んでもいいし、研究報告を見ても良い。

6. 単語の定義を理解しておく

統計学に限らずだが、用語定義を曖昧にしたまま分析を行うと、出てきた結果の解釈などでつまづく事は多い。何か分析結果が出てきたのだが、それをどう解釈していいのか悩む人は意外に多いものだ。丸暗記する必要は無いのだが、直感的な理解はできる必要がある。

7. 走りながら覚える

実際のところ統計テクニック自体は年々増えているし、研究職でもない限り学習速度的に追いつけるかは疑問だ。知っているテクニックで分析を行う、分析をしつつテクニックを増やしていくことが大切になる。どの辺りで実際の分析に踏み出すべきかと言えば、平均や分散を覚えたところで十分だ。

A. 完全な初学者のために

大学等で統計学の授業を履修していなかったために、どこから手をつけたらいいか分からない人は、大村平氏の「確率のはなし」や「統計のはなし」から読み始めることをお勧めする。製造業で統計学が使われるようになった時期に書かれた書籍だと思うが、小噺が豊富で興味深かった。

次のステップとしては、「統計学入門 (基礎統計学) 」を読んでから、専門分野のテキストを読めば良い。統計解析パッケージの入門書もあわせて読む必要があるが、Rであれば最初は「R入門」で十分であろう。もちろん書き方や説明の仕方は好みがあるので、他の書籍でも構わない。

最終的には回帰分析のバリエーションを増やすか、因子分析をマスターするか、統計分類アルゴリズムに傾斜するかは分野ごとに分かれると思うが、まずは基礎を1年間固めることをお勧めする。

0 コメント:

コメントを投稿