統計学が最強の学問である

統計学が最強の学問である

統計学が最強の学問である

(2013-07-16読了)

巷をにぎわせた(?)本をようやく読了.行き帰りの電車でさっと読むことができた.

ビッグデータを使おう! という話かな? と思って読んだら,ビッグデータをビッグのまま扱う必要あるのだろうか? ランダムサンプリングが可能であれば頑張って高いコストを払ってビッグなまま使う必要ないじゃない,というようなスタンス.

細かいところで物足りない部分があったりしたが,読み物として楽しく読むことができた.

フィッシャーのはじめてのランダム化比較実験*1と言われている,紅茶を先に入れるかミルクを先に入れるかを当てる夫人の話を知らなかった.

ロジスティック回帰は線形関係しか表現できない (p.238-) と言っているが説明変数の方を基底関数で拡張すれば非線形なモデルも表現できるので不正確だと感じた.統計の人にはロジスティック回帰は線形モデルという印象が強いのだろうか.

著者はずっと統計に触れてきた人らしいので,多重共線性の話を入れて欲しかったなぁと思ったり.機械学習な人は,多重共線性とか面倒くさいから利用可能な特徴ぜーんぶ入れて正則化項入れてえいやっとやっちゃえばいいじゃない,というカラーがあるような気がする.それに対してちゃんとした統計な人はこう考えるだよ,というような話があるとよかった.

メモ

  • 一般化線形モデルをまとめた一枚の表 (p.170)
  • 一般化線形モデル (Generalized Linear Model) ≠ 一般線形モデル (General Linear Model) (p.178)
  • シンプソンのパラドックス
    • どこかで聞いたような...大学だっけ?
  • 傾向スコア
  • バスケット分析よりもカイ二乗検定を (p.234)

*1:この表現を初めて聞いた