12. Feature hashing / Hashing trick 12
ダミー変数はカテゴリの種類が多いと
特徴量量の次元数が⼤大きくなりすぎる
Feature hashingにより任意の次元に削減
Nの値がある程度度⼤大きければ精度度への影響⼩小
x := new vector[N]
for f in features:
h := hash(f)
x[h mod N] += 1
http://en.wikipedia.org/wiki/Feature_hashing
24. 機械学習とは 24
“Machine learning is the science of getting
computers to act without being explicitly
programmed.” Andrew Ng
⼀一般的にはコンピュータの振る舞い⽅方(モデル)を
(⼤大量量の)データから学習することにより獲得する.