統計学の神の指紋
神の指紋とは?
いきなり仰々しいタイトルで申し訳ありません。統計学は言わば、データを採取して、そこから背後に潜む規則を獲得する学問です。通常、数学の一分野として存在していますが、数学科で代数などをやっていた人から言わせると統計学は別物だという印象があるようです(私の周りだけか?)。
通常の数学ではある公理から開始して、演繹的に定理を導き出します。そこには摩訶不思議な、神が準備したとしか思えないような神秘的な世界が広がっています。また物理学でも、規則が明らかにされていくうちに、神が準備した整然とした世界が広がっています。
ここで神というのは特に宗教的なものではありません。とにかく世の中を記述している、表現している、その規則そのものです。数学にしても物理学にしても研究が完全に終わるまでは神の姿を明らかにすることはできません。我々は神が残した「神の指紋」を1つずつ発見していっている状態です。
正規分布
一方で統計学といえば、神が準備したものというよりは、どちらかといえば人間側にとって都合の良いようにデータを加工し、解釈しやすくするものである印象があります。場合によっては人間の都合の良いように加工したあまりに神の指紋を削りとってしまう可能性すらあるように思えます。
統計学や確率論が大きく発展したのは19世紀であり、他の数学分野に比べ非常に出遅れています。ニュートンの古典力学が発生した時に現れた微積分学、そして解析学への発展を感がれば一目瞭然です。統計学や確率論に神の指紋の存在を期待していなかったからか、研究に着手するということが遅れていたのでしょう。
ガウスの研究によって、統計学・確率論の世界に神の指紋が発見されます。
それが正規分布(またの名をガウス分布)です。
神の指紋としての正規分布
正規分布の発見は、誤差の解析から生まれてきました。どうにも観測には必ず誤差が生じているようであり、これを上手く説明したいという実情がありました。
誤差は2種類存在する
誤差は以下の2種類に大別できます。
- 一定の規則のある誤差
- 完全にランダムな誤差
規則のある誤差
海上戦で砲弾をうち飛ばす場合、大砲の角度や火薬の量、砲弾の重さから理論的に到達点を計算することができます。しかし実際にはそのとおりには行きません。誤差が生じるからです。
まず風が吹いていたとしましょう。人間には些細な風邪でも長距離を移動する砲弾にとっては致命的なものです。これが一定の規則のある誤差です。この誤差の発見はそんなに苦労しないでしょう。
大砲を何発か発射してみれば、どの方向にどれだけずれるかを見積もることができます。例えば向かい風で敵船の手前に落ちたのならば、大砲の角度を上に上げるということで修正すればいいでしょう。
大砲が敵船に届かなかった場合は、角度を上げます。
ランダムな誤差
これを少しずつ繰り返して、仮に敵船を沈めることができた場合はラッキーです。しかし時には砲弾が敵船を通り越して向こう側へ落ちてしまうことがあります。大砲の角度は少しずつしか調整していないはずなのにそういうことが起こるのです。これが完全にランダムな誤差による影響です。
このような状況が訪れた時にどのような戦略が取られるのかというと、大砲の微調整をするのではなく、数撃ちゃ当たるの精神で、角度などの条件を変更せず撃ちまくるのです。
船員の命が掛かっている中、このような方法が取られてきたのは、経験的にそれが最も合理的だったからに違いありません。完全にランダムな誤差であるため、調整など不可能なのです。
このような自然界に現れる完全にランダムな誤差は全て「正規分布」で表現されます。
自然界でランダムに生じる誤差は、当然突き詰めれば物理学的な現象であるに違いありません。しかし、それが明らかにできない状況がほとんどです。しかし物理学的な現象であれば、何らかの偏りがあってもおかしくないでしょう。しかし、様々な要因が重ね合わさって生じた結果の誤差は必ず正規分布なのです。
正規分布の神の指紋
中心極限定理
誤差の要因の1つ1つが何か偏りのある分布に従っていたとしても、それらの和は(要因が多ければ多いほど)正規分布に近づきます(実際には特殊なケースもあるが、自然界では概ねこの解釈で良い)。
このような定理を中心極限定理と言います。
要因の1つ1つは本当にどんな分布に従っていたとしても良いのです。
たまには他の分布に近づいてみても良いじゃないかと思うかもしれませんが、そうは行きません。要因が多ければ多いほど正規分布に近づきます。
砲弾の例に戻れば、火薬の量に誤差が生じていたり、爆発力の伝達に誤差が生じていたり、爆発時の振動によって大砲の角度に誤差が生じていたり、いろいろ考えられるでしょう(そしてその1つ1つの要因すら、更なる小さな要因に分解できそうです)。
正規分布は明らかに特別です。神の指紋を感じられるようになったのです。
機械学習でも多くの場合は誤差を正規分布で取ってしまいます。
あるいは多くの確率変数の和を正規分布でモデル化します。何でもかんでもとりあえず正規分布を当てはめてみるというのは、正規分布に神の指紋がある故なのです。
参照:経済数学の直感的方法