1年あたり平均0.61人の兵士が馬に蹴られて死ぬ軍隊において、「1年に何人の兵士が馬に蹴られて死ぬかの確率の分布」を求める。
それが、歴史上で初めてポアソン分布が使われた事例だと言われています。
以来、ポアソン分布は主に「ランダムに起きる事故・病気の発症」などにおいて「特定の期間中に何回起こる確率が何%あるのか」を可能な限り正確に把握することで、適切なリスク管理を行うのに活躍しています。
photo credit:Moyan Brenn
ポアソン分布とは?
ポアソン分布とは、(どの時点でも同様な起こりやすさでランダムに起こる現象と仮定した場合に)「単位時間あたりに平均 λ 回起こる現象が、単位時間に k 回起きる確率」を表すのに使われる確率分布のこと。
この「単位時間あたりに平均 λ 回起こる現象が単位時間に k 回起きる確率」は多くの場合、以下の式で表されることが分かっています。
この式は、パラメータが n と p=λ/n である二項分布において、λ を一定にしたまま n を無限大に近づけることで近似的に求まります。(ポアソンの極限定理)
二項分布については「コイン投げから分かる二項分布」の記事を参照。
ちなみに、 e(≒2.718)は自然対数の底(ネイピア数)です。
そして、確率変数 X がこの式の条件を満たしているとき、「確率変数 X はパラメータ λ のポアソン分布に従う」と言います。
数式だけではイメージが湧きにくいと思うので、λ=1.5 のポアソン分布と λ=3 のポアソン分布を見ていくと、こんな感じになります。
ポアソン分布の平均と分散はどちらもλ
ポアソン分布の特徴の中でも代表的なのが、「平均も分散もλ」なこと。
「単位時間あたりに平均 λ 回起こる現象」に関する確率分布なので平均(期待値)が λ になるのは分かりやすい一方で、分散も λ になるというのは面白いですね。
ポアソン分布の平均(期待値)と分散を求めるには、exのマクローリン展開を利用します。
ポアソン分布は具体的にどう使うのか
ポアソン分布は、例えば「30分に平均2回電話がかかって来るコールセンターにおいて、1時間に6回電話がかかって来る確率」を求めるのに便利な分布です。
この場合、求めたいのは「1時間に6回電話がかかって来る確率」なので
「単位時間は1時間」・「k=6回」となります。
λは単位時間あたりの平均生起回数なので「30分に平均2回」→「1時間に平均4回」から「λ=4」となります。
λとkが求まったら、この「λ=4」と「k=6」を先ほどの数式に代入してみましょう。
約0.104という値が求まりました。
これはつまり、「30分に平均2回電話がかかって来るコールセンターにおいて、1時間に6回電話がかかって来る確率は約10.4%である」ということを意味します。
これ、意外と高い確率ですよね。
ここから、「30分に平均2回しか電話がこないなら、1時間に6回も電話がかかってくることはないだろう」と油断してはいけない、ということが分かります。
ちなみに、λ=4 のポアソン分布の k=0 から k=12 までをまとめた表とグラフはこんな感じ。
「k=8 までの確率の累計」が0.978637という事は、「k=9 以上の確率」が約2.13%あるということを意味します。
反対に、「k=0 の確率」も約1.83%あります。
ここから分かることは、1時間だけコールセンターの担当をする場合、合計50回も担当すれば「9回以上電話がかかってきてしまう」ことも「1回も電話がかかってこない」こともそれぞれ1回くらいは経験するのが普通、ということです。
使い道の広さと弱点
ポアソン分布は「事故の発生回数」や「サーバーへのアクセス数」など、様々なものに活用することができますが、使う上で1つ注意すべきことがあります。
それは、ポアソン分布は「完全にランダムではない事象」に対しては正確な分析が出来ないという弱点を持っていること。
例えば先のコールセンターの例で言えば、「テレビで取り上げられた場合」には、たった1時間の間に普段では考えられないほど多くの問い合わせ電話がかかってくることが予想されますよね。
このように各事象の発生が完全にランダムというわけではなく、他の事象発生との間に強い相関関係があるようなケースでは、ポアソン分布は機能しにくくなってしまうんです。
ポアソン分布は「ランダムに出現する傾向」が強い事象であるほど、その有用性を発揮します。
そういう意味では、「馬に蹴られて兵士が死ぬ」というランダム性の高い事象がポアソン分布の初の実用例となったのは、当然のことなのかもしれません。