統計学

ポアソン分布とは何か。その性質と使い方を例題から解説 【馬に蹴られて死ぬ兵士の数を予測した数式】

5951748491_39aa154809_z

 

1年あたり平均0.61人の兵士が馬に蹴られて死ぬ軍隊において、「1年に何人の兵士が馬に蹴られて死ぬかの確率の分布」を求める。

 

それが、歴史上で初めてポアソン分布が使われた事例だと言われています。

 

以来、ポアソン分布は主に「ランダムに起きる事故・病気の発症」などにおいて「特定の期間中に何回起こる確率が何%あるのか」を可能な限り正確に把握することで、適切なリスク管理を行うのに活躍しています。

 

photo credit:Moyan Brenn


スポンサーリンク

ポアソン分布とは?

ポアソン分布とは、(どの時点でも同様な起こりやすさでランダムに起こる現象と仮定した場合に)「単位時間あたりに平均 λ 回起こる現象が、単位時間に k 回起きる確率」を表すのに使われる確率分布のこと。

 

この「単位時間あたりに平均 λ 回起こる現象が単位時間に k 回起きる確率」は多くの場合、以下の式で表されることが分かっています。

poissonP

 

この式は、パラメータが n と p=λ/n である二項分布において、λ を一定にしたまま n を無限大に近づけることで近似的に求まります。(ポアソンの極限定理)

二項分布については「コイン投げから分かる二項分布」の記事を参照。

poisson-kyokugen

 

Tooda Yuuto
Tooda Yuuto
この性質から、ポアソン分布は二項分布の連続時間版と考えることができます。

ちなみに、 e(≒2.718)自然対数の底(ネイピア数)です。

 

 

そして、確率変数 X がこの式の条件を満たしているとき、「確率変数 X はパラメータ λ のポアソン分布に従う」と言います。

 

poisson-definition

 

数式だけではイメージが湧きにくいと思うので、λ=1.5 のポアソン分布と λ=3 のポアソン分布を見ていくと、こんな感じになります。

 

lambda1-5-3

 

ポアソン分布の平均と分散はどちらもλ

ポアソン分布の特徴の中でも代表的なのが、「平均も分散もλ」なこと。

 

ev

 

「単位時間あたりに平均 λ 回起こる現象」に関する確率分布なので平均(期待値)が λ になるのは分かりやすい一方で、分散も λ になるというのは面白いですね。

 

二項分布ではV[X]=np(1-p)で、ポアソン分布は二項分布の「p=λ/n かつ n→∞」版と考えると V[X]=λ になるのが分かりやすいと思います。

 

ポアソン分布の平均(期待値)と分散を求めるには、exマクローリン展開を利用します。

 

poisson-ev

 

Tooda Yuuto
Tooda Yuuto
ポアソン分布は数式の見た目からパッと見は分かりにくいと思うかもしれませんが、実際には「意外と簡単で使いやすい確率分布」なので、具体的な使い方を見ながらポアソン分布を理解していきましょう!

 

ポアソン分布は具体的にどう使うのか

 

ポアソン分布は、例えば「30分に平均2回電話がかかって来るコールセンターにおいて、1時間に6回電話がかかって来る確率」を求めるのに便利な分布です。

 

poissonexa

 

この場合、求めたいのは「1時間に6回電話がかかって来る確率」なので

「単位時間は1時間」・「k=6回」となります。

 

λは単位時間あたりの平均生起回数なので「30分に平均2回」→「1時間に平均4回」から「λ=4」となります。

 

λとkが求まったら、この「λ=4」と「k=6」を先ほどの数式に代入してみましょう。

 

lambda4

 

約0.104という値が求まりました。

 

これはつまり、「30分に平均2回電話がかかって来るコールセンターにおいて、1時間に6回電話がかかって来る確率は約10.4%である」ということを意味します。

 

これ、意外と高い確率ですよね。

 

ここから、「30分に平均2回しか電話がこないなら、1時間に6回も電話がかかってくることはないだろう」と油断してはいけない、ということが分かります。

 

 

ちなみに、λ=4 のポアソン分布の k=0 から k=12 までをまとめた表とグラフはこんな感じ。

 

4-lambda

 

「k=8 までの確率の累計」が0.978637という事は、「k=9 以上の確率」が約2.13%あるということを意味します。

 

反対に、「k=0 の確率」も約1.83%あります。

 

ここから分かることは、1時間だけコールセンターの担当をする場合、合計50回も担当すれば「9回以上電話がかかってきてしまう」ことも「1回も電話がかかってこない」こともそれぞれ1回くらいは経験するのが普通、ということです。

 

Tooda Yuuto
Tooda Yuuto
このように、「〇分で平均△回起きる現象が、◇分で☆回起きる確率」を求めたいときに便利な確率分布。それがポアソン分布です。

 

使い道の広さと弱点

ポアソン分布は「事故の発生回数」や「サーバーへのアクセス数」など、様々なものに活用することができますが、使う上で1つ注意すべきことがあります。

 

それは、ポアソン分布は「完全にランダムではない事象」に対しては正確な分析が出来ないという弱点を持っていること。

 

例えば先のコールセンターの例で言えば、「テレビで取り上げられた場合」には、たった1時間の間に普段では考えられないほど多くの問い合わせ電話がかかってくることが予想されますよね。

 

このように各事象の発生が完全にランダムというわけではなく、他の事象発生との間に強い相関関係があるようなケースでは、ポアソン分布は機能しにくくなってしまうんです。

 

 

ポアソン分布は「ランダムに出現する傾向」が強い事象であるほど、その有用性を発揮します。

 

そういう意味では、「馬に蹴られて兵士が死ぬ」というランダム性の高い事象がポアソン分布の初の実用例となったのは、当然のことなのかもしれません。