2012年 12月 07日
囚人のジレンマの新しい戦略 |
会議のためにアムステルダムに来ています。昨日は早朝に到着して、市内のホテルにチェックイン。昨晩から雪が降っていたようです。一息ついてからアムステルダム大学にセミナーに行きました。
機内では、忙しくて読む暇がなかった論文を読みました。私の専門分野の論文のほかに、ひとつ読んだのがフリーマン・ダイソンさんとウィリアム・プレスさんのかかれた「囚人のジレンマ」の新しい戦略です。⇒ 米国科学アカデミー紀要
ダイソンさんは、1940年代の終わりに、ファインマンが開発したくりこみの方法が朝永やシュビンガーの方法と同じであることを示したことで有名です。今年で89歳。プレスさんは、天体物理学者でしたが、最近は生物学の研究もなさってます。
囚人のジレンマはゲーム理論の典型的な模型で、協調したほうが全体に有利なのに、個人の利益を追求することで不利な状態が安定してしまうことを示す例になっています。
たとえば、何かの犯罪で捕まった2人が別々に尋問され、罪を認めるかどうかを聞かれたとします。双方が罪を認めると、懲役4年になります。しかし、双方とも黙秘すれば、軽い罪しか認められないので、懲役2年になります。
話を面白くするために、司法取引があるとして、どちらか一方だけが罪を認めて、もう一方が認めないとすると、認めたほうは無罪(懲役0年)。認めなかったほうは懲役5年になるとします。
この場合、二人とも黙秘すれば全体の懲役は2+2=4年なので、どちらか認めたとき5+0=5年や、両方認めたとき4+4=8年よりも全体で有利のはずです。
しかし、相手がどのような戦略をするかわからないので、罪を認めたほうがよいとして、双方が罪を認めようということなります。こうなるとどちらかが考えを変えて、黙秘をしようとしても、そうするともっと罪が重くなる(懲役が4年から5年になる)ので、考えを変えることができなくなります。つまり、両方とも罪を認めて4年の懲役を受けることになる。
これは、有名な「ナッシュ均衡」の例です。ナッシュは、映画「ビューティフル・マインド」に取りあげられたプリンストン大学の数学者ジョン・ナッシュです。
さて、これはこのゲームを1回だけ行った場合の話でしたが、同じゲームを何度も行って、前回の相手の戦略を見て自分の戦略を変えることができるとすると、話が変わってきます。これを「反復型の囚人のジレンマ」と呼びます。
この場合には、片方だけが一方的に得をする戦略はないと考えられてきました。
たとえば、よく知られた戦略は、相手の前回の戦略を次の回にまねをするという方法で、たとえば相手が罪を認めたら次回は自分が認める、相手が黙秘したら次回は自分も黙秘するというものです。これをくりかえすと、長期的には、相手の懲役年数と、自分の懲役年数が同じになります。
この考え方は、生物学に応用されて、なぜ進化の過程でグループ内の協調が促進されるのかを説明することにも使われています。
しかし、ダイソンとプレスは、自分の利益が、常に相手の利益の何倍かになるような戦略が存在することを示しました。彼らの論文は、簡単な線形代数で理解できるので、このようは戦略が見逃されていたのは驚きです。
機内では、忙しくて読む暇がなかった論文を読みました。私の専門分野の論文のほかに、ひとつ読んだのがフリーマン・ダイソンさんとウィリアム・プレスさんのかかれた「囚人のジレンマ」の新しい戦略です。⇒ 米国科学アカデミー紀要
ダイソンさんは、1940年代の終わりに、ファインマンが開発したくりこみの方法が朝永やシュビンガーの方法と同じであることを示したことで有名です。今年で89歳。プレスさんは、天体物理学者でしたが、最近は生物学の研究もなさってます。
囚人のジレンマはゲーム理論の典型的な模型で、協調したほうが全体に有利なのに、個人の利益を追求することで不利な状態が安定してしまうことを示す例になっています。
たとえば、何かの犯罪で捕まった2人が別々に尋問され、罪を認めるかどうかを聞かれたとします。双方が罪を認めると、懲役4年になります。しかし、双方とも黙秘すれば、軽い罪しか認められないので、懲役2年になります。
話を面白くするために、司法取引があるとして、どちらか一方だけが罪を認めて、もう一方が認めないとすると、認めたほうは無罪(懲役0年)。認めなかったほうは懲役5年になるとします。
この場合、二人とも黙秘すれば全体の懲役は2+2=4年なので、どちらか認めたとき5+0=5年や、両方認めたとき4+4=8年よりも全体で有利のはずです。
しかし、相手がどのような戦略をするかわからないので、罪を認めたほうがよいとして、双方が罪を認めようということなります。こうなるとどちらかが考えを変えて、黙秘をしようとしても、そうするともっと罪が重くなる(懲役が4年から5年になる)ので、考えを変えることができなくなります。つまり、両方とも罪を認めて4年の懲役を受けることになる。
これは、有名な「ナッシュ均衡」の例です。ナッシュは、映画「ビューティフル・マインド」に取りあげられたプリンストン大学の数学者ジョン・ナッシュです。
さて、これはこのゲームを1回だけ行った場合の話でしたが、同じゲームを何度も行って、前回の相手の戦略を見て自分の戦略を変えることができるとすると、話が変わってきます。これを「反復型の囚人のジレンマ」と呼びます。
この場合には、片方だけが一方的に得をする戦略はないと考えられてきました。
たとえば、よく知られた戦略は、相手の前回の戦略を次の回にまねをするという方法で、たとえば相手が罪を認めたら次回は自分が認める、相手が黙秘したら次回は自分も黙秘するというものです。これをくりかえすと、長期的には、相手の懲役年数と、自分の懲役年数が同じになります。
この考え方は、生物学に応用されて、なぜ進化の過程でグループ内の協調が促進されるのかを説明することにも使われています。
しかし、ダイソンとプレスは、自分の利益が、常に相手の利益の何倍かになるような戦略が存在することを示しました。彼らの論文は、簡単な線形代数で理解できるので、このようは戦略が見逃されていたのは驚きです。
by planckscale
| 2012-12-07 14:36