ビッグデータは時代を変えるのか?

 今回のエントリーでは、ぼくが寄稿した雑誌『現代思想2014年6月号』青土社の紹介をしようと思う。この号の特集は「ポスト・ビッグデータと統計学の時代」だ。

現代思想 2014年6月号 特集=ポスト・ビッグデータと統計学の時代

現代思想 2014年6月号 特集=ポスト・ビッグデータと統計学の時代

ビッグデータというのは、主にインターネットやSNSに集積される巨大なデータセットのことで、これを解析することで、これまでとは異なる統計的な推測が可能になる、と謳われている。例えば、グーグルで「発熱」や「解熱剤」などの検索が顕著に行われている地域を時系列で追うことでインフルエンザの流行とパンデミック経路を特定した事例や、アップルのCEOであった故スティーブ・ジョブズが、自分の癌の治療方針を決めるために、自分のゲノムの全解読をした事例などが有名である。これまでの統計的推論は、「部分から全体を推測」という方法論だったが、ビッグデータの出現で「N=全部での推測」が可能になり、それが統計学の利用を抜本的に変えつつある、というわけなのだ。
 本特集は、このような「ビッグデータ賛」に対して、批判的な検討を加えるものとなっている。ぼくは、「統計学・確率論の有効性とその限界」という論考を寄稿した。
 この号に参加して感慨深かったのは、2人の統計学者と稿を並べたことだった。一人は竹内啓先生。竹内先生は「ビッグデータと統計学」という論考を寄稿しておられる。もう一人は、竹村彰通先生。竹村先生は、「統計学にとって情報とは何か」という論考を寄稿された。どちらもすばらしい論文である。
 竹内啓先生には、ぼくがまだ経済学者になってない頃、『現代思想』の統計学の特集に掲載するインタビューを収録するためにお話を伺いに行ったことがあった。1時間ほどお話していただいただけだったが、それだけでも、先生がとんでもなく頭の良いかたであることがひしひしと伝わった。他方、竹村彰通先生は、ぼくが社会人のまま東大経済学部の大学院に在籍したときに、統計学の講義を担当しておられた先生だった。塾で働いていたため、先生の講義にはときどき出席できただけだが、確かレーマーの有名な統計学の教科書を講義されていたように記憶している。大学院のコースワークの統計学の講義は、久保川達也先生が担当されたが、そのときに教科書として指定されたのが竹村彰通『現代数理統計学』創文社であった。久保川先生の講義があまりに名人芸だったことも大きいが、この本はとてもすばらしい教科書で、今でもぼくにとっての統計学のバイブルとなっている。実際、寄稿した論考を執筆する上で、この本を久しぶりに再読し、そのみごとさを実感し直すこととなった。
現代数理統計学 (創文社現代経済学選書)

現代数理統計学 (創文社現代経済学選書)

このお二人の先生と名前が並んで掲載されたことは、奇遇であるとともに、とても感慨深く光栄なことだ。
 この特集「ポスト・ビッグデータと統計学の時代」では、おおよそだいたいの論者(ぼく自身も含む)がビッグデータへの讃辞には疑問符を投げかけている。それは同時に、「統計学とは何者であるか」ということに答える営為でもある。ここでは、竹内先生の論考の一部を紹介しよう。
 竹内先生はまず、次のように述べている。

[標本から母集団の特性値について判断を下すこと]には、二つの仮定がふくまれる。それは現実の観測値の背後に、安定的な「無限母集団」の存在を想定できること、そうして観測値がそこからランダムに選ばれるものと見なし得ることである。(中略)。フィッシャー・ネイマンの統計的推測理論は、二〇世紀の大量生産、大量消費、大衆社会のMASS論理の支配する時代によく適合したものだったのである。
 しかし、二〇世紀の最終四半期になって、IT技術が発展し普及すると、規格化された大量消費の時代から、個性的な多種少量生産の時代となり、不良率を抑えることではなく、不良品を出さないことが目的とされるようになった。それとともに古典的な統計的推測の方法が必要とされる分野は少なくなった。

このように、竹内先生は、古典的な統計学の立ち位置を評価した上で、次のようにビッグデータ讃辞に警鐘を鳴らす。

ところが最近になって、ビッグデータが重視されるようになって、統計学がまたもてはやされるようになった。長年統計学の研究に関わってきた者としては喜ぶべきことかもしれないが、統計学をビッグデータを扱うための「道具箱」として、使い易い道具を適当に使えばよいと考えられるのはよくないと思う。

この理由として、竹内先生は、次の四つの注目ポイントを挙げている。

 ビッグデータに統計的方法を適用する当たっては、四つの段階を経なければならない。
1.データの吟味、2.モデルの選択、3.手法の選択と適用、4.結果の解釈と判断、
である。

これら4つの注目ポイントについて、竹内先生は、一つずつ詳しく検討をされているが、要約すれば次のようだ。すなわち、ビッグデータは量が多いと言っても、分析の目的に合う良質な情報が含まれるとは限らない。また、データに含まれるノイズを取り去るために、モデルを構築する必要があるが、モデルはシンプルであるほうが好ましい。大量のデータを複雑なモデルを想定して高度な解析を行うのは、解析手続きがブラックボックス化されてしまう、という意味で危険である。さらには、モデルの設定に即して適切な手法を選ばなければならないが、ビッグデータの場合、それが難しいことが想定される。例えば、仮説検定の方式は、帰無仮説の条件が科学的に明確な意味を持つ必要があるから、ビッグデータにはむかない、などなどである。
 以上の竹内先生のビッグデータ論の再検討は、非常に示唆に富んでいる上、「統計学とは何者か」という、統計学の教科書にはほとんど書かれることにない根本的な問いへの答えを理解できるのでまさに一石二鳥である。是非、読んでいただければ、と思う。
 ぼく自身が、何を寄稿したのか、というと、それは「統計学それ本体への疑義」と言っていい論考である。もう少し詳しく言うと、論点は2つ。第一は、「確率論は(大数の法則に絡んで)実は循環論に陥っており、もちろん、その循環論に統計学も巻き込まれている」というもので、第二は、「統計学の根本を支えるのは、最尤原理(最も起きやすいことが起きてると考える原理)であるが、最尤原理を認めるには、物理学におけるような何らかの実証性が必要だ」ということ。長くなったので、これらの点については、次回以降にエントリーしたいと思う。
 ぼくが、この号の執筆者として呼ばれたのは、拙著『完全独習 統計学入門』ダイヤモンド社の評判があるのではないか、と推測している。実際、西内啓『統計学が最強の学問である』ダイヤモンド社がベストセラーになっている昨今、ぼくのこの教科書もつられて売上げを伸ばしている。ありがたいことである。でも、売れてお金が入るということ以上に嬉しいのは、ぼくがこの本に込めた「統計学の思想的な深遠さと面白さ」を一般の読者に普及させることができることだ。普通の統計学の入門書は、ハウツー本に留まっていて、こういうことを伝えていないのを残念に思うから。

完全独習 統計学入門

完全独習 統計学入門

これで終わるのも寂しいので、最後にちょっとだけ最近はまっているバンドのことを書いておこう。それは、Four Get Me A Notという変な名前のバンド(一説には、Forget-me-not(忘れな草)のもじりらしい)。このバンド(http://www.fourgetmeanots.net/biography/index.html)は、下北沢でトリコ(Tricot)を観てきた。 - hiroyukikojimaの日記で紹介したコンピアルバム、And your birds can singに1曲入っていて、それがなんか気になったのでアルバムを買ってみて好きになった。スリーピース、スリーボーカルのバンドなんだけど、とにかく、ギターの高橋智恵さんのギタープレーとボーカルがめちゃめちゃいい。ギターは決して「すごく巧い」というわけじゃないんだけど(すごく巧い、というのは例えば、スティーブ・ヴァイとかジョー・サトリアーニとかのこと)、「すごくかっこいい」のである。ウソだと思ったら、Pike your shield のPVを観てみればいい(https://www.youtube.com/watch?v=MeJzE0xIJTI)。ギターもいいんだけど、ぼくが気に入ってるのは彼女のボーカル。声がすごくかわいい。デビュー盤ではボーカルをとってなかったとこをみると、彼女自身は、自分をギタリストとしているのかもしれない。でも、声質というのは天性のものだから、ボーカリストとしても活躍してほしい。彼女のボーカル曲では、前掲のコンピに入っている曲、Marigoldがすばらしい。これを聴いてどうしても気になって仕方なくなったのだ(https://www.youtube.com/watch?v=Y70UF9Qd-sY)。さびに入るところで、ボーカルとギターが2音、ユニゾンするとこがぞくぞくする。あとは、初期の曲でCrescent moonがぐっと来る(https://www.youtube.com/watch?v=KLLqPqxiItg)。こういう曲が書ければ、しばらくはミュージシャンとして安泰でやっていけると思う。
AUTHENTIC(初回限定盤)(DVD付)

AUTHENTIC(初回限定盤)(DVD付)