ビッグデータ分析がビジネスの世界で広がる中、アカデミアの世界にも大きな影響を及ぼしている。このほど、最新のビッグデータ分析手法を開発し、中国政府の検閲の実態について分析した計量政治学者であるゲイリー・キング米ハーバード大学教授に、研究が実現した背景などについて聞いた。

(聞き手は広野 彩子)

最先端のデータ分析手法を使って、政治に関するデータを分析したそうですね。なぜ政治学で定量的な分析が急速に発展しているのでしょう。

キング:政治学の世界における最近の最も大きな変化は「政治的な現象に関する総合的なデータを集めて分析ができれば、政治についてさらにいろいろなことが明らかになる」とはっきり分かってきたことでしょう。そして近年、データをどう扱えばいいのかが分かってきた。膨大なデータから、いかに有意義な情報を引き出せるか、その分析ツールの開発が進んだのです。

膨大なデータ、ビッグデータですね。

データだけでは価値は生み出せない

ゲイリー・キング(Gary King)
米ハーバード大学教授。2009年、同大学で最も目覚ましい業績をあげた教授にのみ与えられるUniversity Professorの称号を与えられた。1980年米ニューヨーク州立大学卒業、84年、米ウィスコンシン-マジソン大学でPh.D.取得(政治学)、ニューヨーク大学政治学部助教授。87年、ハーバード大学政治学部准教授。1990年から同教授。社会科学研究の多くの分野に応用できる、実践的な統計的分析手法を開発している。(写真:陶山勉)

キング:ビッグデータと言う時は、データそのものだけを指すのではなく、その「分析」を指すのです。ビッグデータは確かにデータですが、データだけではイノベーションにならない。イノベーションの肝は、データがもたらす情報をどう扱うか、にあります。世界では、2日おきに10億件もの投稿がソーシャルメディアにアップされています。それを使ってどうすればいいでしょうか。

 全部読んだって役には立ちません。しかし伝統的なやり方は、投稿を読み込んで解釈し、文脈を読み取って、真意を理解しようとすることです。しかしそんなやり方はもう通用しません。情報が少なければそのやり方も有効ですが、相手は2日に何十億件という膨大な投稿です。

 現在、そうした情報をダウンロードして保存・目録化した上で調べることが可能になりました。一番重要なのは「関連事項を抽出できる」ということです。人々の思考を追って、さらに違ったテーマについての発言をたどることができる。個人だけではなく集団にでもです。データ自体は価値を生まない。しかし分析するとものすごい量の気づきが得られる。

ビッグデータ分析で最もびっくりした発見は何でしたか。

キング:1月に東京で開いた会議で、私は中国の検閲について調べた論文を発表しました。これまでも多くの研究者が少しずつ中国政府の検閲について研究していました。たとえば、1つの投稿を見て、それが取り下げ、あるいは抹消されるかどうか調べる、といった感じです。細かいニュアンスを探るのは大変困難でした。しかしこれを「鳥の目」で眺めると、つまり何百万もの投稿を同時に見たら、実際に何が起こっているのかがかなりつかめたのです。

中国語の投稿ですか?

キング:そうです。何百万ものソーシャルメディアにおける中国語の投稿をダウンロードして、中国政府が読んで検閲する前に入手してしまうのです。

本当ですか。どうやってやるのですか。

キング:コンピュータで超高速でダウンロードするのです。

 検閲をビッグデータで調べたケースは初めてです。私も最初は全然そんなことをする気はなかったんです。もともとは、文章から情報を抜き出す分析手法の開発に力を注いでいました。

中国政府より早く投稿内容を入手

 そのうち我々の考え出した技術を商業化した「クリムゾン・ヘキサゴン」という会社ができた。それで同社に「我々が開発した分析手法を試したいので、私に中国語による投稿のデータを送ってほしい」と依頼したんです。いわゆるストレステストです。

 分析手法は英語で開発したので、もし使い物になるのなら、英語とまるで違う言語でも使えるはずだと思ったのです。そして我々はクリムゾン・ヘキサゴンからソーシャルメディアの投稿やURLを含む中国語の投稿のデータを入手しました。それを分析し、試行錯誤してみたところ、大変うまくいきました。

 そして大学院の学生たちにこう指示しました。「この投稿が載っていたウェブサイトを見に行って確認してくれ」。私に中国語は分かりませんが、彼らは分かります。分析したテキストに広告が含まれていないことや、そして特定の投稿だけを抜き出していないかどうかなどを確認しました。

 院生が確認して、最初はクリムゾン・ヘキサゴンのデータに何やら不具合があったのだろうかと思いました。というのも、投稿が見つかっても、投稿に書いてあったURLをクリックしてもどこにも飛ばないというケースが多々あったからです。そこで、その投稿を中国政府が検閲したのだと気づいた。

 ということはクリムゾン・ヘキサゴンは最初に、検閲前の生情報を手にできたのです。急きょ、研究テーマを検閲の分析に変えました。

人海戦術で検閲している中国政府

 中国政府は人の手で検閲しています。恐らく、20万人ぐらいの担当者がいて、一つひとつ投稿を読んで取り下げるかどうか決めていると思います。大人数とはいえ人手ですから、しばらく時間がかかる。そこで我々は彼らの目に触れる前に自動ダウンロードしてしまう。

 分かったことは、中国政府が監視しているのは、とにかく「団体行動」であるということです。人を扇動したり、抗議行動に駆り立てたり、政府以外の人間が他人をコントロールしようとする発言は即刻検閲されます。「うちの市長はカネに汚いし、たくさん愛人を囲っている。最低だ」と批判を書き込んだところで、全く問題ありません。しかし、そのあとで「ひどすぎる。抗議に行こう」と発言したら、検閲される。

興味深いですね。

キング:もっと言うと、例えば、「うちの町のトップはすばらしい。コミュニティを活性化しているし、我々の市民生活に貢献してくれている。感謝の気持ちを込めてみんなでパーティーを開こう」と発言しても、やはり検閲されます。政府は、自分以外の何ものかが人を動員するのが許せないわけです。それが、今回の研究で分かったことです。

たとえ政府に感謝したい会合でも、チェックされてしまうんですか。しかし、教授は中国政府から何もされませんでしたか。中国政府からコンタクトなどありましたか。

この記事は会員登録(無料)で続きをご覧いただけます
残り1911文字 / 全文文字

【お申し込み初月無料】有料会員なら…

  • 専門記者によるオリジナルコンテンツが読み放題
  • 著名経営者や有識者による動画、ウェビナーが見放題
  • 日経ビジネス最新号13年分のバックナンバーが読み放題