ポルノを自動識別するTwitterのAIができるまで

人工知能はいったい何の役に立つのだろう? その一例が、SNSのタイムラインにアップされる膨大な「閲覧注意」画像対策にある。Twitterが試みる、ポルノを学習するAIの実装までのストーリー。
ポルノを自動識別するTwitterのAIができるまで
warning xxx eps10 image from Shutterstock

クレメント・ファラベットは人工知能の専門家だ。ニューヨーク大学の研究員として、彼はヒトの脳と同じように機能する演算システムを構築し、写真や映像に写った物体の自動識別を可能にした。その後、スタートアップ企業を立ち上げてからも、彼がやっていることは変わらない。ファラベットと共同創設者が「Madbits」と名付けたそのスタートアップは、立ち上げから18カ月後、ツイッターに買収された。

Madbitsに顧客はいない。そして、両社の人間以外はだれも、わずか5人からなるスタートアップ企業とツイッターが一緒に何をする気なのかを知らない。

しかし、アレックス・ロッターは、知っている。ファラベットとMadbits社員たちが昨年夏にツイッターに加わったとき、ツイッターのエンジニアリング責任者であるロッターは、彼らに、広大なソーシャルネットワーク上からNSFW(Not Suitable/Safe For Work:職場閲覧注意)画像を自動識別するシステムをつくるよう依頼したのだ。

ロッターは言う。「企業買収をするときは、たとえ広範な分野を任せる予定であっても、具体的な特定業務を割り振るのが得策です。それによって、お互いのことをよく知ることができ、買収が効果的になります。そこでわたしたちは、NSFW問題を提示したのです」

1年後、人工知能(AI)が実装された。ファラベットによれば、このシステムでポルノおよび不適切画像の99パーセントが識別されるよう設定した場合(Twitterユーザーのタイムライン上に注意書きが表示される)、まったく問題ない画像に誤ってフラグが付いてしまう確率はわずか7パーセントだという。もちろん、この数値は完全に、ツイッターが何をNSFWと定義するか次第だ。しかし、額面どおりに受け取れば、これはTwitterやFacebookといったソーシャルネットワークにとっての大きな前進だ。

ツイッターやフェイスブックのような企業は、広大なソーシャルネットワーク上に溢れる絶え間ない奔流のごとき画像をチェックし、不適切(ポルノ、性的誘惑、人種差別、流血など)なものを特定する専門の人員を雇うのが普通だ。

ツイッターの場合、この業務には「CrowdFlower」などの人力サーヴィスが利用されていたと、ロッターは言う。ファラベットらエンジニアがつくりあげたAIシステムを利用することで、企業は目を皿のようにして男性器やディルドや斬首の画像を探す人員を削減できる。AIは迅速かつ安価だ。そのうえ、フィリピンなどで多大な精神的・情緒的負荷に耐えながら働く人々も少なくなる。

CrowdFlowerは、2009年のTechCrunch50でローンチしたクラウドソーシングサーヴィス。〈How it Works – CrowdFlower〉

しかし、この限定的なタスクは、ファラベットらのチームにとって始まりにすぎない。NSFW問題に取り組むなかで、Madbitsチームは依然ニューヨークを拠点としつつ、シヴァ・グルマーシーやウトカーシュ・スリヴァスタヴァといった、サンフランシスコのツイッター社内の機械学習専門家たちと合流した。いまではそこに、ツイッターが6月17日に買収したボストンのAIスタートアップ、「WhetLab」も加わった。その結果、中枢AI業務部門、その名も「Twitter Cortex」が誕生し、Twitter社全体の機械学習タスクを担うこととなった。

代表的なタスクは、フォローすべきアカウントの識別、スパムや攻撃的ツイートの抑制、ユーザーが気に入るツイートや広告、その他のコンテンツの表示といったものだ。これらは、ツイッターがすでに実施していることでもある。しかし、MadbitsとWhetLabが手がけたAIは、その性能を向上できる。それも、大幅に。

ロッターいわく、ツイッターはすでにCortexのテクノロジーを広告システムの向上に利用しており、いずれはツイートの全記録を分析することで、「ツイートをより適切に分類し、ユーザーの好みを発見できるようになる」という。

Twitter Cortexに似た取り組みはグーグルやフェイスブックなどの企業にもみられる。これらのインターネット巨大企業でも、「ディープ・ラーニング(ヒトの脳内を網の目のように結ぶニューロンを模倣した演算システムの総称)」の専門チームがつくられている。

フェイスブックは現在、こうした「ニューラルネットワーク」を利用して写真の人物認識をおこなっている。グーグルは、Android端末上の『Google Now』のパーソナルアシスタントに向かって発さられた言葉の認識に使っている。マイクロソフトはSkype上の会話の翻訳に利用している。「ディープ・ラーニング」のテクノロジーは、これまで人間にしかできなかったタスクを機械が(場合によっては、人間よりも上手に)おこなう近未来を示している。

困難な課題

ディープ・ラーニングのアルゴリズムは、大量のデータを分析することで特定のタスクを「学習」できる。例えば、古い映画の会話を分析することで、ある程度の会話ができるようになる。つまり、ポルノの識別を学習するために分析すべきは…まあ、言うまでもないだろう。

Madbitsの買収後、ツイッターはデータセンター内に、GPU(グラフィックス・プロセシング・ユニット)を搭載したマシンを用いたニューラルネットを構築した。nVIdiaなどの半導体メーカーは、ゲームなどのソフトウェア用に、大きな画像を高速処理するGPUを製造しているが、これがディープ・ラーニング・アルゴリズムの演算に最適であるのは実証済みだ。

ニューラルネットはこういった「寛大な反復」にとりわけ適している。

ロッターとファラベットはニューラルネットワークの規模を明かさなかったが、おそらくグーグルやフェイスブックが現在使用しているものよりは小さいだろう。しかし、Twitter上でNSFW画像をリアルタイムに識別するサーヴィスはすでに実装されており、その正確性はかなりのものだ。

同じような画像識別サーヴィスを他社に提供している、スタートアップ企業Dextroのデヴィッド・ルアンいわく、Twitter上で画像識別をおこなうのは特に困難だ。Twitterはコンテンツをほぼリアルタイムでネットワーク上に提供しなければならないためである。

注目すべきは、こういったアルゴリズムは完璧とはほど遠く、そのうえポルノのようなものを識別するのはとくに難しいということだ。

なにしろ、Twitterには半裸の赤ちゃんや授乳中の母親の画像もアップされる。それらは明らかにポルノではないが、コンピューターにその違いを学習させるには訓練が必要だ。「ヴァリエーションは膨大で、そのうえコンテンツの種類は1種だけではありません。ポルノ以外にも、暴力など、さまざまなジャンルがあるのです」と、ルアンは言う。

つい先日(7月1日)も、新しくリリースされたアプリ『Google Photo』で、Googleのニューラルネットワークが黒人をゴリラと識別するというとんでもない間違いが発覚した。これは、簡単に思えるディープ・ラーニングのタスクにも正すべき間違いが山ほどあるという証拠である。ルアンいわく、「機械学習は常に間違いを犯す」のだ。

機械学習のための機械学習

NSFW画像の識別作業に従事する10万人もの人々のことを考えれば、ツイッターはテクノロジーを適所に活用したといえる。フェイスブックなどの他の企業も、おそらく同様のシステムを開発しているのだろう(この記事の取材においては、フェイスブックの協力は得られなかった)。

ニューラルネットワークにNSFW画像の識別を学習させる過程では、まず人間が識別すべき画像をタグ付けしなくてはならない。しかし、時が経つにつれ、ニューラルネットワークが学習を積み重ねることで、必要なタグ付け作業は減少する。

「一般的に、データのタグ付けには人間が必要です。しかし、その先は、見たことのないものにもモデルが適用され、人間がやる作業の需要は劇的に減少します。それに、当然ながら反応速度も減少します。機械演算はリアルタイムにおこなわれますから」と、ロッターは言う。

ツイッターがWhetLabを買収したのは、モデルの性能向上を加速させるためだ。WhetLabは「ベイジアン最適化」とよばれるテクニックでニューラルネットを精緻化している。WhetLabの創設者ライアン・アダムズの説明によれば、同社は「機械学習を使って機械学習を向上させる」という。つまり、ニューラルネットの処理結果をニューラルネットが分析することで、ニューラルネットの性能が向上する、ということだ。

「これにより、とても興味深い増幅効果が生まれます」と、ハーヴァード大の元教授でコンピューター科学を専門とするアダムズは言う。「プロセスの大部分を自動化することで、限られた資源と能力で大量の事象を迅速に処理できるのです」

絵空事に聞こえるかもしれないが、コンピューター科学はこのように進むもので、しかもニューラルネットはこういった「寛大な反復」にとりわけ適している。

ニューラルネットの魅力は、時とともに向上することだ。要するに、それは脳のようにはたらくのだ。脳とまったく同じはたらきをするわけではないが、ポルノを(少なくとも、たいていの場合においては)正確に識別するのに十分な機能を、ニューラルネットは備えている。それだけでも大したものだ。

TEXT BY CADE METZ