ことばと世界──コンピューターはいかにそれを理解するのか

コンピューターが世界を説明する方法は、人間のそれとはまったく異なっている。翻訳サーヴィスや科学証明といったあらゆる分野に浸透し始めている「コンピューターの説明」に、ぼくらはいかに向き合っていけばいいのか。
ことばと世界──コンピューターはいかにそれを理解するのか
ILLUSTRATIONS BY by NATSUJIKEI MIYAZAKI

1950年代、あなたが、世界初のコンピューターの責任者だったとする。ある会社が問い合わせてきて、こう尋ねる。

「英語に翻訳したいと思っている1,000万語のフランス語のテキストがありまして。翻訳家にお願いすることもできなくはないのですが、コンピューターを使ってこの文章を自動的に翻訳する方法なぞありませんか?」

コンピューターはまだ目新しい存在で、誰も自動翻訳なんていうものをやったことがない。あなたはやってみようと決心する。センテンスのひとつひとつを分析するためのプログラムを書いて、文法の構造を理解しようと試みる。プログラムは、動詞を探し出し、その動詞に対応する名詞、そして名詞を修飾する形容詞、と順に探し出していく。あなたの考案したプログラムは、フランス語の文法構造を英語のそれに変換し、仏英辞書を使って単語を1つずつ置き換えていく。

コンピューターはことばについては何ひとつ知らない。けれども、コンピューターは、ボンジュールとハローの間の対応関係を的確に見つけ出すことができたのだ。

数十年の間、コンピューター翻訳システムのほとんどがこれと似たアイデアのもとつくられてきた。文法を説明するためのルールを延々と書き連ねていくのだ。しかし1980年代後半に、アメリカ・ニューヨーク州ヨークタウン・ハイツにあるIBMの研究本部、トーマス・J・ワトソン研究所のチームが、これとは決定的に異なる方法を試みた。彼らは、これまで人間が言語について知りえた知識、動詞の時制や名詞の正しい位置といったことのすべてを放りだした。代わりに彼らは、統計モデルをつくり上げた。

そのやり方は、実に賢いものだった。同チームは「ハンサード」の名で知られるカナダ議会の議事録のコピーを使った。カナダの法は、このハンサードをフランス語と英語の両方で出版することを義務づけている。彼らはコンピューターを使ってフランス語と英語の対応関係を調べ上げた。

例えば、フランス語の「bonjour:ボンジュール」という単語を含む文の場合、同じ英文の同じような場所に「hello:ハロー」という単語が含まれることに、コンピューターは気づいていく。コンピューターはことばについては何ひとつ知らない。文法規則の羅列や辞書はここでは用いられてはいない。むしろコンピューターにそれは不要だった。けれども、コンピューターは、ボンジュールとハローの間の対応関係を的確に見つけ出すことができたのだ。

プログラムはこのような比較を行うことで、フランス語と英語がいかに対応しあっているかの統計モデルをつくり上げた。このモデルはフランス語と英語の単語やフレーズを照合した。より正確に言えば、コンピューターはハンサードを使って、あるフランス語の単語やフレーズが存在する場合に、対応する文章内に英語の特定の単語やフレーズが存在する確率を推定していくのだ。また、ハンサードを使って翻訳文章内で単語やフレーズの位置が変わりうる確率も推定した。

この統計モデルを利用して、コンピューターは、初見のフランス語の文章を取り込み、対応する可能性が最も高い英語の文章を導き出す。それがこのプログラムが導き出した「翻訳文」ということになる。

Facebook、45言語の自動翻訳に対応(と、その先に描かれている世界)

フェイスブックが、投稿を45言語へ自動翻訳できる機能「多言語コンポーザー」の一般ユーザー向けのテストを開始した。世界中のユーザーに翻訳をしてもらうことで、彼らが目指すこととは?

チョムスキーの異論

初めてこの手法を耳にしたとき、ずいぶんとバカげたアイデアのように思えたものだ。この統計モデルは言語をめぐるあらゆる知見を無視している。主語、述語、目的語など、言語の構造としてわたしたちが学んできたものはどこにもない。加えてこの統計モデルは、文章の意味については、それがどんな内容であろうと、何ひとつ理解しようとしない。

にもかかわらず、IBMのチームは、高度な言語学的知見をベースにしたシステムよりも、この手法のほうがはるかに精度が高いことを発見した。実際、このシステムは大きな成功を収めた。Google翻訳などの最先端の言語翻訳システムはこれと似たアイデアを基にしている。

統計モデルが役立つのは単にコンピューター翻訳に対してだけではない。言語学的なアプローチを基にしたモデルよりも、こうした統計モデルの方がよりよく機能する領域は数多く存在する。例えば、最先端のコンピューター音声認識システムは、こうした統計モデルに基づいているし、オンライン検索エンジンは、統計モデルを使って検索クエリを理解し、最適な結果を見つけ出している。

伝統的な言語学者の多くは、こうした統計モデルについて懐疑的な目を向けている。偉大な言語学者ノーム・チョムスキーのコメントを見てみよう。

高度な統計分析をしようと試みる数多くの研究がある。…それらは言語の構造を一切考慮せずに、わたしに言わせれば、奇妙としかいいようのないやり方で成果をもたらす。… そこでは、未分析のデータの近似値を求めることが成果と解釈される。…これは、かつてない新しいかたちの「成果」の概念であり、科学の歴史において、このようなものをわたしは知らない。

チョムスキーは、この手法を昆虫行動の統計モデルと比較する。例えば、ハチの群れのヴィデオ映像が十分にあれば、研究者はハチが次に行うかもしれない行動を予測できる統計モデルをつくり出せるかもしれない。しかし、チョムスキーに言わせれば、その統計モデルでは、ハチがなぜそのようなダンスをするのか、その真の理由を説明したことにはならない。

似たような話は、言語学だけでなく、科学のさまざまな分野でも展開されている。例えば、数学では、コンピューターで処理された証明によって難題が解決されることがますます一般的になっている。

初期の例で言えば、1976年にケネス・アッペルとヴォルフガング・ハーケンによる四色定理の証明が挙げられる。四色問題とは、いかなる地図も隣接領域が同じ色とならないように色分けするには4色あれば十分、とするものだ。彼らがコンピューター処理を用いてこの定理を証明した際、大論争が巻き起こった。その証明は、人間がチェックできないほどの長文で、詳細を理解することはなおさら困難だった。一部の数学者は、人間が理解できない証明は、真の証明とみなすことはできない、と異議を唱えた。

現在、多くの重要な定理の証明は、人間が理解できるようなものではなくなっている。コンピューターが単純な計算をひたすら繰り返した証明も少なくないが、時が経つにつれ、コンピューターはより概念的な証明においても大きな貢献を果たすようになっている。ニュージャージー州ラトガース大学の著名な数学者ドロン・ザイルバーガーは、彼のコンピューター(Shalosh B. Ekhadと名づけられている)を論文の共同執筆者に含めてさえいる。

もちろん、いい顔をしない数学者もいる。チョムスキーの疑念と呼応するかのように、フィールズ賞受賞数学者のピエール・ドリーニュはこう語る。「コンピューターによる証明をわたしは信じません。わたしはとても自己中心主義なのです。わたしが理解できて、明らかだと思えれば、その証明を信じます」

VOL.19「ことばの未来」

本記事を掲載した本誌VOL.19は「ことば」特集。絶滅する言語から4人の作家に訊いた「文学のイノヴェイション」、自然言語の最先端まで。いま、新たなテクノロジーが変えつつある「ことば」の未来を考えることで、ぼくらはどんな未来を得ることができるのだろう?

コンピューターは何を“説明”するのか?

統計による翻訳とコンピューターを使った証明は、表面上は異なるもののように思えるかもしれない。けれども、この2つには重要な共通点がある。コンピューターによる証明は、ある結果を単に説明しているだけでなく、同時に、結果が真である理由を説明してもいるのだ。

コンピューターを使った証明は、ある意味、ある定理をコンピューターなりに説明したものだと言うことができる。同じように、コンピューター翻訳における統計モデルは、翻訳の状況説明をつくり出す。前述の単純な事例では、ボンジュールはハローと訳されるべきだと統計モデルはわたしたちに伝える。なぜなら、ほぼ常に、ヒトは、ボンジュールをハローと翻訳してきたからだ。

わたしたちはこう問うべきなのだ。「コンピューターによる説明に欠けていて、伝統的な説明がそこに寄与できるのは何なのか? コンピューターによる説明をよりよくするためにはどうすればいいのか?」

したがって、統計による翻訳や、コンピューターを使った証明は、より一般的な現象として、「コンピューターによる説明」の台頭とみなすことができる。そして、このような「コンピューターによる説明」は、言語学や数学だけでなく、ほぼすべての人間の知識分野において重要性を増している。

チョムスキーやドリーニュ(やその他の分野の批評家)などの優れた懐疑論者たちが指摘しているように、この種の説明には、納得がいかないところもある。コンピューターは従来の伝統的手法がもたらしてきたような洞察をもたらさないと彼らは言う。つまり、それは本当の意味で何かを説明したことにはならない、と。

伝統を重んじる科学者はチョムスキーやドリーニュに従って、これまでの言語モデルや証明の方法に回帰するかもしれない。一方で、新分野の開拓に野心をもつ現実的な若い科学者たちは、「なんでもいいから、有効なやり方でやろうぜ」と、コンピューターを使った研究に邁進するだろう。

そのどちらかの道を選ぶよりも賢明なのは、伝統からの異議とコンピューターの説明の両方に、真剣に耳を傾けることだ。わたしたちはこう問うべきなのだ。「コンピューターによる説明に欠けていて、伝統的な説明がそこに寄与できるのは何なのか? コンピューターによる説明をよりよくするためにはどうすればいいのか?」

言語の統計モデルに、動詞や名詞といったものの存在を演繹的に説明させることはできないのだろうか? こうした問いによって、もしかしたら、統計モデルのなかから、動詞というものをまったく新しいやり方でとらえることができるようになるかもしれない。結果、既存の言語学による分類に、新しい知見をもたらすことができるかもしれない。未知の言語ユニットが発見されるかもしれないし、新しい文法規則が発見され、概念レヴェルで言語学の知識が拡大されるかもしれない。

わたしが知る限り、言語学分野ではこの動きはまだ起きていない。しかし、他分野では類似の発見が出現している。例えば、生物学者はゲノムモデルやコンピューターを使って生物学における新事実を次々に探りあてている。コンピューターを使った複数のクロコダイルのゲノムの比較から、これまで単一種と考えられてきたクロコダイル属のナイルワニが実際は2種類の種であることを研究者たちは知った。2010年には、指の骨のかけらのゲノムを分析することでヒトの新種、デニソワ人が発見された。

また、別の興味深い手法がコロンビア大学のホッド・リプソン教授によって探求されている。リプソンは共同研究者らと協力して、あるアルゴリズムを開発した。それは、ある機械のメカニカルな仕組みを観察した生のデータセットを解析し、その背後に働いている「自然の法則」を推論するというアルゴリズムだ。このアルゴリズムでは、システム内部で働いている力の法則や保存量(エネルギーや運動量)を知ることができる。

このプロセスは、わたしたちに高度な概念的知見を与えてくれる。リプソンがこれまで分析したのは単純な仕組みにすぎない(けれども、そこから取り出された生のデータは複雑なものだ)。しかし、これは、複雑な状況からスタートしてコンピューターを使って説明を単純化し、そこからさらに高レヴェルの理解に達することが可能であることを示す前途有望な事例と言える。

ここで挙げた例はほんの一部のものにすぎないし、コンピューターを使った証明やモデルから、重要な知見を取り出し、概念的な問いに答えを出していく有力なやり方はまだほとんど存在していない。それでもコンピューターによる説明が消えてなくなることはありそうもない。こうした手法の開発は、今後数十年間の科学研究でますます重要なものとなっていくはずだ。

本記事(原文へのリンク)は、Simons Foundationが発行するサイエンス雑誌『Quanta Magazine』の許諾のもと翻訳転載した。Simons Foundationは数学や物理学、生命科学分野の研究開発や動向を取り上げ、科学の大衆理解を拡大することを目的とする財団。
www.simonsfoundation.org

ILLUSTRATIONS BY by NATSUJIKEI MIYAZAKI

TEXT BY by MICHAEL NIELSEN

TRANSLATION BY by KEI WAKABAYASHI