前編に続き、ニューヨーク大学の教授でMetaのチーフサイエンティストでもあるYann LeCun氏とのインタビューをお届けする。
——ここでも同様に、今後の5〜10年で具体的なマイルストーン、あるいは目標の達成を見込んでいるのでしょうか?
私の予想ではこの原理、私がJoint Embedding Predictive Architecture(JEPA:結合埋め込み型予測アーキテクチャー)と呼んでいるものが使用できると考えており、これに関するブログ投稿もあります。また、より詳しい論文も用意しているところです。私は今や、この世界を予測するモデルを学習するためのツールを手に入れていると理解しています。つまり特定のタスクに向けてシステムを訓練せずとも、自己教師あり学習によって知覚表現を学習するためのツールです。そして、このシステムはXとY双方の抽象的表現を学ぶことになるため、それらを積み重ねていけるようになります。このため、短期的な予測を可能にしてくれるような、われわれを取り巻く世界の抽象的表現をいったん学んだのであれば、さらなる階層を積み重ねることで、より抽象的な表現を学習できるようになり、より長期間の予測が可能になるわけです。
「それではマシンにどのように計画を立てさせるのでしょうか?世界の予測モデルがあれば、(中略)そのシステムは自らの行動の手順を想像でき、その結果を想像できるのです」(LeCun氏)
これが、この世界の仕組みを観察で、つまり動画の視聴でシステムを学習させていくための不可欠な方法となるでしょう。要するに、赤ちゃんは基本的にこの世界の状態を観察して学習するとともに、直感的に物理や、われわれが知っているこの世界に関するあらゆる物事を学習します。動物も同じです。これを機械にやらせたいのです。今のところは成功していません。私の今の考えでは、これを実現する道は結合埋め込みアーキテクチャーの道であり、それらを階層的なかたちで吟味していくことなのです。
もう1つの力になりそうなのは、推論能力を有したDLマシンです。これは議論を呼ぶ話題ですが、現時点でDLが得意とすることは、いうなれば知覚なのです。つまり、ここに入力があり、またここに出力があるというものです。では、基本的に推論、すなわち計画のためのシステムが必要な場合はどうでしょうか?より複雑なモデルでそういったことが多少は実行されていますが、実質的にはそう多くありません。
それではマシンにどのように計画を立てさせるのでしょうか?世界の予測モデルがあれば、すなわちシステムが何らかの行動の結果として起こることを予測できるのであれば、そのシステムは自らの行動の手順を想像でき、その結果を想像し、それを自家関数に与える、つまりそのタスクが達成できたかどうかという状況を判断できるのです。その後は最適化、おそらくは勾配降下法などを用いて、目標達成に向けて最短距離となる一連の行動を見つけ出すのです。これは学習についての話ではなく、推論と計画についての話になります。実際のところ、私がここで述べているのはモデル予測制御における計画と最善の制御に関する古典的な手法の話なのです。
最善の制御との違いは、あらかじめ石に刻まれたモデルを使うのではなく、学習した世界のモデルを用いるというところにあります。そして、そのモデルはこの世界の不確かさを取り扱うであろうすべての変数を含んでいます。これは、未来を想像し、一連の行動を計画できる自律的な知能システムの基本となるはずです。