［脳に挑む人工知能19］ぶつからないクルマを高速に鍛えるには

日経コンピュータ

2016.02.18

　ラジコンカーほどの大きさのクルマが、互いにスルスルっと避けながら交差点を行き交う――トヨタ自動車は2016年1月、「ぶつからないクルマ」を実現する自動運転AIのデモを、米ラスベガスで開催された「CES 2016」で披露した。AI開発の国内スタートアップ企業、Preferred Networks（PFN）と共同開発し、NTTを含めた3社で展示したものである。

写真1●複数のクルマをぶつからないように学習させた自動運転AIのデモンストレーション（写真は2015年12月17日のトヨタ自動車・PFN共同会見で公開されたもの）

[画像のクリックで拡大表示]

　上部に設置したカメラから見下ろす形でクルマの位置を捕捉し、自動運転AIがそのデータに基づいて、クルマに加速・減速・曲がるなどの指示を出している。クルマの自動運転AIはそれぞれ独立して指示を出しているにもかかわらず、互いに避け合うかのような協調動作を見せていた。

写真2●PFN 取締役副社長の岡野原大輔氏

[画像のクリックで拡大表示]

　デモでは「学習したてのAI」と「学習済みのAI」を切り替えて、挙動の違いを見せていた。学習したてのAIでは、クルマは互いに大きくかわそうと無駄な動きをし、時にかわせず衝突してしまう。それが学習済みAIでは、互いにギリギリでかわせるようになる。「学習を通じ、同じAIを持つ他のクルマを信頼・協調する術を覚えている」と、開発に関わったPFN 取締役副社長の岡野原大輔氏は説明する。

　この自動運転AIは、前回に紹介した囲碁AI「AlphaGo」と同じ学習手法、つまり深層学習（Deep Learning）と強化学習（Reinforcement Learning）を組み合わせた「深層強化学習」で鍛えられたものである。いずれも、この世にはないデータをコンピュータが自ら生成し、学習に生かしたものだ。

　今回は、PFNによる「ぶつからないクルマ」の鍛え方を紹介しながら、前回から持ち越された問題「なぜ囲碁AIは、10年早くプロ棋士に勝てたのか」の答えを探ってみたい。

仮想空間でクルマのAIを鍛える

　PFNが「ぶつからないクルマ」のAIを徹底的に鍛えたのは、実空間ではなく、コンピュータが作り出した仮想空間の中だった。

　PFNは自動運転AIの開発に当たり、クルマの速度や向きの変化、クルマが備える各種センサーの出力データをコンピュータで再現できるシミュレーターを開発した。このシミュレーターが作り出す仮想空間の中でクルマを何度も走らせながら、ぶつかることをペナルティとした強化学習をニューラルネットに施した。「強化学習は、一種のブートストラップ。学習するほどAIが賢くなり、賢くなるから、もっと良い学習データが取れる、という好循環が働く」（岡野原氏）。

　自動運転AIを強化学習で鍛える上で、シミュレーターの活用は決定的に重要だという。多層ニューラルネットの学習には大量のデータが求められるが、シミュレーターを使えば同じ時間で、ケタ違いに多くの走行を試せるためだ。さらにPFNは、複数台分のニューラルネットを同時に学習させることで、1つのニューラルネットを高速に学習させている。「並列処理の活用と合わせ、シミュレーターによって実空間の100万倍は速く学習できている」（岡野原氏）という。

　シミュレーターの活用には、実際には滅多に起きないレアイベント（一部機器の故障など）も容易に再現し、学習できる利点もある。この仮想空間はAIにとって、短時間で自らを鍛え上げる「精神と時の部屋」^注1）のようなもの、といえるだろう。

注1）漫画「ドラゴンボール」において、登場人物が修行のために使う特殊な空間。外界での1日が、この空間の中では1年（365日）に相当するため、実空間の365倍の修行をこなせる。

大量のハードウエア資源がAI研究を加速

　岡野原氏は将来の計画として、クルマの直上からカメラで捉えた位置情報ではなく、車載カメラからの視覚情報をベースとした「ぶつからないクルマ」の学習にも挑戦するという。「かつては、クルマから見た視覚情報を再現するシミュレーターの実行速度は遅く、データの精度も悪かった。今は、実空間とほぼ同じ速度でシミュレートし、学習用のデータを取得できる」（岡野原氏）。