LLMがなぜ完全自動運転に必要なのか
生成AIやLLMの本質は世界を理解していること
生成AIやChat GPTに代表されるLLM(Large Language Model, 大規模言語モデル)は表面的にはお絵描きやチャットボットという印象を持つかもしれません。しかしこれらのAIの本質は世界を認知・理解している点です。だからこそ、これらのAIは素晴らしいアウトプットを出せるのです。Chat GPTとの対話は時に大きな示唆を提供してくれます。また、画像生成AI「Stable Diffusion」はTuringのコンセプトカー創出に大きく貢献してくれました。
LLMから考える自動運転
Turingの自動運転へのアプローチ
自動運転には下記のように大きく2つの方式があるとわれわれは考えています。われわれの自動運転へのアプローチはカメラ方式です。(断っておきますが、Lidar方式を否定しているわけではありません。限られた資金・人のリソースの中でわれわれにとって最適な判断をしました。)
運転というタスクを紐解いた時に、人間は目がいいから運転ができるのではありません。目の前の世界のことを理解しており、どんなことが起きうるかを予測し判断できるから運転ができているとわれわれは考えています。
そのため、Turingでは自動運転実現において、カメラから得た映像をどう判断するかという判断機構、人間で言うところの脳みそを鍛えるアプローチをしています。
人間はどんなアプローチで運転を体得しているか
人間は教習所で運転を習い、運転を体得していきます。これは機械学習で言うところの「Few-shot learning」に近しい考えだと思っています。
人間は運転について学ぶ前にこの世界に対して理解した情報に、教習所で得た情報を「Few-shot learning」することで、短期間で効果的な学習を実現していると言えます。
LLMのアプローチは大量のテキストデータを深層ニューラルネットワークを用いて自己教師あり学習することで、言語理解のタスクを高い精度で実行するというものです。特定のタスクに対しては、ファインチューニングを用いて、事前に学習されたLLMを特定のタスクに適した形に調整しています。
つまり、人間が運転を体得するアプローチをLLM風になぞらえると、
この世界について学習する
教習所で、運転という特定のタスクに対してFew-shot learningを用いて調整し、運転を体得する
実際の運転を強化学習することで、より安全な運転を体得していく
ものだとも言えます。これと同じようなアプローチができれば、完全自動運転により早く、適切な進め方で手が届く気がしますね。
私は上記の思想に近しいものとして、Googleが2022年に発表したPaLM-SayCanを挙げます。
Google “PaLM-SayCan”の衝撃
PaLM-SayCanとは、Googleが誇る5400億ものパラメータを持つAI自然言語処理(NLP)モデル“PaLM(Pathways Language Model)”と“SayCan”と呼ばれる現実世界で基礎訓練を受けた言語モデルを統合したものです。
“PaLM-SayCan”を搭載したロボットは、人間が何を言いたいのか、どう返答すべきなのかをAIが判断し、より人間らしい自然なやり取りができます。
ロボットの行動を生成する「行動生成AI」とも言えるものが生まれており、今後も継続的な性能向上が見込まれている点が特徴です。今まで大規模な基盤モデルが適用されてこなかったロボット分野で、イノベーションが起きる日は近いでしょう。
完全自動運転実現に必要なもの
今までのディープラーニング技術は、音声、画像、自然言語処理といった領域で活躍してきました。膨大なパラメータの巨大な基盤モデルが出現し、Stable DiffusionやChat GPTといった実社会に大きな影響を及ぼすものが生まれたのです。
私は、完全自動運転の実現に必要なのは大規模な基盤モデルだと思っています。人間と同じようなレベルでこの世界を理解し、人間と同じように車を制御する。そんな基盤モデルができた時、レベル5が実装され人類は新しい景色を見るのでしょう。
最後に
LLMと自動運転について書いてみましたが、弊社ではAIだけでなく、HMIや車載システム、車体そのものも開発しています。そのため、さまざまなエンジニアが必要です。少しでも興味をお持ちいただいた方はぜひホームページを覗いてみてください。一緒にこの世界を変えていきましょう。