SZ MEMBERSHIP

AIにロボットの身体を与える──グーグルが7年の歳月を費やしたミッションの内幕

グーグルの親会社アルファベットでAIロボットを開発するムーンショットの責任者を務めたことで、わかったことはたくさんある。ひとつは、ロボットをすぐに完成させるのは不可能なこと。もうひとつは、ロボットは人間と同じ姿をしていなくてもいいということだ。
Image may contain Clothing Footwear Shoe Child Person City and Robot
Photograph: Hans Peter Brondmo

2016年1月初旬に、わたしはアルファベット傘下の秘密のイノベーションラボ、「Google X」に加わった。与えられた任務は、グーグルが買収したロボット企業9社の社員とテクノロジーをどう活用すべきかを考えることだった。その頃、社員は困惑していた。ロボット部門を率いていた「アンドロイドの父」、アンディ・ルービンが突然グーグルを去り、ラリー・ペイジとセルゲイ・ブリンは「仕事の合間」に時折顔を出し、指示やアドバイスをするよう心がけていた。その数カ月前、トップのアストロ・テラーはロボット開発分野の人材全員を、愛情を込めて「ムーンショット・ファクトリー」の名で呼ばれるGoogle Xで引き受けることに同意していた。

入社を決めたのは、Google X──その後「X」に改称──は他の企業イノベーションラボとはまったく異なるものになるというアストロの言葉を信じたからだ。その設立に関わった人たちはとてつもなく大きな野望を抱き、それを実現させるためのいわゆる「ペイシェントキャピタル(忍耐強い資本)」[編註:長期的視点に立って行なわれる投資]をもっていた。テクノロジー企業数社を起業・売却した経験から、わたしは彼の話に合点がいった。Xの立ち上げはグーグルの使命のように思えたのだ。スティーブ・ジョブズの有名な言葉を借りれば、宇宙に衝撃を与えられるような会社をつくることがいかに難しいかを身をもって知っていたわたしは、グーグルは大きな賭けをするにふさわしい場所だと信じた。いつか人間とともに生活し仕事をするAIロボットは、そんな大胆な賭けのひとつだった。

あれから8年半──グーグルがロボット・人工知能(AI)分野における最大の賭けの終わりを決定してから1年半──がたった現在も、ロボット開発のスタートアップは毎週のように生まれている。ロボットの必要性を、わたしはこれまで以上に確信している。だが、「実用最小限の製品」に注力するシリコンバレーや、ハードウェアへの投資を嫌うベンチャーキャピタル(VC)に、世界的なAIロボット開発競争に打ち勝てるだけの忍耐強さはあるだろうか。しかも、投資資金の大半が間違ったものに注がれている。なぜそう思うのか、その理由を説明しよう。

「ムーンショット」の意味

Google X──ムーンショット「Everyday Robots」はその組織のひとつ──は、グーグルは世界で最も困難な問題を解決できるという壮大な理想をもとに10年に誕生した。独自の文化を育て、既製の枠にとらわれない発想を可能にするため、Xはあえてグーグル本部から数マイル離れた場所に拠点を設けた。社員たちは大きなリスクを辞さず、迅速に実験に取り組み、失敗さえも段違いに高い目標を設定した証として讃えるよう奨励された。わたしが入ったとき、Xはウェイモ、グーグルグラスのほか、空飛ぶ風力発電機、インターネットが整備されていない地域にインターネットアクセスを提供する高高度気球といった、SFのようなプロジェクトをすでに生み出していた。

シリコンバレーのスタートアップとXのプロジェクトの著しい違いは、Xの社員が大局的かつ長期的な視点で考えるよう促されていたことにあった。実際、ムーンショット事業の選定に関し、Xには「決まったルール」があった。まず、何億人、ときに何十億人もの人々に影響を及ぼす問題に取り組むプロジェクトであることを実証する必要があった。次に、その問題の新たな解決策の誕生を確信させる画期的なテクノロジーがなければならなかった。最後に、クレイジーと紙一重にも思える斬新な事業や製品ソリューションがなければならなかった。

ゴミを分別しゴミ箱を空にするエブリデー・ロボット

Photograph: Hans Peter Brondmo

AIの身体の問題

Xのリーダーにふさわしい人物は、「キャプテン・オブ・ムーンショット」を肩書きに選んだアストロ・テラーをおいてほかにいない。3階建ての巨大なデパートを改装したGoogle Xのビルの中で、アストロはいつもトレードマークのローラーブレードを履いていた。ポニーテールに人なつこい微笑みを絶やさない彼に会ったら、もちろんアストロという名前も手伝って、あなたはHBOのドラマ『シリコンバレー』のエピソードに紛れ込んだような気分になっただろう。

グーグルが買収したロボット開発企業をどうするかについてアストロと初めて話し合ったときは、何かをすべきだということで意見が一致した。では、何をすべきか? 当時最も実用的なロボットは、大型で、データ処理能力がなく、危険で、多くの場合厳しい監視の下に工場や倉庫の中で使用が制限されるか、周囲の人々を保護するために檻の中に入れられていた。日ごろ身の回りにあっても安全で役に立つロボットをつくるにはどうすればいいか? そのためには新しいアプローチが必要だった。わたしたちは高齢化や労働人口の減少、人手不足など、世界的な人口構造の変化という大問題に取り組んでいた。そして人工知能がそれを解決する画期的なテクノロジーになると──そう、16年の時点ですでに──考えた。増え続ける日常生活のさまざまなタスクの処理に手を貸す完全自律型ロボットが斬新な解決策になるはずだ、と。

言い換えれば、わたしたちはAIに物理世界の身体を与えようとしていたのだ。そしてそれほどの何かを生み出すことができる場所があるとするなら、それはX以外にない。そのためには長い時間と多大な忍耐力、クレイジーなアイデアを試し多くの失敗をものともしない気持ちが必要になるだろう。AI・ロボット技術の著しく飛躍的な進歩が求められ、数十億ドル(そう、数十億ドルだ)ものコストがかかる可能性が高い。わたしたちのチームには、地平線のほんの少し先に目をやれば、AIとロボットの融合は必然であるという強い信念があった。それまでSFの世界にしか存在しなかったものの多くが、現実になろうとしていると感じていたのだ。

バレンタインデーにバラを差し出すエブリデー・ロボット

Photograph: Hans Peter Brondmo

ロボットが必要なのはあなたの母親かもしれない

わたしは毎週のように母と電話で話をした。開口一番、母は決まってこう言った。「ロボットはいつできるの?」どうかすると、「もしもし」さえ言わないこともあった。母は、生活の手助けをするグーグルのロボットがいつ完成するかをとにかく知りたがっていた。「しばらくかかりそうだよ、ママ」と答えると、母は「早くできればいいのに!」と返すのだった。

母はノルウェーのオスロに住んで、手厚い公的医療サービスを受けていた。介護士が日に3度アパートを訪れ、パーキンソン病が進行し自分でできなくなった幅広い家事や雑用を手伝ってくれた。おかげで母は自宅でひとり暮らしをすることができていたが、一方で母はいまや手に負えない厄介な障壁と化した無数の細々としたことをサポートできる、時にはただ腕に寄りかかれるロボットを心待ちにしていたのだ。

食後のカフェテーブルを拭く練習をするエブリデー・ロボット

Photograph: Hans Peter Brondmo

非常に難しい

「ロボット開発がシステムの問題だということは、もちろんわかっていますよね?」探りを入れるような顔でジェフがわたしに問いかけた。どこのチームにも「ジェフ」はいるだろう。わたしたちのチームにジェフ・ビンガムがいたように。農場で育ち、生物工学のPhDを取得したジェフはひょろりとした真面目な人で、ほとんどすべてのことに対する深い洞察力をもつ知識の拠点と評されていた。ロボットについて訊かれたら、いまでもわたしはまず、それはシステムの問題だと答えるだろう。

ジェフが強く主張しようとしていた重要なことのひとつは、ロボットは実に複雑なシステムで、その性能は最大の弱点によって左右されるということだ。視覚サブシステムが直射日光の下で前にある物体を知覚できなければ、ロボットは窓から日光が入ってくると突如視力を失い、動作を停止するかもしれない。ナビゲーションサブシステムが階段を認識しなければ、ロボットは転がり落ちて故障する(たまたま居合わせた人々にケガを負わせる)かもしれない。こうした例は挙げればきりがない。人間のそばで生活し、仕事ができるロボットをつくるのは難しい。ものすごく難しいのだ。

数十年ものあいだ人々は、テーブル上のカップを掴む、ドアを開けるなどの単純なタスクをこなす多様な形式のロボットをプログラムしようと試みてきたが、結局大半のプログラムはきわめて不安定になり、条件をほんの少し変更したり、環境に変化があったりするとうまく作動しなかった。なぜか?(突然射し込んでくる日光のように)現実世界で起きることを何もかも予測するのは不可能だからだ。しかも、人が暮らし、働くごちゃごちゃした乱雑な空間を動き回るといった難しいタスクには、まだ手をつけてさえいない。

こうしたことを慎重に考えれば、あらゆるものを固定し、位置をあらかじめ定め、適切で安定した照明を当てた環境に何から何までをしっかりと閉じ込めない限り、例えば青リンゴを掴んでキッチンテーブルの上にあるガラスボウルに入れるなどの単純作業も、解決がとんでもなく難しい問題になることがわかる。だから工場のロボットは檻の中に入れられている。照明からものの配置に至るまですべてが予測可能で、人の頭を殴る心配をする必要がないからだ。

グーグルの従業員とビジターにロボットが近くを動き回っていることを知らせる掲示

Photograph: Hans Peter Brondmo

学習するロボットについて学ぶ方法

だが、おそらく機械学習(ML)の専門家が17人もいればいい。ラリー・ペイジはそう言った──いかにもラリーらしい、理解しがたい意見である。わたしは、そんな少人数のMLリサーチャーだけで、人の近くで作業するロボットのハードウェアとソフトウェアのインフラを構築できるはずがないと反論した。しかしラリーは素っ気なく手を振った。「17人で十分だ」。わたしは戸惑った。なぜ11人でなく、23人でもないのか? わたしは何かを見落としていた。

詰まるところ、AIをロボット工学に適用するにはふたつの主要なアプローチがある。そのひとつがハイブリッドアプローチだ。システムのさまざまなパーツがAIによって動き、従来型のプログラミングによってひとつにまとめられている。このアプローチを導入した視覚サブシステムは、目に見える世界をAIを利用して認識・分類するだろう。視覚サブシステムが見える物体のリストを作成し、ロボットプログラムはリストを受け取り、コードに実装されたヒューリスティック[編註:先入観や経験に基づいて、ある程度正解に近い答えを導き出す思考法]を用いてそれに基づいた行動をする。リンゴをテーブルから取るためのプログラムが書かれると、AI視覚システムによりリンゴが検知され、プログラムはリストの「タイプ:リンゴ」に該当するものを見分け、従来型のロボット制御ソフトを使って手を伸ばし、それを取る。

もうひとつのアプローチであるエンドツーエンド学習(e2e)は、「ある物体を取る」などのタスク全体、あるいは「テーブルを片づける」のようなより範囲の広い動作を学習するための手法だ。学習は、ロボットを膨大な量の訓練データにさらすことで生じる。人間が身体を使うタスクのやり方を学ぶときとほぼ同じである。幼い子どもにカップを手に取らせようとする場合、年齢にもよるが、子どもはまずカップとは何かを学び、さらには液体が入っているかもしれないカップで遊んでいたら、ひっくり返したり大量のミルクをこぼしたりすることがあると繰り返し学習しなければならない。だが、人がやっているところを見て、それを真似し、遊びながら何度も練習するうちに、子どもはやり方を身につけ、最後には手順を考える必要さえなくなる。

わたしはやがて、ラリーはあのとき、結局はエンドツーエンドタスクを実行する方法をロボットが学習できることを実証しない限り、どうにもならないと言っていたのだと思うようになった。それができて初めて、ムーンショットと呼ばれるにふさわしく、乱雑で予測不可能な現実世界で確実にタスクをこなすロボットの製造に本当に挑戦できるのだろう。重要なのは17という特定の数ではなく、大きなブレイクスルーに必要なのは大勢のエンジニアではなく小規模のチームであるという事実だった。当然ながら、ロボットにはAIの頭脳以外にも数多くの要素があるので、わたしはほかのエンジニアリングの取り組みを同時に進めていた──どうしても物理的ロボットを設計・構築しなければならなかったからだ。しかし、e2eタスクの成功を実証すれば、ムーンショット用語で言う「地球の引力から脱出できる」のは間違いないことが明らかになった。ラリーの世界では、ほかのすべてのことは要するに「実装の詳細」だったのだ。

仕事を探しているロボット!(23年1月にEveryday Robotsの閉鎖が発表されて以降、チームはすることがなくぶらぶらしていた)

Photograph: Hans Peter Brondmo

アームファームで

ドイツ人のロボット専門家であるペーター・パストアは、南カリフォルニア大学でロボット工学のPhDを取得した。珍しく仕事をしていないとき、ペーターはガールフレンドに追いつこうとカイトボード[編註:専用のカイトで風をとらえ、ボードに乗って海上を滑走するスポーツ]に挑戦していた。ラボでは、彼は多くの時間を費やして独自のロボットアーム14台を入手したが、のちにそれらは7台のクーカ(Kuka)製産業用ロボットアームに置き換えられ、それらが置かれた場所は「アームファーム」と呼ばれていた。

ロボットアームは24時間365日稼働し、ゴミ箱からスポンジ、レゴブロック、ゴム製のアヒル、プラスチック製のバナナなどを取り出すことに繰り返し挑戦した。アームは最初、かぎ爪型のグリッパーを上の任意の位置からゴミ箱に入れて動かし、グリッパーをしっかりと握り、引き上げ、何か掴んでいないか確かめるようプログラムされる。ゴミ箱の上にカメラを設置し、一部始終の様子、アームの動き、成功か失敗かを記録した。そうした一連のプロセスを数カ月間実行した。

はじめのうち、タスクの成功率は7%だった。しかし、成功は正の強化になった(基本的に、ロボットの場合、さまざまな結果を判断するために使用されるニューラルネットワークのいわゆる「重み」は、望ましい行動を積極的に強化し、望ましくない行動を消極的に強化するために調整されている)。最終的にロボットアームは70%以上の確率でものを取れるようになった。あるときペーターが見せてくれた動画には、黄色いレゴブロックを掴むだけでなく、邪魔なものを押しのけるアームが映っていた。その様子を目にしたとき、わたしは重大な転換点に到達したことを知った。そのロボットは従来型のヒューリスティックを用いてその動きをするよう明確にプログラムされていたわけではない。自ら学習していたのだ。

とは言え、7台のロボットがゴム製のアヒルを取る方法を学ぶのに数カ月もかかる? それは現実的ではなさそうだった。たとえ何百台ものロボットが何年練習しても、ロボットに現実世界で有用な最初のタスクのやり方を教えるには十分ではないだろう。そこでクラウドベースのシミュレーターをつくり、21年には2億4,000万を超える実例を積み上げた。

そのシミュレーターを、ものの重さや表面の摩擦をシミュレートするのに十分リアルな現実世界の物理学モデルを備えた、巨大なビデオゲームだと考えてみよう。数千のロボットが、シミュレートされたカメラ情報と、実際のロボットをモデルにシミュレートされた身体を使い、テーブル上のカップを取るなどのタスクを行なった。ロボットは一斉に稼働し、やってみては失敗するを数百万回繰り返しながら、AIアルゴリズムを訓練するデータを収集する。シミュレーションがそこそこうまくいったら、アルゴリズムは実際のロボットに転送され、新しい動きを体現できるよう現実世界で最終的な訓練が行なわれる。シミュレーションのロボットは、まるで一晩中夢を見ていて、目覚めたら何か新しいことができるようになっているみたいだった。

ゴミの分別を学習する初期のロボットの試作品

Photograph: Hans Peter Brondmo

要するにデータなんだよ、バカ者め

いきなりわたしたちの前に現れたChatGPTは、まるで魔法のようだった。AIで動くシステムが突如として完全なパラグラフを書き、複雑な質問に答え、会話を続けられるようになったのだ。同時にその根本的な欠点もわかってきた。そうしたタスクを実行するには、膨大な量のデータが必要だったのだ。

ロボットはすでに大規模言語モデル(LLM)を活用して話し言葉を理解し、視覚モデルを活用して見たものを理解しており、YouTubeの人気のデモ動画をつくる分にはそれで事足りる。だが、ロボットに人の近くで自律して生活し仕事をするよう教えるのにも、やはり大量のデータが必要になる。シミュレーションなど、訓練データを生成する方法はいろいろあるものの、ロボットがある日「目覚め」たら、システム全体をコントロールする基本的なモデルを備え、高い能力をもつようになっている可能性は極めて低い。

AIだけを使ってロボットにどこまで複雑なタスクを教えることができるかは、まだ結論が出ていない。明確に定義されたごく限られたタスクだけでなく、あらゆるタスクをロボットにさせるe2eモデルを訓練できるだけのデータを収集するには、現実世界で数十万、いやひょっとすると数百万台ものロボットが必要になるのではないか。わたしはそう考えるようになった。レストランの全部のテーブルを片づけて拭くとか、ホテルのベッドメイキングをするとか、役に立つサービスを遂行するロボットをつくるには、これから長い間AIと従来型のプログラミングの両方が求められるだろう。つまり、わたしたちのコントロールを外れて動き、プログラムされていない行動をとるロボットが、すぐにでも誕生すると期待してはいけないのだ。

ドアを開け洗面所を掃除する練習をする、初期のロボットの試作品

Photograph: Hans Peter Brondmo

では、ロボットは人間の姿であるべきか?

馬は実に効率よく4本の脚で歩き、走る。だが、わたしたちは自動車に車輪をつけた。人間の脳は信じがたいほどに効率のよい生物学的コンピューターだ。だがチップが実装されたコンピューターの性能はわたしたちの脳の能力には及ばない。なぜクルマには脚がないのか、なぜコンピューターは人間の生物学をモデルにしなかったのか? 要するに、ロボット製作のゴールは単なるもの真似であってはならないのである。

このことを学んだのは、ある日Everyday Robotsで開かれた技術部門のリーダーたちとのミーティングだった。会議用テーブルを囲み、ロボットに脚をつけるか車輪をつけるかについて活気に溢れた話し合いがなされていた。このようなミーティングは、事実に基づく、科学的な議論というより、宗教がかった論争になっていく傾向にあった。なかには、ロボットは人と同じ外見をしていなければならないという考えに傾倒している人たちがいる。そうした人々の理屈はもっともだ。わたしたちが生活し仕事をする場所はわたしたちに合わせて設計されている。わたしたちには脚がある。だからロボットにも脚があったほうがいいだろう。

30分ほど経ったとき、その部屋で最年長のエンジニアリングマネージャー、ヴィンセント・デュローが口を開いた。「わたしが二本脚で立つことができれば、ロボットにもできるはずだ」。ヴィンセントは車いすに乗っていた。部屋は静まりかえった。議論は終わった。

実のところ、ロボットの脚は機械的にも電子的にもとても複雑だ。それほど速くは動かないし、ロボットの体勢も不安定にさせがちだ。車輪に比べれば電力効率もよくない。最近、人間の形や機能をそっくり真似たヒューマノイドロボットの製造を目指す企業を見ると、それは想像力の失敗ではないだろうかと思う。人間を補完する設計のために探究すべきものはほかにも数多くあるのに、どうしてわざわざ苦労して人間を模倣しようとするのだろう? Everyday Robotsでは、ロボットの形態学をできるだけシンプルにしようとした。というのもロボットが現実世界のタスクをすばやく実行できるようになれば、それだけ短期間に貴重なデータを集められるからだ。ヴィンセントの言葉は、最も難しく、最も影響力の大きい問題に最初に注力する必要があることを思い出させてくれた。

デスクワーク

自分のデスクにいると、角が丸い長方形の頭がついた1本腕のロボットが近づいてきて、わたしの名を呼び、机の上を片づけていいかと尋ねた。わたしはイエスと答えて脇によけた。数分後、ロボットは空の紙コップを数個、スターバックスでテイクアウトしたアイスティーの透明なカップ、カインドバー[編註:米国カインド社製の栄養調整食品。チョコレート、プロテイン、ナッツバーなどがある]のプラスチックの包み紙を掴み、土台に取りつけられたトレイに入れると、こちらを向いてうなずき、次のデスクに向かった。

この机片づけサービスは重要な節目だった。それは、わたしたちがロボット開発という難題の未解決部分の解決に向けて着実に進んでいる証だったからだ。机を片づけるロボットは、AIを用いて人とものの両方をちゃんと見ていた! このサービスを生み出したチームを率いた、ソフトウェアエンジニアで元人形師のベンジー・ホルソンは、ハイブリッドアプローチを提唱した。ホルソンはエンドツーエンドによるタスクの学習に反対していたわけではなく、「いまロボットに何か有益なことをさせよう」という考えをもっていた。もしMLリサーチャーがホルソンのチームがプログラムできる以上にうまくe2eの課題を解決すれば、彼らは新しいアルゴリズムを自分たちの手段に組み入れるだろう。

ロボットがオフィスを動き回って、机の片づけのような雑用をこなすのにもすっかり慣れた。ときどき、ビジターやチームに入ったばかりのエンジニアを見かけることがあった。そうした人々は驚きと喜びの表情を浮かべ、仕事をこなすロボットを見ていた。そのまなざしから、こうしたロボットがどれほど斬新かを改めて意識した。ロボットが近づいてくると、デザイン部門の責任者リース・ニューマンは決まって、(ウェールズ訛りで)「これが当たり前になったなんて。奇妙な話じゃないか?」と言ったものだ。

Everyday Robotsのアーティスト・イン・レジデンスでロボットと踊るケイティ・クアン

Photograph: Hans Peter Brondmo

ロボットのダンス

Everyday Robotsのアドバイザーには、哲学者、人類学者、労働組合の元リーダー、歴史学者、経済学者らがいた。わたしたちは経済的、社会的、哲学的な問題について精力的に議論を重ねた。ロボットが人の近くにいるようになった場合、経済にはどのような影響があるか? 労働に対する長期的、短期的影響はどんなものか? インテリジェントマシンの時代に人間であることは何を意味するか? 社会に受け入れられ、安心感を与えるマシンをどうやってつくるか?

2019年、わたしはロボットとともにクリエイティブですばらしい、予測不能な活動をするために、アーティスト・イン・レジデンスを実施しようと考えていることをチームに伝え、その後ケイティ・クアンに会った。ケイティはロボット工学・AIのPhD取得を目指しスタンフォード大学で学んでいた。わたしの関心を引いたのは、ケイティがニューヨーク市のメトロポリタン・オペラ・バレエなどで踊った経験をもつプロのダンサーだったことだ。

あなたもYouTubeでロボットが踊る動画を見たことがあるだろう──音楽とシンクロし、あらかじめプログラムされ時間が決められた動きを連続して行なうロボットのパフォーマンスだ。観るのは楽しいが、そうしたダンスはディズニーランドのライド体験とさほど違わない。そうではなく、人、あるいは鳥や魚の群がするように、ロボットが即興で相互にかかわりあうことができればどうなるかと、わたしはケイティに尋ねた。それを実現させるため、彼女と数名のエンジニアは振付師の好みに基づいて訓練したAIアルゴリズムを開発した。その振付師とはもちろん、ケイティである。

ロボットが日課のタスクに忙しくない夕方や、ときどきは週末にも、ケイティと即席のチームはXの中央にある広いアトリウムに10数台のロボットを集めた。ロボットの一群は一斉に動き出し、たびたびもたつきながらも、人目を引く、ときには優雅で美しくさえある興味深いパターンの動きを披露した。オランダ出身のトム・エンベルセンは、空いた時間に古典の名作のレプリカを描いたロボット工学者だ。彼はケイティと協力し、踊るロボットが音楽にどう反応するか、どうやって楽器を演奏するかを掘り下げるサイドプロジェクトを始めた。あるとき、トムに新しいアイデアが浮かんだ──ロボット自体が楽器になったらどうだろう? これがきっかけとなり、動くたびにロボットの関節が音を鳴らすアイデアを探究することになった。土台が動くとロボットはベース音を鳴らした。グリッパーを開いたり閉じたりするとベルの音を鳴らした。音楽モードをオンにすると、ロボットは動くたびに独自のオーケストラ音楽を奏でた。廊下を移動しているとき、ゴミを分別しているとき、テーブルを片づけているとき、群で「踊って」いるとき、ロボットはわたしがそれまで経験したどんなものとも異なる、新しいタイプの接近可能な生き物のように動き、音を出した。

始まったばかり

22年後半になっても、エンドツーエンドかハイブリッドかの議論は盛り上がっていた。ペーターとチームメイト、Google Brainの同僚たちは、強化学習、模倣学習、Transformer──LLMのアーキテクチャ──のいくつかのロボットタスクへの適用に取り組んでいた。彼らはロボットがタスクを学習する能力をもち、汎用性が高く、堅牢で、順応性に富むものであることを着々と証明していた。一方、バンジー率いるアプリケーションチームはAIモデルを従来型のプログラミングとともに活用し、現実世界で人々のなかに配置できるロボットの試作品製造やロボットサービスの確立に取り組んでいた。

その間に、ケイティによる複数のロボットを利用したインスタレーション、「プロジェクトスターリング」が、これらのマシンに対するわたしの感情に変化を起こしていた。わたしは人々が驚き、喜び、好奇心をもってロボットに引き寄せられる様子を目の当たりにした。そのおかげで、ロボットの動きや発する音が人間の深い感情を刺激することが理解できた。それは、たとえ仮の話でも、ロボットをどのように日常生活に迎え入れるかにおける重要なファクターになるだろう。

つまりわたしたちは、最大の賭け──AIによって動くロボット──に本気で投資するかどうかの大きな転換点にあったのだ。AIはロボットに聞いたこと(話し言葉と書き言葉)を理解しそれを行動に変換する能力、あるいは見たもの(カメラ画像)を理解してそれを場面や物体に変換し、それに基づいて行動する能力を与えつつあった。そしてペーターのチームが実証していたように、ロボットは物体を掴むことを学習していた。プロジェクト開始から7年以上がすぎ、ロボットはグーグルの複数の社屋全体に配置されるようになっていた。1種類のロボットが、カフェテリアのテーブルを自律的に拭く、会議室を点検する、ゴミを分別するなど幅広いタスクをこなしていた。

OpenAIがChatGPTを発表して2カ月後の23年1月、全般的なコストの問題を理由にグーグルはEveryday Robotsを閉鎖した。ロボットと少数のスタッフは最終的にGoogle DeepMindでリサーチを行なうことになった。多額のコストと長い時間をかけた事業が終わることに、関係者全員が衝撃を受けた。

国家的急務

1970年には、世界の64歳以上ひとりに対し労働年齢人口は10人だった。2050年までに、それは4人以下になるだろう。働く人の数が足りなくなるのだ。誰が高齢者の介護をするのか? 誰が工場や病院やレストランで働くのか? 誰がトラックやタクシーを運転するのか? 日本、中国、韓国などの国はこれが差し迫った問題であることを理解している。よって、ロボットは選択肢のひとつではない。それらの国々は、ロボティクス技術への投資を国家的急務にしている。

現実世界でAIに身体を与えることは、国の安全保障の問題であり、極めて大きな経済機会でもある。グーグルのようなテクノロジー企業が未来の労働力を補完するAI搭載ロボットなどの「ムーンショット」事業に投資できないなら、誰がするのだろう? シリコンバレーやその他のスタートアップエコシステムは、ロボット開発に本気で取り組むだろうか? 仮にそうだとして、そうしたプロジェクトに忍耐強い長期資本を調達できるだろうか? そうは思えない。Everyday Robotsがムーンショットと呼ばれたのは、非常に複雑なシステムをこの規模で構築するには、VCを資金源とするスタートアップのこれまでの経験をはるかに上回る、相当な忍耐力が必要だったからだ。米国はAIの分野では先行しているが、その物理的表現、すなわちロボットの製造にはスキルとインフラが必要で、最も傑出した中国をはじめとする他の国々がすでに先を行っている。

母の生活を手助けするロボットは現れなかった。母は2021年初めに亡くなったのだ。晩年の母としょっちゅう交わした会話から、わたしはEveryday Robotsで始めたことの未来版は必ず誕生すると強く確信している。とは言え、それはすぐには完成しない。考えなければならないのは、このような変化と未来をどのように実現させるかだ。わたしの好奇心と懸念はいまも消えていない。


ハンス・ピーター・ブロンドモ|HANS PETER BRONDMO
コンピュータサイエンティスト、起業家、Google Xの元バイスプレジデント。ノルウェーで育ち、サンフランシスコ在住。

(Originally published on wired.com, translated by Takako Ando/LIBER, edited by Michiaki Matsushima)

※『WIRED』によるロボット工学の関連記事はこちら。


Related Articles
A multiple-exposure photo of a binary code and the Google DeepMind logo
Google DeepMindが、映像などの視覚情報も理解できるマルチモーダルなAIを搭載したロボットを披露した。その能力は、大規模言語モデル(LLM)が物理的な世界においても威力を発揮し、有用な仕事をこなせるようになる未来を先取りしている。
article image
日本のファミリーレストランなどで見かけるネコ型配膳ロボットを手がけた中国メーカーのPudu Robotics(普渡科技)が、世界市場で存在感を強めている。こうした業務用ロボットは今後どのように進化し、人間とロボットの関係はどうなっていくのか。創業者でCEOの張涛に訊いた。
article image
伸縮によって力を伝達する筋肉の仕組みをヒントに、柔軟性をもちながらも硬化できるロボットの部品を米国の研究者たちが開発した。生物のように動くロボットの実現に向けた大きな一歩となる可能性を秘めている。

雑誌『WIRED』日本版 VOL.54
「The Regenerative City」 好評発売中!

今後、都市への人口集中はますます進み、2050年には、世界人口の約70%が都市で暮らしていると予想されている。「都市の未来」を考えることは、つまり「わたしたちの暮らしの未来」を考えることと同義なのだ。だからこそ、都市が直面する課題──気候変動に伴う災害の激甚化や文化の喪失、貧困や格差──に「いまこそ」向き合う必要がある。そして、課題に立ち向かうために重要なのが、自然本来の生成力を生かして都市を再生する「リジェネラティブ」 の視点だと『WIRED』日本版は考える。「100年に一度」とも称される大規模再開発が進む東京で、次代の「リジェネラティブ・シティ」の姿を描き出す、総力特集! 詳細はこちら。