小島:re:MARS は、Amazon が初めて開催したカンファレンスです。Amazon が実際にロボティクスや、機械学習、AI をどのように使っているかを知る良い機会となりました。Amazon GO の担当役員が公の場で話をするんですよ。こういうことをやらない会社だったので個人的には結構衝撃を受けました。(詳しくは、「
火星(M・A・R・S)時代への不可避な流れを確信する -- Amazon re:MARS 2019 参戦記 」)今、及川さんの話を聞いていて、デベロッパーに対して、自分たちが何をやっているかの話をすると、正しく世の中に伝わり、理解してもらえるのではないかと、ふと思いました。
及川:技術を駆使して作られた製品が、どのように世の中で使われているのかを理解する上で、その技術や製品を作っている人の顔が見えることは大事ではないかと思っています。すごい製品であることは理解していたとしても、誰が作っているかわからない、顔が見えないというのは・・・かつて、Amazon やマイクロソフトは営業やマーケティングの方は表に出てきていましたが、開発部隊が表に出てくることはあまりなかったと思います。そもそも人数が少なかったわけですが、それが最近になり公の場で話を聞く機会が増えてきました。利用者と同じ目線で話をすれば、それは人間同士、理解も深まるというものです。
小島::そういう人を見る場としてカンファレンスがあるというわけですね。
及川:エバンジェリストやアドボケイトという立場の方が最近いろいろな会社にいますよね。エバンジェリストというと先生に近くて、どちらかというと一方的に伝えるという立場ですね。しかし、後でお話しますが、そこはどちらかといえば双方向のコミュニケーションが大事になってきます。
小島:及川さんがツイートをするのは、この双方向のコミュニケーションを大事にされているからですね。
及川:海外のカンファレンスに参加する場合、多くは到着した翌日からの参加になるので、時差ボケもあって眠いんですよ。でも遠路はるばるやってきたのだから、寝てしまってはダメじゃ無いですか。そこで、眠気防止も兼ねてひたすらアウトプットし続けます。(「
facebook 新サービス発表 f8まとめ (及川さんのツイート感謝!) 」)。また、こうすると後で振り返るときに役に立つんですよね。このアウトプットを見ればすぐに思い出すこともできますしね。特に、F8 は日本からの参加者が少なかったので、結構いろいろな人に見てもらえましたね。
AI とプライバシーの不可避な流れ
小島:事前打合せで「プライバシーと AI 」が話題の一つにあがりました。及川さん、このお話をしていただけますか?
及川:F8 のキーノートでマーク ザッカーバーグが冒頭の 20 分ぐらいかけて、「Facebook はプライバシーを守ります。これが Facebook のネクストチャプターです」という、つまり企業姿勢を語りました。その後、開発プロセスをどう変えていくのか、個別のサービス、例えば、Messenger、WhatsApp、Instagram をどう進化させるかという話が続きました。
小島:結構具体的な話があったのですね。
及川:冒頭 20 分はポジショントークでしたが、その後は各製品の紹介の中にプライバシーの方針、「我々はこういうところでセキュリティーを強化しています」を語っていました。「サービスをこのように実装しています」とか「いつごろ展開予定です」とか、具体的な話でした。ここのところ、Facebook に対する風当たりが強いので真剣そのものでした。社長が出てきて 20 分喋ればどうにかなるだろうという感じではなく、事態を真摯に捉え、「我々はやり方をこう変えます」という中身を持って話しているという印象を強く感じました。
小島:F8 の後、Google I/O でしたね。
及川:Google I/O 初日の午前にキーノートがあり、登壇した スンダー ピチャイからもGoogle はプライバシーを重視しますという発言がありました。また、いくつかのセッションで、「
People+AI 」というガイドブックを紹介していました。Google がこれまで経験してきたものをベストプラクティスとしてをまとめたものです。ユーザーを中心とした AI 製品を開発する際に役立つ情報で、どういう風に製品作りを進めていけばいいかを整理して公開しています。
小島:Facebook と Google というプラットフォーマーの立ち位置の違いを反映している気がしますね。Facebook はサービス提供者そのもので、どのようにサービスを実装しているかに焦点を置いていますよね。一方、 Google は、自社のサービスを解放してその上に新しいサービスを作ってもらおうという立場なので、ガイドブックという形で知見を提供しているわけですね。
及川:Facebook の場合、取り組みの姿勢や取り組んでいるテーマに加えて、実際の技術についても触れています。例えば、フェイクニュース対策としてファクト チェックを強化しています。人を攻撃するような内容をいかに発見し、抑えるかという技術も開発しています。Google の場合、AI でいかに公正なものを追求していくかということをやっていて、技術的に細かいところは違いますが、目指しているところは Facebook と同じといえるでしょう。
ただ、小島さんが指摘された通り、Facebook はデベロッパー プラットフォームではないので、自分たちがやっていることを公開したとしても、せいぜいその成果はオープンソースでここ見てください、このライブラリ使えますよ、っていうことに過ぎません。一方、Google の場合にはガイドラインをプラットフォームの機能の一部として提供していくことができるので、そこはその立ち位置の違いはあるかなと思います。
小島:AI をテーマに取り上げると、その精度がどうなのか、学習するためにどの程度のデータがあればいいのか、どのモデリング手法を使えば良いのかといった、技術や手法が注目されがちですが、もうそこの議論ではなくて、それらを使って何をどう実装できるのか、そういうレベルですよね。さらに、できているものについては、現在の社会や利用者の期待値とどう折り合いをつけるのか、ここが AI の精度以上に求められていると感じています。
及川: とはいえ、実際には精度も非常に重要です。このガイドブックに関連するセッションは、結構多くあったのですが、過去、Google もいろいろな失敗もしていて、その失敗から学び、改善することをスピード感を持ってやってきました。決して失敗は悪いことではないんです。
小島:Amazon にも、Fail First という言葉があるくらいです。プラットフォーマーは、早く取り組むことで壁にも早くぶち当たる、そこからどう学んで、次に進むか、この一連の行動が非常に早いですよね。
及川:一つ面白い例があります。
Google 翻訳 をご存知の方は多いと思いますが、画面の左側に元言語があって、右側に翻訳した文が出てきます。あるトルコ語の文章を英語に翻訳した時に、”he is a doctor, she is a nurse”と出てきたんです。でも、これって実は誤りなんですよね。なぜかというと、トルコ語には第三人称単数に性別がないのです。
小島:つまり、原文からは he なのか she なのかは本当はわからないということですね。
及川:そうなんです。そもそも、性別不明なものを主語としているにも関わらず、doctor だったら男性で nurse だったら女性だ、というバイアスがかかってしまっているんです。これはアルゴリズムだけの問題ではもちろんありません。セッションの中で具体的に説明していましたが、機械学習のパイプライン中の、データセット、アノテーション、アルゴリズム、モデル作りの際のパラメータ設定など、すべてのステージでヒューマンバイアスが入り込むリスクがあるのです。
小島:だって、もともとバイアスかかったデータを食べていますから、そうなるってことですね。
及川:なので、こう言った場合、
男性医師を示すデータが多かったとしても、そこに性別を入れないためにはどうすればいいか?というところで彼らはテクニックを生み出したんです。そういったノウハウを公開してくれているんですね。
(注:前述の例についての
Google 翻訳の結果 )
小島:データをちゃんと見るだけじゃなくて、バイアスを取り除くようなアプローチも結構必要だ、ということなんですね。
AI と機械学習の関係を正しく理解する
小島:海外カンファレンスでは AI が主要テーマであることは間違いありません。今回参加した、re:MARS も例外ではありません。そこで印象に残ったことがいくつかあります。一つは、AI と機械学習をはっきり区別して考えるべきだという点です。機械学習はモデルを作るテクノロジーであって、そのモデルをどう使ってインテリジェンスな振る舞いに実装するかが AI だということです。もう一つが AI が目指すところです。iRobot の CEO の説明が非常にわかりやすかったです。AI は必ずしもヒューマン インテリジェンスではなくて良いという主張です。自動的な振る舞い、レスポンシブな応答、複数のAIでの協調など、少しずつ複雑な振る舞いになっていくわけですが、これがインテリジェンスである必要はないということです。日本では、AI を議論するとどうしてもシンギュラリティーが話題となり、「人間の仕事が奪われてしまう」という方向に流れてしまいますが、そこではないということですね。
ところで、機械学習とAIに対するこの見方について、及川さんはどう思われますか?
及川:おっしゃるとおり、AI が機械学習とイコールというわけではありません。しかし、最近は、AI と機械学習がほぼ同じものとして語られてしまっているケースがあります。これは改めるべきです。先ほどのレイヤーで分ける方法でも、包含関係で分ける方法もあるでしょう。いずれにせよ、技術を話すときは区別したほうが良いでしょう。
小島:インテリジェンスな振る舞いを分けていくとわかりやすくて、AI を人間の置き換えで見てしまうと混乱するのですが、因数分解するとこんな感じでその機械学習とか AI とか見られるのかなと思いますこの辺も読み取っていくといいんじゃないでしょうかと思います。
注目のテクノロジー エリア
小島:では次に移りましょう。及川さんの視座を借りて、これは気にかけておいた方が良いというテクノロジーを聞いてみたいと思います。今日は冒頭で AI について話しました。他に気になっているものは何でしょうか?
及川:ID、FinTech に含まれるペイメント系が気になりますね。いずれもインフラといって良いものです。Apple ID や Apple Pay の動きは非常に気になっています。
小島:実体経済がデジタル化すると、あなたは誰ですかっていうことと、支払いはちゃんとできますかが絶対的に必要ですね。もはやデジタルの中で決済することが主流になりつつありますし。
及川:サイバーフィジカル システムという、リアルとネットの融合はいろいろなところで進んでいます。Apple IDしかり、Apple Pay しかり。デジタルの世界の中だけではありません。リアル店舗でも使えます。
小島:そうすると、Google アカウントと Google Pay がセットになっているのも同じような文脈ですね。これら 2 つが入ってこないとなかなか難しい。Amazon はもともと e コマースからスタートしているから ID と決済を紐づけています。
及川:ウェブの世界でも WebAuthn と Web Payments がありますね。
小島:ロボティクスはどうですか。
及川:Amazon はロボティックス・チャレンジを開催していて日本の大学や研究機関も数多く参加してますよね。産業界ではロボティックスが、今後ますます発展することは当然ですが、一方、コンシューマー向けのロボティクスはどうかというと、お掃除ロボット以外にこれといったものが出ておらず、日本人が好きなヒューマノイドみたいなものがいつ日本に普及するのか、そもそも普及する必要性あるのか、そういう印象です。
小島:確かに日本の工場ラインにあるロボットって非常に高機能・高性能ですよね。Single purpose ではすごく強いけれど、汎用目的ではまだ開発段階ですね。お掃除ロボットは日本から最初に出ても良かった気がするのですが、実際は iRobot が初めてですよね。コンシューマーで使われるテクノロジーはものすごいスピードで進化しています。re:MARS でも iRobot CEO がかなり深い話をして、お掃除ロボットの会社の CEO とは思えないほど技術の詳しい話をするんですよね。ああいうのはやっぱり人々の生活で民生で鍛えられてかなり進化が進んでいるなって感じがします。
及川:昨年の Google I/O では話題になっていたけれど、今年は耳にしなかったものも、気になるといえば気になりましたね。Android Things とかどうなってしまったのかなーって。
小島:それは懇親会のネタとしましょう(笑)
AI と組み合わせると面白いことは何か
小島:事前のお話で、AI と組み合わせて考えるべきことを 3 つほどあげていただきました。
3 つめは、テクノロジーというより、社会にどう受容されるかという話ですが、ユースケースとしてインパクトも大きいということで上げていただきました。これらについて、少しお話いただけますか?
及川:VUI は、Alexa や Google Home といったスマートスピーカーに関わるテクノロジーです。ただ、ここで言う VUI はもっと広範なものを意味しています。例えば、コンピューターの操作において、横長のディスプレイ、キーボード、マウスからはまだまだ離れられません。スマートフォンの登場によって多少変わりましたが、根本的なところは変わりはありません。
小島:ソフトウェアキーボードというものがありますね。
及川:本来、コミュニケーションの際に音声や映像が主体ですから、実はもっと便利になるべきだと思っています。
小島:ボイスユーザ インターフェースの部分がですか?
及川:そうです。音声認識技術やテキストから音声を合成する技術を見ると、そのパフォーマンスも品質もとんでもないレベルに達しています。マイクロソフトの de:code のキーノートで、HoloLens のデモがありました。ご覧になった方もいるかもしれません。HoloLens の開発者であるキップマン氏と彼のホログラムが我々には見えています。AI を使って、彼が話している英語を文字にし、リアルタイムで翻訳してTTS(テキスト・トゥー・スピーチ)の技術で日本語を喋らせるというデモを披露しました。リアルタイムでやったんですよ。
小島:あれ結構精度が良くてみんな驚いたみたいですね。
及川:とんでもなかったです、あれは、まさに「ほんやくコンニャク」でしたね。
小島:今、笑われた方は世代がわかりますね。
及川:ドラえもんなので、どの世代でも通じるはずですね。
そして、その次のエッジデバイスに関係するのですが、Facebook は Portal というデバイスを開発しています。Messenger や WhatsApp で友人や家族とおしゃべりできるというものです。スマートカメラが話者を特定して、トラッキングしズームにも対応します。開発中のものを実際に見たのですが、2 年前はクラウド側で処理を行っていたんですよね。
小島:だから、遅延がちょっとある。
及川:そうなんです。オブジェクト ディテクションをすると映像がガタガタなんです。これでは使いものになりません。そこで、エッジ側で処理をすることでようやく商品となりました。Google I/O のキーノートのステージでデモされた Google アシスタントもパフォーマンスが良いと評判ですが、これも同様にエッジ側で処理しているからですね。このエッジデバイス、オフラインで動くところが、音声や映像のリアルタイム処理につながっていくわけです。
小島:AI と VUI とエッジデバイス。これらを重ねたエリアにはさまざまなユースケースがあるわけですね。できることがすごく増えるわけだから、この上でいろんなサービスとかユースケースを組んでいくと、今までなかったものを提供できますね。
及川:製品デザインも変わるでしょう。特に映像ですね。今まで目に見える視覚情報が中心でしたが、ユーザー体験に音声が加わるので、
Conversation design というものが必要になってきます。会話をどうスムーズに流すかということです。Google のデザインスプリントでも、このあたりのデザインについて触れていますね。
小島:技術だけでなく、デザイン手法もセットに提供されないといけないということですね。
及川:Conversation design では、人と機械の間でスムーズな会話を実現するにはどういうパターンがあるかを考えるわけですが、ここで会話が脱線したらどうなるかも含めて、全部のフローを考えるんですよ。例えば、小島さんと私が背中合わせ(つまりお互いを見ない状態)で何かをしようとしたときに、片方が質問を行い、他方はそれに答えて、また質問し、それに答えるというように、一方がロボットになりきって会話を進めて行くわけです。
小島:いわゆるチューリング テストみたいなものですよね。
及川:そうこうするうちに、すごいアシスタントができるわけですが、でもふと思ったんですよね。なぜ我々はこの努力を人間同士の会話に対してやらないのかと。Conversation design をうまく使えば、人と人とのコミュニケーションの質も上がるかもしれません。
小島:人と話しても通じないけれど、AI とだったらきちんとした会話になるということですね。一定の品質を持つモデルがもしできたとすれば、それをコピーして使えば良いので、いろいろなところでサービスの品質も向上しますね。
及川:それが、アクセプタンスです。人よりも機械の方が話しやすいことはありますね。
私は電話があまり得意ではないので、例えば、サービスセンターに電話をかけるのは嫌なんですよ。多少遅くても、メールやチャットの方が良いと思っています。電話が良いのか、あるいはメールやチャットが良いのか、人それぞれですが、選べるということが重要ですね。また、徐々に機械の方が好ましいことも増えてきています。きちんとデザインし、使ってもらえるようにすることが、新しいテクノロジーが社会に受容されていく上で必要です。
小島:アクセプタンスは、テクノロジーを使って何かを実装したときにすごく大事になるってことですよね。
及川:極端なこと言うと、AI によって予測精度がものすごく高くなったとしても、その高い予測精度をいきなり出したことで人を不安に陥れるのであればそれはやるべきではありません。
小島:Google Duplex も AI が会話しますって初めに宣言しないといけません。それが自然っていうことですね。サービス提供者はどうやってコンセンサスを利用者から得るかもしっかり考えるべきですね。
(
後編 に続く)
Posted by
Takuo Suzuki - Developer Relations Team
Google Cloud に代表されるクラウド技術の進化が引き起こすその先の世界を、機械学習、VR / AR、IoT などの領域で活躍されている方々と一緒に議論するイベント「INEVITABLE ja night 」。
2019 年 6 月 25 日に開催した第 9 回目は「デベロッパー カンファレンスから読み解くテクノロジーの不可避な流れ」がテーマでした。対談では、国内外のデベロッパー カンファレンスに数多く参加されている 及川卓也さん(Tably株式会社 代表取締役 Technology Enabler)をお迎えし、次々に登場する新しいテクノロジーがビジネスをどのように変えていくのか、その潮流について語っていただきました。
大型化するテックカンファレンス
小島:2019 年前半、海外では多くの IT 分野のカンファレンスが開催されました。Google 主催では、Cloud Next(サンフランシスコ)と Google I/O 、Facebook の F8、Apple の WWDC などがありました。プライベート カンファレンス以外ですと、SXSW、Game Developers Conference が 3 月に開催されました。この中で、今年、及川さんはどれに参加されましたか?
及川:Cloud Next と Google I/O、あとは F8 ですね。
小島:私は、Amazonの「re:MARS」という機械学習やロボティクスにフォーカスしたイベントに参加しました。今回初めての開催です。ここのところ特定のプラットフォーマーが多くのカンファレンスやるようになっていますよね。
及川:やはり、プラットフォーマーとしては、自分にロックインさせる、プラットフォーマーとしての支配力を高めたい思いがありますからね。しかし一方で、最近はそのプラットフォーマーに対しての風当たりが強いので、自社が保有する技術を公開して、自社だけではなく、本当の意味でのエコシステム、社会全体を良くしようという動きも出ています。議論の場を設けたり、自分たちのもっているノウハウや経験を公開する意味でカンファレンスも規模が大きくなっています。
小島:re:MARS は、Amazon が初めて開催したカンファレンスです。Amazon が実際にロボティクスや、機械学習、AI をどのように使っているかを知る良い機会となりました。Amazon GO の担当役員が公の場で話をするんですよ。こういうことをやらない会社だったので個人的には結構衝撃を受けました。(詳しくは、「火星(M・A・R・S)時代への不可避な流れを確信する -- Amazon re:MARS 2019 参戦記 」)今、及川さんの話を聞いていて、デベロッパーに対して、自分たちが何をやっているかの話をすると、正しく世の中に伝わり、理解してもらえるのではないかと、ふと思いました。
及川:技術を駆使して作られた製品が、どのように世の中で使われているのかを理解する上で、その技術や製品を作っている人の顔が見えることは大事ではないかと思っています。すごい製品であることは理解していたとしても、誰が作っているかわからない、顔が見えないというのは・・・かつて、Amazon やマイクロソフトは営業やマーケティングの方は表に出てきていましたが、開発部隊が表に出てくることはあまりなかったと思います。そもそも人数が少なかったわけですが、それが最近になり公の場で話を聞く機会が増えてきました。利用者と同じ目線で話をすれば、それは人間同士、理解も深まるというものです。
小島::そういう人を見る場としてカンファレンスがあるというわけですね。
及川:エバンジェリストやアドボケイトという立場の方が最近いろいろな会社にいますよね。エバンジェリストというと先生に近くて、どちらかというと一方的に伝えるという立場ですね。しかし、後でお話しますが、そこはどちらかといえば双方向のコミュニケーションが大事になってきます。
小島:及川さんがツイートをするのは、この双方向のコミュニケーションを大事にされているからですね。
及川:海外のカンファレンスに参加する場合、多くは到着した翌日からの参加になるので、時差ボケもあって眠いんですよ。でも遠路はるばるやってきたのだから、寝てしまってはダメじゃ無いですか。そこで、眠気防止も兼ねてひたすらアウトプットし続けます。(「facebook 新サービス発表 f8まとめ (及川さんのツイート感謝!) 」)。また、こうすると後で振り返るときに役に立つんですよね。このアウトプットを見ればすぐに思い出すこともできますしね。特に、F8 は日本からの参加者が少なかったので、結構いろいろな人に見てもらえましたね。
AI とプライバシーの不可避な流れ
小島:事前打合せで「プライバシーと AI 」が話題の一つにあがりました。及川さん、このお話をしていただけますか?
及川:F8 のキーノートでマーク ザッカーバーグが冒頭の 20 分ぐらいかけて、「Facebook はプライバシーを守ります。これが Facebook のネクストチャプターです」という、つまり企業姿勢を語りました。その後、開発プロセスをどう変えていくのか、個別のサービス、例えば、Messenger、WhatsApp、Instagram をどう進化させるかという話が続きました。
小島:結構具体的な話があったのですね。
及川:冒頭 20 分はポジショントークでしたが、その後は各製品の紹介の中にプライバシーの方針、「我々はこういうところでセキュリティーを強化しています」を語っていました。「サービスをこのように実装しています」とか「いつごろ展開予定です」とか、具体的な話でした。ここのところ、Facebook に対する風当たりが強いので真剣そのものでした。社長が出てきて 20 分喋ればどうにかなるだろうという感じではなく、事態を真摯に捉え、「我々はやり方をこう変えます」という中身を持って話しているという印象を強く感じました。
小島:F8 の後、Google I/O でしたね。
及川:Google I/O 初日の午前にキーノートがあり、登壇した スンダー ピチャイからもGoogle はプライバシーを重視しますという発言がありました。また、いくつかのセッションで、「People+AI 」というガイドブックを紹介していました。Google がこれまで経験してきたものをベストプラクティスとしてをまとめたものです。ユーザーを中心とした AI 製品を開発する際に役立つ情報で、どういう風に製品作りを進めていけばいいかを整理して公開しています。
小島:Facebook と Google というプラットフォーマーの立ち位置の違いを反映している気がしますね。Facebook はサービス提供者そのもので、どのようにサービスを実装しているかに焦点を置いていますよね。一方、 Google は、自社のサービスを解放してその上に新しいサービスを作ってもらおうという立場なので、ガイドブックという形で知見を提供しているわけですね。
及川:Facebook の場合、取り組みの姿勢や取り組んでいるテーマに加えて、実際の技術についても触れています。例えば、フェイクニュース対策としてファクト チェックを強化しています。人を攻撃するような内容をいかに発見し、抑えるかという技術も開発しています。Google の場合、AI でいかに公正なものを追求していくかということをやっていて、技術的に細かいところは違いますが、目指しているところは Facebook と同じといえるでしょう。
ただ、小島さんが指摘された通り、Facebook はデベロッパー プラットフォームではないので、自分たちがやっていることを公開したとしても、せいぜいその成果はオープンソースでここ見てください、このライブラリ使えますよ、っていうことに過ぎません。一方、Google の場合にはガイドラインをプラットフォームの機能の一部として提供していくことができるので、そこはその立ち位置の違いはあるかなと思います。
小島:AI をテーマに取り上げると、その精度がどうなのか、学習するためにどの程度のデータがあればいいのか、どのモデリング手法を使えば良いのかといった、技術や手法が注目されがちですが、もうそこの議論ではなくて、それらを使って何をどう実装できるのか、そういうレベルですよね。さらに、できているものについては、現在の社会や利用者の期待値とどう折り合いをつけるのか、ここが AI の精度以上に求められていると感じています。
及川: とはいえ、実際には精度も非常に重要です。このガイドブックに関連するセッションは、結構多くあったのですが、過去、Google もいろいろな失敗もしていて、その失敗から学び、改善することをスピード感を持ってやってきました。決して失敗は悪いことではないんです。
小島:Amazon にも、Fail First という言葉があるくらいです。プラットフォーマーは、早く取り組むことで壁にも早くぶち当たる、そこからどう学んで、次に進むか、この一連の行動が非常に早いですよね。
及川:一つ面白い例があります。Google 翻訳 をご存知の方は多いと思いますが、画面の左側に元言語があって、右側に翻訳した文が出てきます。あるトルコ語の文章を英語に翻訳した時に、”he is a doctor, she is a nurse”と出てきたんです。でも、これって実は誤りなんですよね。なぜかというと、トルコ語には第三人称単数に性別がないのです。
小島:つまり、原文からは he なのか she なのかは本当はわからないということですね。
及川:そうなんです。そもそも、性別不明なものを主語としているにも関わらず、doctor だったら男性で nurse だったら女性だ、というバイアスがかかってしまっているんです。これはアルゴリズムだけの問題ではもちろんありません。セッションの中で具体的に説明していましたが、機械学習のパイプライン中の、データセット、アノテーション、アルゴリズム、モデル作りの際のパラメータ設定など、すべてのステージでヒューマンバイアスが入り込むリスクがあるのです。
小島:だって、もともとバイアスかかったデータを食べていますから、そうなるってことですね。
及川:なので、こう言った場合、
男性医師を示すデータが多かったとしても、そこに性別を入れないためにはどうすればいいか?というところで彼らはテクニックを生み出したんです。そういったノウハウを公開してくれているんですね。
(注:前述の例についての Google 翻訳の結果 )
小島:データをちゃんと見るだけじゃなくて、バイアスを取り除くようなアプローチも結構必要だ、ということなんですね。
AI と機械学習の関係を正しく理解する
小島:海外カンファレンスでは AI が主要テーマであることは間違いありません。今回参加した、re:MARS も例外ではありません。そこで印象に残ったことがいくつかあります。一つは、AI と機械学習をはっきり区別して考えるべきだという点です。機械学習はモデルを作るテクノロジーであって、そのモデルをどう使ってインテリジェンスな振る舞いに実装するかが AI だということです。もう一つが AI が目指すところです。iRobot の CEO の説明が非常にわかりやすかったです。AI は必ずしもヒューマン インテリジェンスではなくて良いという主張です。自動的な振る舞い、レスポンシブな応答、複数のAIでの協調など、少しずつ複雑な振る舞いになっていくわけですが、これがインテリジェンスである必要はないということです。日本では、AI を議論するとどうしてもシンギュラリティーが話題となり、「人間の仕事が奪われてしまう」という方向に流れてしまいますが、そこではないということですね。
ところで、機械学習とAIに対するこの見方について、及川さんはどう思われますか?
及川:おっしゃるとおり、AI が機械学習とイコールというわけではありません。しかし、最近は、AI と機械学習がほぼ同じものとして語られてしまっているケースがあります。これは改めるべきです。先ほどのレイヤーで分ける方法でも、包含関係で分ける方法もあるでしょう。いずれにせよ、技術を話すときは区別したほうが良いでしょう。
小島:インテリジェンスな振る舞いを分けていくとわかりやすくて、AI を人間の置き換えで見てしまうと混乱するのですが、因数分解するとこんな感じでその機械学習とか AI とか見られるのかなと思いますこの辺も読み取っていくといいんじゃないでしょうかと思います。
注目のテクノロジー エリア
小島:では次に移りましょう。及川さんの視座を借りて、これは気にかけておいた方が良いというテクノロジーを聞いてみたいと思います。今日は冒頭で AI について話しました。他に気になっているものは何でしょうか?
及川:ID、FinTech に含まれるペイメント系が気になりますね。いずれもインフラといって良いものです。Apple ID や Apple Pay の動きは非常に気になっています。
小島:実体経済がデジタル化すると、あなたは誰ですかっていうことと、支払いはちゃんとできますかが絶対的に必要ですね。もはやデジタルの中で決済することが主流になりつつありますし。
及川:サイバーフィジカル システムという、リアルとネットの融合はいろいろなところで進んでいます。Apple IDしかり、Apple Pay しかり。デジタルの世界の中だけではありません。リアル店舗でも使えます。
小島:そうすると、Google アカウントと Google Pay がセットになっているのも同じような文脈ですね。これら 2 つが入ってこないとなかなか難しい。Amazon はもともと e コマースからスタートしているから ID と決済を紐づけています。
及川:ウェブの世界でも WebAuthn と Web Payments がありますね。
小島:ロボティクスはどうですか。
及川:Amazon はロボティックス・チャレンジを開催していて日本の大学や研究機関も数多く参加してますよね。産業界ではロボティックスが、今後ますます発展することは当然ですが、一方、コンシューマー向けのロボティクスはどうかというと、お掃除ロボット以外にこれといったものが出ておらず、日本人が好きなヒューマノイドみたいなものがいつ日本に普及するのか、そもそも普及する必要性あるのか、そういう印象です。
小島:確かに日本の工場ラインにあるロボットって非常に高機能・高性能ですよね。Single purpose ではすごく強いけれど、汎用目的ではまだ開発段階ですね。お掃除ロボットは日本から最初に出ても良かった気がするのですが、実際は iRobot が初めてですよね。コンシューマーで使われるテクノロジーはものすごいスピードで進化しています。re:MARS でも iRobot CEO がかなり深い話をして、お掃除ロボットの会社の CEO とは思えないほど技術の詳しい話をするんですよね。ああいうのはやっぱり人々の生活で民生で鍛えられてかなり進化が進んでいるなって感じがします。
及川:昨年の Google I/O では話題になっていたけれど、今年は耳にしなかったものも、気になるといえば気になりましたね。Android Things とかどうなってしまったのかなーって。
小島:それは懇親会のネタとしましょう(笑)
AI と組み合わせると面白いことは何か
小島:事前のお話で、AI と組み合わせて考えるべきことを 3 つほどあげていただきました。
3 つめは、テクノロジーというより、社会にどう受容されるかという話ですが、ユースケースとしてインパクトも大きいということで上げていただきました。これらについて、少しお話いただけますか?
及川:VUI は、Alexa や Google Home といったスマートスピーカーに関わるテクノロジーです。ただ、ここで言う VUI はもっと広範なものを意味しています。例えば、コンピューターの操作において、横長のディスプレイ、キーボード、マウスからはまだまだ離れられません。スマートフォンの登場によって多少変わりましたが、根本的なところは変わりはありません。
小島:ソフトウェアキーボードというものがありますね。
及川:本来、コミュニケーションの際に音声や映像が主体ですから、実はもっと便利になるべきだと思っています。
小島:ボイスユーザ インターフェースの部分がですか?
及川:そうです。音声認識技術やテキストから音声を合成する技術を見ると、そのパフォーマンスも品質もとんでもないレベルに達しています。マイクロソフトの de:code のキーノートで、HoloLens のデモがありました。ご覧になった方もいるかもしれません。HoloLens の開発者であるキップマン氏と彼のホログラムが我々には見えています。AI を使って、彼が話している英語を文字にし、リアルタイムで翻訳してTTS(テキスト・トゥー・スピーチ)の技術で日本語を喋らせるというデモを披露しました。リアルタイムでやったんですよ。
小島:あれ結構精度が良くてみんな驚いたみたいですね。
及川:とんでもなかったです、あれは、まさに「ほんやくコンニャク」でしたね。
小島:今、笑われた方は世代がわかりますね。
及川:ドラえもんなので、どの世代でも通じるはずですね。
そして、その次のエッジデバイスに関係するのですが、Facebook は Portal というデバイスを開発しています。Messenger や WhatsApp で友人や家族とおしゃべりできるというものです。スマートカメラが話者を特定して、トラッキングしズームにも対応します。開発中のものを実際に見たのですが、2 年前はクラウド側で処理を行っていたんですよね。
小島:だから、遅延がちょっとある。
及川:そうなんです。オブジェクト ディテクションをすると映像がガタガタなんです。これでは使いものになりません。そこで、エッジ側で処理をすることでようやく商品となりました。Google I/O のキーノートのステージでデモされた Google アシスタントもパフォーマンスが良いと評判ですが、これも同様にエッジ側で処理しているからですね。このエッジデバイス、オフラインで動くところが、音声や映像のリアルタイム処理につながっていくわけです。
小島:AI と VUI とエッジデバイス。これらを重ねたエリアにはさまざまなユースケースがあるわけですね。できることがすごく増えるわけだから、この上でいろんなサービスとかユースケースを組んでいくと、今までなかったものを提供できますね。
及川:製品デザインも変わるでしょう。特に映像ですね。今まで目に見える視覚情報が中心でしたが、ユーザー体験に音声が加わるので、Conversation design というものが必要になってきます。会話をどうスムーズに流すかということです。Google のデザインスプリントでも、このあたりのデザインについて触れていますね。
小島:技術だけでなく、デザイン手法もセットに提供されないといけないということですね。
及川:Conversation design では、人と機械の間でスムーズな会話を実現するにはどういうパターンがあるかを考えるわけですが、ここで会話が脱線したらどうなるかも含めて、全部のフローを考えるんですよ。例えば、小島さんと私が背中合わせ(つまりお互いを見ない状態)で何かをしようとしたときに、片方が質問を行い、他方はそれに答えて、また質問し、それに答えるというように、一方がロボットになりきって会話を進めて行くわけです。
小島:いわゆるチューリング テストみたいなものですよね。
及川:そうこうするうちに、すごいアシスタントができるわけですが、でもふと思ったんですよね。なぜ我々はこの努力を人間同士の会話に対してやらないのかと。Conversation design をうまく使えば、人と人とのコミュニケーションの質も上がるかもしれません。
小島:人と話しても通じないけれど、AI とだったらきちんとした会話になるということですね。一定の品質を持つモデルがもしできたとすれば、それをコピーして使えば良いので、いろいろなところでサービスの品質も向上しますね。
及川:それが、アクセプタンスです。人よりも機械の方が話しやすいことはありますね。
私は電話があまり得意ではないので、例えば、サービスセンターに電話をかけるのは嫌なんですよ。多少遅くても、メールやチャットの方が良いと思っています。電話が良いのか、あるいはメールやチャットが良いのか、人それぞれですが、選べるということが重要ですね。また、徐々に機械の方が好ましいことも増えてきています。きちんとデザインし、使ってもらえるようにすることが、新しいテクノロジーが社会に受容されていく上で必要です。
小島:アクセプタンスは、テクノロジーを使って何かを実装したときにすごく大事になるってことですよね。
及川:極端なこと言うと、AI によって予測精度がものすごく高くなったとしても、その高い予測精度をいきなり出したことで人を不安に陥れるのであればそれはやるべきではありません。
小島:Google Duplex も AI が会話しますって初めに宣言しないといけません。それが自然っていうことですね。サービス提供者はどうやってコンセンサスを利用者から得るかもしっかり考えるべきですね。
(後編 に続く)
Posted by Takuo Suzuki - Developer Relations Team