数カ月にわたるテストののち、OpenAIは9月にChatGPTの「高度な音声」モードを導入しました。
この機能により、ChatGPTとリアルタイムで会話ができるようになります。ボットが「話している」最中に割り込んで別の質問をすることができ、ChatGPTはあなたの声のトーンを理解して、それをもとに返答の内容や抑揚を調整します(笑うと非常に不気味です)。
ただし、高度な音声モードの機能の1つは、リリース時にはまだ欠けていました。
7カ月を経て搭載された「ライブカメラ機能」
OpenAIが5月にこの機能を初めて発表した際、ChatGPTがカメラにアクセスし、周囲の世界を「見る」ことができると紹介していました。ボットと会話しながらカメラを何かに向けて質問をすると、ChatGPTができる限りの答えを返す、というものです。
それから7カ月が経ち、この機能がついに登場。その性能は驚くほど印象的です。
利用できるアカウント
この機能を利用するには、ChatGPTの有料サブスクリプションが必要です。Plus(月額20ドル)またはPro(月額200ドル)を利用している場合、アクセスが可能。ChatGPT Teamのサブスクライバーも対象となります。
ただし、有料プランを利用していても、OpenAIが段階的に展開しているため、すぐに利用できない場合もあります。
実際、どこまで見えているのか?
カメラへのアクセスは、アカウントに機能が追加されていれば、非常に簡単です。
いつもどおり、チャットの右下にある波形アイコンを使って、「高度な音声モード」を起動します。そこから、新しいカメラアイコンが表示されるので、タップするとライブカメラの映像が表示されるように。
この機能はチャットを中断することはなく、ChatGPTとの会話の途中でカメラを開いても、カメラ映像が会話の一部としてそのまま続けられます。
初めてこれを使ったとき、近くにあったNintendo Switchの箱にカメラを向け、iPhoneのケーブルとMagic Trackpadが上に乗っている状態で、「これは何ですか?」と尋ねました。
ChatGPTはこう答えました。
これはNintendo Switch OLEDの箱と、いくつかのケーブルとその上にノートPCが乗っているように見えます。セットアップする予定ですか?
2つは正解ですが、Trackpadをラップトップと間違えています。まあ、だいぶ近いですが。
次に、水筒にカメラを向け、ハイライトしている物を識別してもらおうとしました。
これは黒いHydro Flaskのボトルですね。飲み物を冷たくしたり温かくしたりするのに便利です! よく持ち歩いていますか?
続けてこう質問してみました。「このHydro Flaskはどのモデルか分かりますか?」
ChatGPTの回答は次のとおり。
正確なモデルは分かりませんが、広口ボトルの1つで、おそらく32オンスくらいのサイズだと思います。飲み物を何時間も適温に保つように設計されていることは確かです。
これは…ほぼ正解ですね。サイズを正しく推測されたのはちょっと驚きですが、正直言うとそれに少し不安を感じました。
その後、Apple Magic Keyboardにカメラを向け、どのキーが見えるか尋ねたところ、いくつかのキーを正確に答えましたが、すべてのキーを網羅しているわけではありませんでした。
そして、いくつのキーが見えるか尋ねたところ、ChatGPTは「約30個」と答えましたが、実際には26個でした。ふたたび、かなり近い結果を出してきたのです。
ChatGPTは私のMacBookのMagSafeポート、右側にある2つのUSBポート、そしてヘッドフォンジャックを正確に識別できました。
さらに、天井の通気口や玄関にあったブーツの種類もちゃんと認識。全体的に、テストしたものはほぼすべて認識していました(ただし、トラックパッドを除いて)。
驚かされたのは、その速さ
認識能力を超えて、私がもっとも驚いたのは、これらの反応の速さでした。
ChatGPTに何かを識別してもらうと、それは実際の人に頼んだ時よりも速く答えることがあります。
時々、ボットが言葉を少し引き伸ばして(例:「I thiiiiiiiiink that's a...」)反応することがありますが、これはChatGPTが言いたいことを処理するためのトリックかもしれません。
また、最初の反応で自信がない様子を見かけることも。
たとえば、Magic Mouseにカメラを向けたとき、最初に答えたのは「コンピューターマウス」でした。しかし、ブランドを尋ねると、Appleだと特定するだけでなく、「洗練されたデザイン」と「タッチ感応型の表面」で知られるApple Magic Mouseだとも言っていました。
このように、最初は一般的な回答をしつつ、追加の質問によって詳細かつ正確に特定する流れは、人間の会話に近く、さらにリアルな対話体験を感じさせます。
とはいえ、これらの反応はほとんど瞬時に返ってくることが多く、最近のOpenAIのモデルの強力さを物語っています。
この機能の可能性と危険性
私はまだAIには懐疑的ですが、これはしばらくぶりに感心させられた進展で、正直どう感じるべきか迷っています。
困惑の一方で、この技術が良い方向に使われる可能性も見えます。
たとえば、視覚障がいのあるユーザーにとって、特にスマートグラスのような便利なデバイスを使って、どれだけ役に立つことができるか想像してみてください。
AIアシスタントに、自分がどの方向を向いているか、レストランのメニューを読んでほしい、または道路を渡るのが安全かどうかを尋ねることができるのです。
このような技術は、検索の方法を良い方向に変える可能性があり、スマートフォンのカメラを被写体に向けるだけで、世界について新しいことを簡単に学べるようにするでしょう。
一方で、私の考えはネガティブなほうに向かいます。特に、AIは依然としてハルシネーション(幻覚)を起こしやすいためです。この技術を多くの人が使うようになると、AIが犯すミスに必ず遭遇することになるでしょう。
そして、もし利用者がAIにタスクを頼っている場合(特に自分の安全に関わるようなこと)、ハルシネーションによるミスは危険です。
私自身は大きなエラーを経験することもなく、あったことといえばトラックパッドの混同だけでした。アンダーソン・クーパーは、AIが幾何学の問題で間違いを犯したことを発見しました(これも大きな問題ではありませんが)。
でも、これは技術が急速に進化するなかで、その内在的な欠陥が失敗のリスクを高めることを良い形で思い出させてくれます。
おそらく、それがすべてのライブカメラセッションで「安全に関わることにはこの機能を使用しないように」という警告が表示される理由です。
AIのハルシネーションや誤認識のリスクを避けるため、特に安全に関わる重要な判断をAIに頼らないようにという警告は非常に重要です。このようなリスクを軽減するためにも、ユーザーに慎重さを促す必要があります。
Source:techcrunch.com