アップルが開発した「GPT-4を凌ぐ」AIとは…「ReALM」はコンテキストを理解する

アップルの新しいAIシステム、ReaLM(Reference Resolution As Language Modeling)は、画面上の画像や会話のコンテキストを理解することができる。

アップルの新しいAIシステム、ReaLM(Reference Resolution As Language Modeling)は、画面上の画像や会話のコンテキストを理解することができる。

SOPA Images via Getty Images

  • アップルの研究者らは、画面上のコンテンツからそのコンテキストを「見て」理解する新しいAIシステムを開発した。
  • このReALM(Reference Resolution As Language Modeling)と呼ばれるシステムは、AIとより自然な対話を可能にするものだ。
  • ReaLMを開発した研究者らによると、このシステムは、コンテキストの理解において、OpenAIのGPT-4を凌ぐものだという。

OpenAIのGPT製品に対抗することを目的とするアップル(Apple)の新たなAI開発で、Siriのようなバーチャルアシスタントとの対話をより直感的にできるようになるかもしれない。

「Reference Resolution As Language Modeling(言語モデルとしてのリファレンス解決)」の略である「ReALM」システムは、曖昧な画面上の画像コンテンツ、会話上のコンテキストを理解し、AIとのより自然な対話を可能にするものだ。

このシステムを開発した研究者らによると、アップルのこの新しいシステムは、GPT-4のような他の大規模言語モデル(LLM)よりも、コンテキストや言語表現が何を指すかを判断する能力が優れているという。また、OpenAIのGPTシリーズのような他のLLMよりも複雑ではないため、ReaLMは、「パフォーマンスを犠牲にすることなく、デバイス上に存在できる」コンテキスト解読システムの「理想的な選択」だという。

例えば、Siriに地元の薬局のリストの表示を依頼したとする。リストが表示されたら、「レインボーロードにある薬局に電話して」または「一番下の薬局に電話して」と頼むかもしれない。このシステムを開発したアップルの研究者によると、ReALMを使う場合、多くの詳細情報を求めるエラー メッセージが表示されることはなく、SiriはGPT-4よりもこのようなタスクを実行するために必要なコンテキストを読み解くことができるという。

「人間の会話には通常、『they』や『that』といった曖昧な表現が含まれるが、その意味は文脈(コンテキスト)を考えれば(人間には)明らかだ」と研究者らはReaLMの能力について書いている。

「このようなリファレンスを含むコンテキストを理解できることは、ユーザーが自然に自分の要求をエージェントに自然に伝えたり、エージェントと会話できることを目的とする会話アシスタントにとっては不可欠だ」

ReALMシステムは、テキストに埋め込まれた画像を解釈することができ、これを使用して、ページ上の画像から電話番号やレシピなどの情報を抽出することができると研究者らは述べている。

OpenAI の GPT-3.5 はテキスト入力しか受け付けない。GPT-4 は画像のコンテキスト化も可能だが、スクリーンショットではなく、主に自然な実世界の画像で訓練された大規模なシステムである。アップルの研究者らはこのことが実用的なパフォーマンスを妨げ、画面上の情報を理解する上ではReALM をの方が優れていると述べている。

Popular

${item.title}

${item.sponsoredValue}

`; if ( $(target).length ) { $(target).append(adBlock); } else if ( $(target2).length ) { $(target2).append(adBlock2); } } }); })();

BI編集部 注目の3冊
PR

あわせて読みたい

BUSINESS INSIDER JAPAN PRESS RELEASE - 取材の依頼などはこちらから送付して下さい

広告のお問い合わせ・媒体資料のお申し込み