アップルの新しいAIシステム、ReaLM(Reference Resolution As Language Modeling)は、画面上の画像や会話のコンテキストを理解することができる。
SOPA Images via Getty Images
- アップルの研究者らは、画面上のコンテンツからそのコンテキストを「見て」理解する新しいAIシステムを開発した。
- このReALM(Reference Resolution As Language Modeling)と呼ばれるシステムは、AIとより自然な対話を可能にするものだ。
- ReaLMを開発した研究者らによると、このシステムは、コンテキストの理解において、OpenAIのGPT-4を凌ぐものだという。
OpenAIのGPT製品に対抗することを目的とするアップル(Apple)の新たなAI開発で、Siriのようなバーチャルアシスタントとの対話をより直感的にできるようになるかもしれない。
「Reference Resolution As Language Modeling(言語モデルとしてのリファレンス解決)」の略である「ReALM」システムは、曖昧な画面上の画像コンテンツ、会話上のコンテキストを理解し、AIとのより自然な対話を可能にするものだ。
このシステムを開発した研究者らによると、アップルのこの新しいシステムは、GPT-4のような他の大規模言語モデル(LLM)よりも、コンテキストや言語表現が何を指すかを判断する能力が優れているという。また、OpenAIのGPTシリーズのような他のLLMよりも複雑ではないため、ReaLMは、「パフォーマンスを犠牲にすることなく、デバイス上に存在できる」コンテキスト解読システムの「理想的な選択」だという。
例えば、Siriに地元の薬局のリストの表示を依頼したとする。リストが表示されたら、「レインボーロードにある薬局に電話して」または「一番下の薬局に電話して」と頼むかもしれない。このシステムを開発したアップルの研究者によると、ReALMを使う場合、多くの詳細情報を求めるエラー メッセージが表示されることはなく、SiriはGPT-4よりもこのようなタスクを実行するために必要なコンテキストを読み解くことができるという。
「人間の会話には通常、『they』や『that』といった曖昧な表現が含まれるが、その意味は文脈(コンテキスト)を考えれば(人間には)明らかだ」と研究者らはReaLMの能力について書いている。
「このようなリファレンスを含むコンテキストを理解できることは、ユーザーが自然に自分の要求をエージェントに自然に伝えたり、エージェントと会話できることを目的とする会話アシスタントにとっては不可欠だ」
ReALMシステムは、テキストに埋め込まれた画像を解釈することができ、これを使用して、ページ上の画像から電話番号やレシピなどの情報を抽出することができると研究者らは述べている。
OpenAI の GPT-3.5 はテキスト入力しか受け付けない。GPT-4 は画像のコンテキスト化も可能だが、スクリーンショットではなく、主に自然な実世界の画像で訓練された大規模なシステムである。アップルの研究者らはこのことが実用的なパフォーマンスを妨げ、画面上の情報を理解する上ではReALM をの方が優れていると述べている。
「アップルは長い間、対話型AIの開発において、マイクロソフト(Microsoft)、グーグル(Google)、アマゾン(Amazon)に後れを取っていると見られてきた」とThe Informationは報じている。
「iPhoneメーカーは、新製品を慎重に、慎重に開発することで定評がある。この戦略は消費者の信頼を得るのにはうまくいっているが、ペースの速いAI競争では、不利になる可能性がある」
しかし、ReALMの機能が披露されたことで、アップルはこの競争に本格的に参入する準備を整えつつあるようだ。
Business InsiderはReALMの研究者とOpenAIにコメントを求めたが、回答は得られなかった。
ReALMがSiriや他のアップル製品にいつ搭載されるのかどうかはまだ不明だが、ティム・クック(Tim Cook)CEOは先日行われた2024年第1四半期の決算報告で、「2024年後半には、現在我々が進めているAIの詳細を共有できることを楽しみにしている」と話している。