これからAIのフィードバックループのスケーリングが来ると思う
フィードバックループのスケーリングとは?
これはオリジナルの概念なので補足する。
フィードバックループのスケーリングとは、1タスクの遂行において「状況を確認し意見を修正する機会数」をスケーリングさせるという概念。
推論スケーリング では、1回のタスクのために、長時間や超ステップで考えさせる。
フィードバックループのスケーリング では、1回のタスクに対して「意見修正」できる機会をたくさん作る。
わかりやすいモデルケース
なぜフィードバックループのスケーリングが重要なのか?このコンセプトを明確にするために、単純化したモデルを考えてみよう。
以下の2つのモデルのうち、どちらが自動運転で高い性能を発揮するか?
「超AIが考え抜いて、朝イチバンに明日の株価を予測する」
「並のAIが、1時間ごとに状況判断を修正しつつ明日の株価を予測する」
実際に運用した場合、どう考えても後者のほうが良い成績を残すだろう。これは極端な例だが
・ダイエットのコーチングを事前全プラン立てるか、経過を見ながらやるか
・医療の治療を事前に全プラン立てるか、経過をみながら変えるか
なども同様の結果になるだろう。
逐次修正の重要性
現実世界のタスクは、解決に時間がかかるうえに、タスク遂行中に状況が変化する。このような環境下では、「推論スケーリング」による深い事前予測は、すべてを予測し得ない。
仮に超AIが超推論をしたとしても、その精度は時間の経過とともに発散し、カオスな変動に勝てなくなる。超AIの事前予測を裏切って、突風が吹くし、物陰からあらわれるお婆ちゃんがいるのだ。
つまり、大半の現実世界のタスクでは、推論スケーリングはそれ単体では機能を発揮できず、むしろ「状況判断・状況修正の回数」のスケーリングが重要となるわけである。
フィードバックループのスケーリングの応用
この概念は自動運転に限らず、さまざまな領域に適用できる。
対話型AI:1回の長い推論よりも、ユーザーとの対話の中で逐次修正するほうが正確な対応ができる。
ロボティクス:事前に全行動を計算するよりも、リアルタイムで環境に適応するほうが効率的。
経営判断:完璧な計画を立てるよりも、市場の変化に応じて柔軟に戦略を修正するほうが成功しやすい。
つまり、タスクが長期かつ複雑になるほど事前推論スケーリングの優位性は単体では機能しなくなり、かわりに「タスクを適切な流動に細分化し、各ステップで状況判断や逐次修正ができる」ことが重要になる。
逆を言えば、モデルが多少ショボかろうと、十分にタスクが細分化されており、各ステップで軌道修正ができるならば、多くのタスクは好成績をおさめられるだろう。実際は深い推論モデルで事前プランやシナリオツリーを作り、それからステップごとの軌道修正を速いモデルでなんどもやっていく。
ミサイルは発射前に基本的な弾道計算を行うが、飛行中には風や迎撃システム、目標の移動などの影響を受けるため、リアルタイムで軌道を補正するシステムが必要になる。
多くの現実空間のタスクは動的な環境に依存しており、事前計算の精度以上に、途中での軌道修正の回数が重要になってくると思われる。言語化すれば、とても単純なことなのだが、LLMの性能向上においてあまり議論されていない気がする。
つまりタスクをうまく分解して、途中での中間軌道修正を多くとることができる設計なら、大規模な学習やコストなしに大幅な精度向上を期待できるの
と予測している。(最終的にはステップ数をあげすぎるとレイテンシが下がるので、最適値の探索が必要になる…が、原則としてはステップ数が多いほど有利)。
スゲェモデルとか、スゲェファインチューンとか、スゲェ並列運用アンサンブルとか… そういうのの前に、タスク中に方向転換ややり直しできる回数を増やすんや。そうすれば、性能がかなりい感じにあがるんや。たぶん。
…というようなことを、素人ながらに思ってるのだけど、実際のところはどうなんだろう?
いいなと思ったら応援しよう!
いただいたサポートは、コロナでオフィスいけてないので、コロナあけにnoteチームにピザおごったり、サービス設計の参考書籍代にします。