2026-01-03

そもそも、AGIに到達したかどうかを一発で判定する共通テストは、実は研究コミュニティにも存在しない。

最近の流れは、AGIという言葉曖昧さをそのまま放置せず、「どれだけ幅広いことができるか」「どれくらい人間並み、あるいはそれ以上か」「どの程度ひとりで動けるか」という複数の軸で、成熟度として捉えようとする方向に寄っている。

 

たとえば今は、性能・一般性自律性を組み合わせて段階評価する考え方がかなり実務寄りだと受け止められている。

単一試験合格したらAGI、というより、「このモデル汎用性がここまで来ていて、自律性はこの段階」という語り方のほうが、安全評価比較に使いやすい、という感覚だ。

一方で、現実世界でどれだけ役に立つか、つまり経済的価値のある仕事をどれだけ人間以上にこなせるか」を基準にしよう、という定義も根強い。ただこれは、どの仕事対象にするのか、どう測るのか、安全にできているのか、という点が一気に難しくなる。

 

また、暗記や既知問題ではなく、初めて見る課題への適応力、いわゆる流動性知能に注目する評価もある。

これは汎用性の弱点を照らすには有効だけれど、それ単体でAGI宣言をするというより、あくまで一要素として扱われている。最近さらに、ツール使用や長期計画を含めたエージェントとして、仕事に近い複合タスクをどこまで安定してやり切れるか、失敗から立て直せるか、といった観点が重くなってきている。

 

では、いつAGIに到達するのかというと、目処は立っていない。

ただし予測分布自体は前倒しになってきていて、集合知ベース予測では2030年前後を中心に確率が集まりつつある。

一方で、そもそも到達宣言基準曖昧で、投資契約といった利害も絡む以上、「何年に到達」と断言すること自体が難しい、という冷静な指摘も根強い。

 

現実的に起こりそうなのは、AGIかどうかを白黒つけるよりも、レベル枠組みで汎用性の段階を合意しつつ、初見適応系のベンチマーク、実務タスク評価自律性や安全性の評価を束ねて見る、という運用だろう。

経済価値ベース定義を採る場合でも、「どの職能を、どんな条件と制約で測るのか」という設計のもの議論の中心になる。

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん