そもそも、AGIに到達したかどうかを一発で判定する共通テストは、実は研究コミュニティにも存在しない。
最近の流れは、AGIという言葉の曖昧さをそのまま放置せず、「どれだけ幅広いことができるか」「どれくらい人間並み、あるいはそれ以上か」「どの程度ひとりで動けるか」という複数の軸で、成熟度として捉えようとする方向に寄っている。
たとえば今は、性能・一般性・自律性を組み合わせて段階評価する考え方がかなり実務寄りだと受け止められている。
単一の試験に合格したらAGI、というより、「このモデルは汎用性がここまで来ていて、自律性はこの段階」という語り方のほうが、安全評価や比較に使いやすい、という感覚だ。
一方で、現実世界でどれだけ役に立つか、つまり「経済的に価値のある仕事をどれだけ人間以上にこなせるか」を基準にしよう、という定義も根強い。ただこれは、どの仕事を対象にするのか、どう測るのか、安全にできているのか、という点が一気に難しくなる。
また、暗記や既知問題ではなく、初めて見る課題への適応力、いわゆる流動性知能に注目する評価もある。
これは汎用性の弱点を照らすには有効だけれど、それ単体でAGI宣言をするというより、あくまで一要素として扱われている。最近はさらに、ツール使用や長期計画を含めたエージェントとして、仕事に近い複合タスクをどこまで安定してやり切れるか、失敗から立て直せるか、といった観点が重くなってきている。
では、いつAGIに到達するのかというと、目処は立っていない。
ただし予測の分布自体は前倒しになってきていて、集合知ベースの予測では2030年前後を中心に確率が集まりつつある。
一方で、そもそも到達宣言の基準が曖昧で、投資や契約といった利害も絡む以上、「何年に到達」と断言すること自体が難しい、という冷静な指摘も根強い。
現実的に起こりそうなのは、AGIかどうかを白黒つけるよりも、レベル枠組みで汎用性の段階を合意しつつ、初見適応系のベンチマーク、実務タスク評価、自律性や安全性の評価を束ねて見る、という運用だろう。