人工知能(AI)については多くの懸念が生まれているが、その1つに「人間の仕事が奪われるのではないか」というものがある。こうした懸念は根拠がないわけではないが、少なくとも今のところは誇張されたものになっている可能性を指摘する、新たな研究が発表された。
リモート労働指数
AIが人と同じくらい効率的にプロジェクトを完了できるかどうかを測るため、ある研究グループは複数のAIに一連の作業プロジェクトを遂行させた。これらのプロジェクトは、ゲーム開発や製品デザイン、建築、データ分析、ビデオアニメーションなどで、実験の前にすでに人間のフリーランスワーカーによって、すでにリモートで遂行されたものだ。
さまざまな難易度を持つこれらのタスクは、人間によって遂行された時には、完了までに1万ドルの費用と100時間を超える時間を要した。AIによる自動化と人間によるリモートワークの成果を比較するため、研究チームは「リモート労働指数 (Remote Labor Index:RLI)」というベンチマークを設定した。
各AIモデルの実績は
研究チームの説明によると、RLIの目的は、現実世界に存在し、経済的価値を持つ多くの長期プロジェクトを自動化するAIの能力を検証することにある。これらのプロジェクトは、リモートワークのプラットフォームからピックアップされたものだ。
この研究で使用されたAIモデルは、「Manus」「Grok 4」「Sonnet 4.5」「GPT-5」「ChatGPT エージェント」「Gemini 2.5 Pro」だった。
では、これらのAIモデルの実績はどうだったかというと、あまり良いとは言えない結果が出た。
研究者チームは次のように述べている。「AIシステムは既存の多くのベンチマークは満たしているものの、RLIに関しては、最新鋭のAIエージェントでも、最低水準に近い成績になることが判明した。最高性能のモデルでも、達成された自動化率は2.5%にとどまる。これは、現代のAIシステムが、大多数のプロジェクトを、外部に依頼した仕事として受け入れられる品質レベルでは完了できないことを示している」
Manusはパフォーマンスが最も高く、自動化率が2.5%だった。Grok 4とSonnet 4.5はともに2.1%で、1.7%のGPT-5、1.3%のChatGPT エージェントが続いた。Geminiは0.8%で最下位だった。

提供:Andriy Onufriyenko via Moment / Getty Images
この記事は海外Ziff Davis発の記事を4Xが日本向けに編集したものです。


