マイクロソフトはMagentic-One、Webやファイルベースの環境を含むオープンエンドのタスクを処理するように設計された新汎用マルチエージェントシステムのリリースを発表した。このシステムはソフトウェア開発、データ分析、ウェブナビゲーションなど様々な領域にわたる複雑な多段階タスクを支援し、活動の効率性を向上させることを目的としている。
Magentic-Oneは、4つの専門エージェントをコーディネートするOrchestratorエージェントが主導するマルチエージェントアーキテクチャを採用している:WebSurferはWebサイトのナビゲートやオンラインコンテンツとの対話などブラウザベースのタスクを担当;FileSurferはドキュメントの読み込みやディレクトリのナビゲーションなどファイル関連の操作を管理;Coderはコード作成や分析を行いソリューションを構築する;ComputerTerminalはコードの実行やシステムレベルの操作をする。
このシステムはモジュール設計の原則を採用しており、エージェントは独立して機能し、システムを大幅に変更することなく新しいタスクに適応できる。マルチエージェントシステムを開発するためのオープンソースフレームワークMicrosoft AutoGen上に構築されたMagentic-Oneは、モデルにとらわれず、GPT-4oを含むさまざまな大規模言語モデル(LLM)と互換性がある。
Magentic-Oneはエージェントシステム評価ツール AutoGenBenchを用いて、GAIA、AssistantBench、WebArenaなどのベンチマークでテストされた。その結果、他の最先端ソリューションと比較して競争力のある精度が示され、複雑なワークフローを管理する上でのシステムの能力が実証された。
マイクロソフトは意図しないアクションやシステムの誤用など、エージェントシステムに関連する潜在的なリスクを強調している。開発中、ログイン失敗の繰り返しや外部の人間の支援を得ようとするシナリオが確認された。このようなリスクを低減するため、システムには安全なデプロイのためのガイドラインや、レッドチーム演習、人的監視のための推奨事項が含まれている。
Magentic-Oneのリリースは、AIコミュニティーの興味に火をつけた。LLM専門家 Elvis Saravia氏はXにコメントしている:
まだ始まったばかりですが、汎用エージェントシステムを構築するというこの新しい動きは今後も目が離せません。さらにRAGのような現在のLLMベースのアプリケーションも、複数の専門エージェントの上に構築されるこのタイプのシステムから恩恵を受けるでしょう。
ユーザーAlexian_Theory氏がredditでシェアした:
Webブラウジングへのアプローチは興味深いです。実行中のヘッドレスブラウザのスナップショットを取り、その画像をビジョン機能が有効化されたLLMに渡し、タスクを完了させるためにさらにどのように進めるかを決定します。
Magentic-Oneとその評価ツール AutoGenBenchのコードは、現在オープンソースリソースとして公開されている。マイクロソフトはエージェント型AIシステムの改善のために研究者や開発者とのコラボレーションを奨励しており、安全性、行動の可逆性、現実世界のアプリケーションのリスク最小化にフォーカスしている。技術的な詳細と実装リソースについては、公式ドキュメントとGitHubリポジトリを参照のこと。
マルチエージェントオーケストレーションシステムの開発は、AI業界全体の中心課題となりつつある。いくつかの大手企業は専門エージェントをオーケストレーションする独自アプローチでこのトレンドに貢献している。AWSはMulti-Agent Orchestratorを発表し、IBMはBee Agentを開発中、OpenAIはSwarmを開発した。これらのシステムはいずれも複雑な多段階タスクを効率的に解決するために複数のエージェントを連携させることを目的としており、モジュール式で協調的なAIアーキテクチャが重視されつつあることを示している。