EfficiNetX’s Tech Blog

株式会社EfficiNet Xのテックブログです

マルチエージェントAI特集② (1/N) Theory of Mind for Multi-Agent Collaboration via LLM

この記事ではLLMがマルチエージェントシステムでどのように応用されうるかを提案した論文を紹介します。

心の理論(Theory of Minds)

人間はチームワークをするとき、チームメートがどのような状況でどんな行動をどのような意図で行うかを推測します。例えば、サッカー選手は見方がどのような意図で走ったり、ドリブルをしているかを察知しているはずです。味方の意図に合わせて自分の行動(スペースに走ったり、ボールを要求したり)を決めます。逆にパスがつながらなかったときは互いの意図を推測するのに失敗したということです。「他者が何を考えているか」を研究するのは発達心理学などでも研究されてきたことであり(例:「サリーとアン課題」)、AIエージェントも人間のように他者の思考をうまく推測できるかは非常に面白いトピックであり、応用は多岐にわたります。
今回は、他者の心の状態、目的、意図、知識、信念、志向、疑念、推測などを推測する直観による心の機能である「心の理論」をLLMエージェントが獲得できるかについて研究した以下の論文を紹介します。

aclanthology.org

信念状態

心の理論では、あるエージェントが考えていることを「信念状態」といいます。たとえば、サッカーの例だと、「このスペースに向かってドリブルすればチャンスになる」とか「バックパスをした方が相手が前がかりになってスペースがうまれやすい」などです。サッカーに限らず人間は何をやるにしても何かしらの意図や予測をして行動を決定しています*1。
言うまでもなく、チームワークをするときは相手の信念状態をうまく予測しなければいけません。 さて、LLMエージェントにチームワークをさせるにはどうすればよいでしょうか。本論文では以下の3点に着目しています。

  • 0次ToM (Theory of Mind) 推論LLMエージェントが自身の信念状態を明確に表現できる能力があるか
  • 1次ToM エージェントが他者の信念状態を推定できるかどうか
  • 2次ToM 他者が自身の信念状態について何を考えているかを推論できるかどうか

実験設定

本論文で扱っている問題設定を少し説明します。読み飛ばして大丈夫です。雰囲気としては、エージェントが3人いて、それらが爆弾処理をします。エージェントどうしは爆弾があとどれくらいで爆発しそうであるかや、その爆弾のワイヤーを切るかなど何かしらの行動をします。

細かい問題設定

3人のエージェント(Alpha、Bravo、Charlie)が未知の環境に分散しています。色つきの爆弾の位置を特定し、安全に解除することを目的としたチームです。各爆弾は3色のいずれかで、それぞれの色は爆弾のフェーズを表します。解除には正しい順序のワイヤーカッターが必要です。 チームメンバーはそれぞれ異なる色のカッターを持ってゲームを始めます。 環境は連結グラフとして概念化され、5個のノードは廊下(エッジ)でつながった5個の部屋を表します。各ラウンドにおいて、エージェントは以下の3つの行動から一個選択します。 - 5個の部屋のうちの1つに移動する - 現在の部屋にある爆弾のフェーズを検査する - 3個のワイヤーカッターのうちの1つを使用する

エージェントの観測は、現在の部屋の中身とエージェントのステータスに限定されます。チームのスコア、現在の部屋の中身、チームメイトの位置、利用可能なツールについては、定期的に更新されます。 x段階の爆弾が解除されると、チームには 10 xポイントが与えられます。

image.png

問題設定の概要(論文の図を引用しています。)

LLM エージェント

本論文では、チームワークを行うにあたってエージェントが信念状態を明示的に保持するのが望ましいといっています。図1の例では、AlphaがCommunication MessageとしてBravoから受け取ったメッセージをもとに自分の信念を更新しています。ここで信念とは環境についての情報と言っていいかもしれません。 ゲームの得点はLLMエージェントが信念(Belief)状態を明示的に保持している場合の方が高いです。 image.png ちなみにMAPPOはマルチエージェント深層強化学習の有名な手法です。

創発現象および0, 1, 2次ToM

チームワークが必要な今回の爆弾処理タスクですが、創発現象ともとれる現象が確認されています。具体的には、ある一人のエージェントがリーダーとなり、他の二人に指示を送ります。下の図上部では、AlphaがBravoとCharlieに指示を送り, 二人が指示通りに行動しているのが分かります。 また下の図下部を見ると、LLMエージェント(+信念状態)は0, 1, 2次ToMを保持しているといえそうです。

次回予告

次回はオープンソースのLlama3.2 3B-Instractを用いて協調行動ができるかを検証してみます。

このブログは株式会社EfficiNet Xのテックブログです。

efficinetx.co.jp

*1:部分観測マルコフ決定過程では、「信念状態は実際の(真の)状態に今どのくらいいるかを表す確率」のことです。