EfficiNetX’s Tech Blog

株式会社EfficiNet Xのテックブログです

NeurIPS2024 マルチエージェントの動向

NeurIPS2024では"Multi-Agent"が題名に入っている研究が34件ありました。
それらのいくつかをトピックごとに紹介します。

マルチエージェント深層強化学習

訓練方法/最適化手法についての提案・改善

  • Li et al.の研究では、パラメータ共有によってポリシーが均質化してしまうことを防ぐ新しいアプローチを提案しています。パラメータ共有による訓練の効率化を維持しながらポリシーの多様性を促進できます。
  • マルチエージェント強化学習を模倣学習に応用した研究が二つあったのも興味深いです(Bui et al.とTang et al.)。人間の行動履歴をエキスパートデータとして学習し、人間が思いつかないようなチームプレーを創出するのが目的です。
  • Hu et al.では、大きなモデルをいかに効率よく学習させるかとして、Dynamic Sparse Training (DST)のマルチエージェントへの拡張を提案しています。DSTとは最適な「疎な」ニューラルネットワークのパラメータを見つけるテクニックのことです。
  • Heterogeneousなエージェント群についての学習手法についても研究があります。Heterogeneous設定では、エージェントの方策を一個ずつ逐次的に更新していきます。一個前までのエージェントの方策を見て更新していきますが、これでは一個前までのエージェントの方策に自分の方策の更新が強く依存してしまいます。この問題を防ぐために適切にエントロピー項を設計し、より幅広く探索させることを意図した研究があります(Dou et al.)。
  • 拡散モデルを用いた手法も出始めています。Zhu et al.では、拡散モデルによってオフラインデータにはないようなtrajectoryを生成し、マルチエージェントの学習を効率化させています。
  • McClellan et al.ではマルチエージェント環境が時に対象性を持つことに着目します(下図参照。本文より引用)対称性といえばGraph Neural Networkですが、本論文ではGNNがマルチエージェント深層強化学習の学習を助けることを紹介しています。

  • 他にもマルチエージェント深層強化学習のためのドメイン適応を行う研究(Jiang et al.)や安全性を担保する研究(https://nips.cc/virtual/2024/poster/93564)もあります。

新モデルの提案

  • D. Lee et al.は動物の認知プロセスから着想を得て、各エージェントがあるキャラクター(特性のようなもの)を帯びていると考えます。そして、エージェントたちは他のエージェントの観測と行動のペアからそのエージェントのキャラクターを推測し、今後の行動を予測します。
  • 階層型のチームの研究として、Ding et al.があります。この論文では、上位レベルのエージェントは下位レベルのエージェントよりも先に意思決定を行い、上位エージェントがその行動を下位エージェントに伝達します。こうすることで、チームプレーの実現をスムーズにしています。理論的には、SeqCommによって学習されたポリシーは、単調に改善され、収束することが保証されていることを証明しています

マルチエージェント×LLM

  • 最近の研究では、LLMにRLHF (Reinforcement Learning from Human Feedback)が効果的といわれています。特にPPOを使用した一般的なRLHFは下の3つの図で説明できます。
    まず、事前学習時にはなかった情報をPretrained modelに教え込ませるSupervised Fine Tuning (SFT)を行います。その次に、あるプロンプトに対するある回答がどれくらい良いかを評価する報酬モデルを訓練します。これは人間が複数の回答候補をランク付けしたものを教師データとします。これがHuman Feedbackと言われる理由です。最後にSFTによって訓練された言語モデルを方策モデルとして、報酬モデルと合わせて強化学習の最適化アルゴリズムであるPPOによってそれらを訓練します。 Ma et al.ではこのFine Tuning作業を複数のエージェントで行うことで精度の向上をはかっています。
    SFTの概要
    報酬モデルの訓練の概要
    PPOの概要
    • また、"Language Grounded Multi-Agent"(言語に基づくマルチエージェント)の研究も盛んに行われています。エージェントどうしが人間には解読できない通信プロトコルでコミュニケーションを取ってほしくない状況もしばしばあります。たとえば、ロボットと人間の共同作業などです。Li et al.の研究ではチームワークに大事な抽象的なコミュニケーション空間と自然言語の埋め込み空間をうまく整合させることで、新しいタスクにもチームワークができるようにしています。
  • ほかにも金融分野への応用(Yu et al.)やGithubのissue解決への応用(Tao et al.)もあります。

その他の応用研究

マルチエージェントの応用研究も複数あります。複数の風力発電機の協調制御を扱ったMonroc et al.や自動運転を扱ったLiu et al.やWu et al.、数学の問題を解くためのLLMプロンプト技術の提案したLei et al.などがあります。

ライブラリ/ベンチマーク

オープンソースのライブラリやベンチマーク環境の発表も目につきました。 RutherfordらのJAXによるマルチエージェント深層強化学習ライブラリ(JAXMARL)やマルチエージェント研究のためのベンチマークツール(BenchMARL)などがあります。

このブログは株式会社EfficiNet Xのテックブログです。 efficinetx.co.jp

マルチエージェントAI特集② (1/N) Theory of Mind for Multi-Agent Collaboration via LLM

この記事ではLLMがマルチエージェントシステムでどのように応用されうるかを提案した論文を紹介します。

心の理論(Theory of Minds)

人間はチームワークをするとき、チームメートがどのような状況でどんな行動をどのような意図で行うかを推測します。例えば、サッカー選手は見方がどのような意図で走ったり、ドリブルをしているかを察知しているはずです。味方の意図に合わせて自分の行動(スペースに走ったり、ボールを要求したり)を決めます。逆にパスがつながらなかったときは互いの意図を推測するのに失敗したということです。「他者が何を考えているか」を研究するのは発達心理学などでも研究されてきたことであり(例:「サリーとアン課題」)、AIエージェントも人間のように他者の思考をうまく推測できるかは非常に面白いトピックであり、応用は多岐にわたります。
今回は、他者の心の状態、目的、意図、知識、信念、志向、疑念、推測などを推測する直観による心の機能である「心の理論」をLLMエージェントが獲得できるかについて研究した以下の論文を紹介します。

aclanthology.org

信念状態

心の理論では、あるエージェントが考えていることを「信念状態」といいます。たとえば、サッカーの例だと、「このスペースに向かってドリブルすればチャンスになる」とか「バックパスをした方が相手が前がかりになってスペースがうまれやすい」などです。サッカーに限らず人間は何をやるにしても何かしらの意図や予測をして行動を決定しています*1。
言うまでもなく、チームワークをするときは相手の信念状態をうまく予測しなければいけません。 さて、LLMエージェントにチームワークをさせるにはどうすればよいでしょうか。本論文では以下の3点に着目しています。

  • 0次ToM (Theory of Mind) 推論LLMエージェントが自身の信念状態を明確に表現できる能力があるか
  • 1次ToM エージェントが他者の信念状態を推定できるかどうか
  • 2次ToM 他者が自身の信念状態について何を考えているかを推論できるかどうか

実験設定

本論文で扱っている問題設定を少し説明します。読み飛ばして大丈夫です。雰囲気としては、エージェントが3人いて、それらが爆弾処理をします。エージェントどうしは爆弾があとどれくらいで爆発しそうであるかや、その爆弾のワイヤーを切るかなど何かしらの行動をします。

細かい問題設定

3人のエージェント(Alpha、Bravo、Charlie)が未知の環境に分散しています。色つきの爆弾の位置を特定し、安全に解除することを目的としたチームです。各爆弾は3色のいずれかで、それぞれの色は爆弾のフェーズを表します。解除には正しい順序のワイヤーカッターが必要です。 チームメンバーはそれぞれ異なる色のカッターを持ってゲームを始めます。 環境は連結グラフとして概念化され、5個のノードは廊下(エッジ)でつながった5個の部屋を表します。各ラウンドにおいて、エージェントは以下の3つの行動から一個選択します。 - 5個の部屋のうちの1つに移動する - 現在の部屋にある爆弾のフェーズを検査する - 3個のワイヤーカッターのうちの1つを使用する

エージェントの観測は、現在の部屋の中身とエージェントのステータスに限定されます。チームのスコア、現在の部屋の中身、チームメイトの位置、利用可能なツールについては、定期的に更新されます。 x段階の爆弾が解除されると、チームには 10 xポイントが与えられます。

image.png

問題設定の概要(論文の図を引用しています。)

LLM エージェント

本論文では、チームワークを行うにあたってエージェントが信念状態を明示的に保持するのが望ましいといっています。図1の例では、AlphaがCommunication MessageとしてBravoから受け取ったメッセージをもとに自分の信念を更新しています。ここで信念とは環境についての情報と言っていいかもしれません。 ゲームの得点はLLMエージェントが信念(Belief)状態を明示的に保持している場合の方が高いです。 image.png ちなみにMAPPOはマルチエージェント深層強化学習の有名な手法です。

創発現象および0, 1, 2次ToM

チームワークが必要な今回の爆弾処理タスクですが、創発現象ともとれる現象が確認されています。具体的には、ある一人のエージェントがリーダーとなり、他の二人に指示を送ります。下の図上部では、AlphaがBravoとCharlieに指示を送り, 二人が指示通りに行動しているのが分かります。 また下の図下部を見ると、LLMエージェント(+信念状態)は0, 1, 2次ToMを保持しているといえそうです。

次回予告

次回はオープンソースのLlama3.2 3B-Instractを用いて協調行動ができるかを検証してみます。

このブログは株式会社EfficiNet Xのテックブログです。

efficinetx.co.jp

*1:部分観測マルコフ決定過程では、「信念状態は実際の(真の)状態に今どのくらいいるかを表す確率」のことです。

マルチエージェントAI特集① COMAアルゴリズム

この記事ではマルチエージェント深層学習の初期のアルゴリズムであるCOMAアルゴリズムを紹介します。 元の論文はFoerster et al. Counterfactual Multi-Agent Policy Gradients. AAAI, 2018.です。

å°Žå…¥

TD法と方策勾配法について復習します。

TD法

強化学習で頻繁にマルコフ過程は仮定します。となれば, ある状態  s の価値関数 V(s) を知りたい. 各episodeでtrajectory (履歴)として $$ \{ (s_0, a_0, r_0), (s_1, a_1, r_1), \ldots, (s_{T - 1}, a_{T - 1}, r_{T - 1}) \} $$ が得られるので、これらを使って価値関数を学習させていきます。

方策勾配法

方策勾配法は主にactor-criticベースの手法で使われます。actorがpolicy(方策) ${\pi}_{{\theta}}( {a} | {s})$を司り、ある状態 sでどのような行動$a$をするかを出力する. criticは価値関数$V(s)$や行動価値関$Q({s}, {a})$を推定する. 重要な定理として, 以下の方策勾配定理がある.

方策勾配定理(informal)
方策$\pi_{\theta}(a|s)$の下での累積報酬の期待値を$J(\theta)$とする. 以下が成り立つ. $$ \nabla_{\theta}J(\theta) = \mathbb{E}_{\pi_{\theta}} \left[ \sum_{t = 1}^{T} \nabla_{\theta} \log (\pi_{\theta}(a_{t} | s_{t}) (Q^{\pi_{\theta}}(s, a) - b(s)) \right]. $$

詳しい解説などは「強化学習」(森村哲郎著, 講談社)に載っています。 ここで, $b(s)$は状態$s$にのみ依存するベースライン関数と呼ばれるものです。ベースライン関数の選び方で分散の大きさが決まってくる. 様々なベースライン関数が研究されている.

方策勾配法を用いたものに, REINFORCE法(Williams, 2019)がある. 各エピソードの履歴$(s_0, a_0, r_0), (s_1, a_1, r_1), \ldots, (s_{T - 1}, a_{T - 1}, r_{T - 1})$を得るたびに, $$ c_{t} := \sum_{l = t}^{T - 1}r_{l}, \quad \forall t \in { 0, 1, \ldots, T - 1 } $$ と計算して, パラメータを以下のように更新する: $$ \theta \leftarrow \theta + \alpha \frac{1}{T} \sum_{t = 0}^{T - 1} (c - b(s_{t}))\nabla \log \pi_{\theta}(s_{t}, a_{t}) $$ 注意するべき点は、モンテカルロサンプリングによって$Q$を推定していることから, REINFORCEはactor-criticではなく、criticなしの方策勾配法ということです。

actor-criticメソッドの場合は, $b(s) = V(s)$として, アドバンテージ関数 $ A(a_{t}, s_{t}) = r_{t} + V(s_{t + 1}) - V(s_{t}) $を用いて, 以下のようにパラメータを更新する. $$ \theta \leftarrow \theta + \frac{1}{T} \sum_{t = 0}^{T - 1} \nabla_{\theta}\log \pi_{\theta}(a_{t}|s_{t}) A(a_{t}, s_{t}) $$

ここで使われる$V(s)$はcriticが推定したものを使うのである. (off-policyの場合はアドバンテージ関数として, $A(a_{t}, s_{t}) = r_{t} + \max_{a \in \mathcal{A}} Q^{\pi_{\theta}}(s_{t + }, a)$とする.)

本題

N体のエージェントについて考える. 素朴な方法として各$i\in \{ 1, \ldots, N \}$番目のエージェントの方策勾配を一律 $$ G = \nabla_{\theta}\log \pi_{\theta}(a_{t} | s^{i}_t) \left( Q(s_{t}, a_{t}) - V\left( s_t \right) \right) $$ と定めたとします。ここで, $s_{t}$と$a_t$はそれぞれ全エージェントのjoint stateとjoint actionであり, $r_t$は全エージェント共通のrewardです。これだとそのエージェントの行動がどれくらい全体の報酬に貢献したかうまく推論しづらい ("Credit Assignment Problem")が発生します。他のエージェントがうまい方策を探索している最中だと, $G$はノイジーになり, 自分の方策をうまく改善できない場合があります。

提案手法

学習を安定させるためにアドバンテージ関数を工夫しなければいけないというのが出発点です。ベースライン関数を変更します。直観的には, 「ほかのエージェントがそのままの行動を取った時に自分(エージェント$i$)の今の方策はどれくらい良いか」が知りたいです。COMAはこの直観を以下のアドバンテージ関数を構築することで知ろうとします。 $$ A^{i}(s, a) = Q(s, a) - \sum_{u_{i} \in \mathcal{A}} \pi_{\theta} (u_{i}, H_{i} ) Q(s, (\mathbf{u}^{- i}, u_{i})) $$ ここで$u_{i}$はエージェント$i$の行動, $\mathbf{u}^{-i}$はエージェント$i$以外の行動を固定した時の行動ベクトル, $H_{i}$はエージェント$i$の行動・観測履歴です。

実験

最後にCOMAアルゴリズムを動かしてみたいと思います。コードはこちらにあります。

実験環境

考える環境は以下の通りです。 図のように、4つのエージェント(紫、青、緑、オレンジ)がそれぞれ自分の色と同じ色で塗られているマスに移動したいとします。 具体的には、紫、青、緑、オレンジはそれぞれ座標(0, 0)、(0, 5), (6, 0), (5, 6)を出発して、それぞれの対角線上である座標(5, 6), (5,. 0), (0, 6), (0, 0)に移動したいという状況です。

マルチエージェントの環境

エージェントたちは各時間ステップでそのマスにとどまるか、左右上下のマスに移動することができます。 黒く塗られているマスには移動できません。アクションは1だと上、2だと右に、3だと下に、4だと左に、0だとその場にとどまる、という具合です。 各時間ステップの報酬は以下のように、ゴールまでのユークリッド距離とします。つまり、 $$ \sum_{i = 1}^{4} ( x_{i} - x^{goal}_{i} ) ^2 + (y_{i} - y^{goal}_{i}) ^{2} $$ です。

モデル

  • Actor: 二次元の座標を入力として、5ステップまでを記憶して、GRUで行動を出力する
  • Critic: 入力は盤面全体を9チャネルの画像として見ます. 1~4チャネルが各エージェントの位置を、5~10チャネルが行動を各エージェントの行動を表します. この入力をCNNで行動価値関数の値を出力します.

結果

結論から言うと結果は微妙です。まずサンプル効率性が良くないし, トレーニング中の分散も大きいです。

以下のように、上手くいくと4人のエージェントがうまくそれぞれのゴールに到達する場合がありますが(下図参照), 大半の場合はこうはならず、誰かしらが同じ場所にとどまってしまったりします.

感想

COMAアルゴリズムはマルチエージェント深層強化学習の分野では最先端の技術とは言えません. しかし, "Counterfactual"というアイデアは面白いです. 人間も「自分がもし仮に他の行動をしていたら、チーム全体のパフォーマンスはどうなっていただろう」と考えることはよくあると思います。

このブログは株式会社EfficiNet Xのテックブログです。

efficinetx.co.jp

マルチエージェント深層強化学習

ここではざっくりマルチエージェントAIについて紹介したいと思います。

å°Žå…¥

マルチエージェントシステム

まずマルチエージェントシステムについて紹介します。

マルチエージェントシステムとは複数のロボット(あるいは人)がそれぞれ自律的に意思決定し、相互に影響を及ぼし合うようなシステムのことです。ロボット(エージェント)が複数(multiple)いるからマルチエージェントという名前がついています。 例えば、サッカーは11エージェントvs11エージェントのスポーツと言えます。人間はトレーニングを積んでいくと、チームメートの動きを見て自分がどう動けばいいかを自律的に判断できるようになります。例えば、どこら辺のポジションを取ればいいのか、誰にパスを出せばよいのか、などです。

また、株式市場もマルチエージェントシステムといえます。各投資家がエージェントにあたり、それぞれ自分の利益だけを最大化しようとします。

マルチエージェントシステムへの期待

このように、チームで協力したり、まわりと競い合って自己の利益を追求する現象は日常生活にあふれています。 これをロボットにもやらせてみよう、というのがマルチエージェントシステム研究の出発点です。つまり、ロボットが協力し合ってタスクを解いたり、群衆のなかで上手く他者を出し抜いて生き残ったりすることをさせてたい、ということです。

機械学習とマルチエージェントシステム

マルチエージェントシステムを考える上で機械学習なしで語るのは難しいでしょう。

以下では、「機械学習×マルチエージェントシステム」について議論します。その中でも特にエージェントどうしが協力し合って共通の課題を解くCooperative Settingについて見ていきます。

難しさとその面白さ

ロボットにチームワークを教えこむとなると、以下のよう難しさ(面白さ)があります。

  • 自分のプレー選択がどれくらいチームのパフォーマンスに影響しているかを定量的に評価するには?
  • 計算時間を抑えるために各エージェントの意思決定方法(強化学習でいう方策)を同時に更新した場合、チームワークのバランスが崩れたりしないか?サッカーでいうと、ボールホルダーはパスを選択したが、周りの味方はドリブルを開始すると思って反応できなかった、などがその例。

研究分野

機械学習×マルチエージェントの分野として代表的なものを二つ紹介します。

マルチエージェント深層強化学習

深層学習を使ってAIが自律的に賢くなることを研究する深層強化学習 (Deep Reinforcement Learning)はよく知られています。これを拡張し, 複数のエージェントが同時にそれぞれ自律的に賢くなる方法論を研究するマルチエージェント深層強化学習というものがあります。2017年あたりから海外を中心に発展を遂げてきている分野です。

代表的なアルゴリズムに以下のようなものがあります。

  • QMIX [ICML2018]
  • Multi-Agent Proximal Policy Optimization (MAPPO) [NeurIPS2022]
  • Multi-Agent Transformer [NeurIPS2022]
  • Heterogeneous-Agent Soft Actor-Critic (HASAC) [ICLR2024]

このブログでは以上のようなアルゴリズムを今後紹介していきます。

LLM×マルチエージェント(「心の理論」)

人間はチームワークをするとき、他所の行動やその意図を推測します。発達心理学で「サリーとアン課題」というものがありますが、他者の視点でものを考えることに関する研究は様々な分野に及びます。

人が他者の心の状態、目的、意図、知識、信念、志向、疑念、推測などを推測する直観による心の機能のことを「心の理論」と呼びます(wikipedia引用)。コンピュータソフトが「心の理論」を手に入れるかは非常に興味深い問いです。近年、LLM(Large Language Model)が「心の理論」に近いものを手に入れられるかどうか、という研究などが出ています。例えば、Li et al. (EMNLP2023)がそれにあたります。

他にも、以下の例のようにLLM×マルチエージェントの論文がちらほら出ています。これらについても、今後このブログで扱っていきたいと思います。

  • Huao et al. Language Grounded Multi-agent Reinforcement Learning with Human-interpretable Communication. NeurIPS, 2024.
  • Zhang e al. Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration. arXiv:2405.14314.

日本における研究動向

マルチエージェント深層強化学習の研究だと、海外の研究チームではJakob N. Forester先生の研究チームやShimon Whitesonなどが有名です。

海外に比べると, 日本ではマルチエージェントAI、特にマルチエージェント深層強化学習の研究はあまり盛んに行われていないように思われます。「マルチエージェントシステム」と打つと上に出てくるのは豊田中央研究所のホームページなどがあります。 「マルチエージェント深層強化学習」と打つと元松尾研究室の今井さんのスライドが出てきます。 いずれにせよ、マルチエージェント深層強化学習やLLM×マルチエージェントAIを日本で専門にやっている研究者や研究チームは極めて少ないというのが現状だと思います。

最後に

ロボットどうしが協調・協力することは今後ますます重要になってくると思います。 すでにスマート倉庫などでは複数のAGV(無人搬送車)が協調して物を運んでいます。街中にロボットが分散して物流を担う時代がやってくる未来もそう遠くないと思います。 ドローンやトラック, 配送ロボットが組み合わさってマルチモーダルな物流網の実現がカギになります。マルチエージェントシステムは将来の物流網の要となる技術になることが予想されます。 それ以外にも, 

チームスポーツの新しい戦術の発明 戦地でのロボット(ドローン、トラック、ロボット)の協調行動 複数台ロボットの巡回パトロール 会社内での複数部門のAIの協調(例えば、生産計画AIと配送計画AIの協調によるサプライチェーン最適化など)

など、応用が多岐にわたります。

今後このブログではマルチエージェントAIについて発信し続けたいと思います。

次回もお楽しみに。

このブログは株式会社EfficiNet Xのテックブログです。

efficinetx.co.jp