MathJax.Hub.Config({ tex2jax: { inlineMath: [['$', '$'] ], displayMath: [ ['$$','$$'], ["\\[","\\]"] ] } }); この記事ではマルチエージェント深層学習の初期のアルゴリズムであるCOMAアルゴリズムを紹介します。 元の論文はFoerster et al. Counterfactual Multi-Agent Policy Gradients. AAAI, 2018.です。 導入 TD法と方策勾配法について復習します。 TD法 強化学習で頻繁にマルコフ過程は仮定します。となれば, ある状態 の…