2025-02-14

相対エントロピー最小化による戦略的状況の定式化

目的状態Gへの距離定量化し、意思決定最適化する。

定式化
プロセス

1. ベイズ更新で事後分布P(S|X,θ)計算

2. 最適化問題: a* = argmin{D(P(S|X(a),θ(a))‖P_G) + C(a)}

3. 逐次更新でD(P(S|X1:t,θ)‖P_G)改善

まとめ

このようなゲーム分析により、ゲーム理論/ベイズ統計/情報理論自然統合できる。

  • 発想は良さそうだけど、もっと具体化してくれんとわからんわ 現実問題の目標を確率分布P_Gにどう定義するのか 現実の問題って一見遠回りに感じるところが近道だったりするんですぐに...

  • というか結局それって強化学習じゃね。状態価値関数を最大にするその時々のa(t)を求めていくっていう a(t) = argmax(V(s(t); a(t))) s(t+1) ~ P(s(t), a(t))

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん