目的状態Gへの距離を定量化し、意思決定を最適化する。
1. ベイズ更新で事後分布P(S|X,θ)計算
2. 最適化問題: a* = argmin{D(P(S|X(a),θ(a))‖P_G) + C(a)}
3. 逐次更新でD(P(S|X1:t,θ)‖P_G)改善
このようなゲームの分析により、ゲーム理論/ベイズ統計/情報理論が自然に統合できる。
Permalink | 記事への反応(2) | 14:48
ツイートシェア
発想は良さそうだけど、もっと具体化してくれんとわからんわ 現実問題の目標を確率分布P_Gにどう定義するのか 現実の問題って一見遠回りに感じるところが近道だったりするんですぐに...
というか結局それって強化学習じゃね。状態価値関数を最大にするその時々のa(t)を求めていくっていう a(t) = argmax(V(s(t); a(t))) s(t+1) ~ P(s(t), a(t))