Swapping the Nested Fixed Point Algorithm: A Class of Estimators for Discrete Markov Decision Models

Swapping the Nested Fixed Point Algorithm: A Class of Estimators for Discrete Markov Decision Models
V Aguirregabiria, P Mira - Econometrica, 2002

内容の前に、ひとつ。
とにかくNotationが分かりやすい&書き方が分かりやすい。まだDynamic Optimizationの推定系の論文を読んでない人はこれから読み始めるのがいいと思う。簡単にRustとかHMとかの解説も載ってるから、ホントにいいと思う。
RustのCIの仮定がどんな意味とか、ちゃんと解説してくれてる。

でも、ブログ的にはRustとかHMの記事を読んでから読んだほうが分かりやすいです。

Introduction

RustではModelをFullに計算して、(Choice Probabilityの)Likelihoodを最大化するような推定方法を提示している。これによって、効率的な推定値が得られる一方で、計算量も多くなる。
一方で、Hotz and Millerはバリューファンクションを実際には解かないで、Choice ProbabilityのMoment Condition的なものを作って推定する方法を提示した。これは計算量を減らすことには成功したが、Finite Sampleでも漸近的にも効率性を犠牲にしている。
そこで、この論文ではその中間に位置して、かつRust並みの効率性を達成するような方法を提示している。

Rust

Rustでは、
1.パラメータが与えられたもとでバリューファンクションを解く
2.バリューファンクションからChice Probabilityを求める
3.Likelihoodを高めるようなパラメータの値を探す
っていう仮定を経る。パラメータ探しの中にFixed Pointとしてのバリューファンクションを解く過程が入っているのでNested Fixed Point Algorithm(NFXP)という。

HM

1.データからConditional Choice Probabilityが与えられる
2.1で得た確率を元にValue Functionの差を求める
3.そこから最適化問題を解いてCCPをPredictする
4.Predicted CCPと1のCCPの距離を最小化するようなパラメータを探す
っていう感じ。CCP Estimatorって呼ばれてる。

AM

では、この論文は何をしてるのか?ざっくばらんにいうと、両方の手法を組み合わせている。
HM的に考えると、選択確率は確率→VF→確率の不動点になっている。

1.まず適当な確率をGuessする
2.そこからHM的な確率へのMappingを考える
3.上のMappingはパラメタに依存しているので、(一回っきりのMappingで得られる)Likelihoodを最大化するようなパラメタを選ぶ
つまり、Pseudo-likelihood
 \sum \log \left( P(a_t |x_t, P_k, \theta_k) \right)
を最大にするようなΘをΘkとしてアップデートする
4.そこで得られる新たなCCPをPk+1としてアップデートする。つまり、PkとΘkからHM的なMappingで新たなPを得るってことです。
5.2に戻って、Θk+1とPk+1をアップデートする
っていう工程を収束するまで繰り返すっていうものです。彼らはNested Pseudo Likelihood Algorithm(NPL)って読んでます。
ここで求められる推定値がNFXPの推定値と同じであることも示しています。(With 若干のCondition)

結論

ある意味、Policy Function Iterationみたいな感じでしょうか。普通の問題でもValue Function IterationよりPolicy Function Iterationの方が計算が速い(し結果も同じ)ので、それと似たものを感じます。
著者たちはその後漸近正規性とかも示しています。ホントは読みたかったし、読みやすそうではあったのですが、時間がないのでスキップ。ちょっと悔やまれるので、後日読んでここに加えるかもしれません。