King and Nielsen (WP 2016) なぜ傾向スコアをマッチングに使うべきでないのか?


 先日の研究会でKingらの傾向スコアマッチング使うな論文がとりあげられたのでメモ.この論文の存在はあまりにも有名だが,実はちゃんど読んでいないという人が多い気がする(そのうちの一人だった).

Gary King and Richard Nielsen. 2016. “Why Propensity Scores Should Not Be Used for Matching”. Working Paper.

  一番わかりやすいのはまずはKingのレクチャーをみた後に本文を読むという順番だと思う.ごく簡単に結論をまとめると,傾向スコアマッチングを使うと,マハラノビス距離マッチングやCoarsened Exact Matching (CEM:大まかな属性で厳密なマッチングをする方法)に比べて,モデル依存(推定モデルによって結果が変わる程度)やインバランス(本文ではAbadie and Imbens (ECTA 2006)のMahalanobis Discrepancy を指標としている)の程度が大きくなってしまう.ハイライトは本文中のFig1~3で,この図からは(1)傾向スコアは最も似ている(近い)人とのマッチングができていない,(2)傾向スコアを基準にマッチング相手を枝刈り(prune)していくとモデル依存とインバランスの程度が大きくなってしまうことがわかる.

 ではなぜこんなことが起こってしまうのかというと,傾向スコアマッチングが近似しようとしている実験状況に理由がある.以下の表の通り,マッチングをするうえでは完全にブロックしたうえでランダムな割り当てをする方法が,ブロックなしの完全なランダム化よりも様々な統計的性質の面で望ましい.例えばImai et al. (SS 2009)では,完全にブロックしたうえでランダムな割り当てはブロックなしの完全なランダム化よりも標準誤差が約600%も小さいことが報告されている.

共変量のバランス 完全なランダム化 完全にブロック(層化)したうえでのランダム化
観察されている共変量 平均的にバランスする 完全にバランス(一致)する
観察されていない共変量 平均的にバランスする 平均的にバランスする

 そのうえで,傾向スコアマッチングが近似しようとしているのは完全なランダム化である.これは共変量を1次元の指標にして,共変量とは独立にトリートメントの効果を推定しようとしていることからも明らかである(本文中に書かれているが1対1マッチングにおいて同じ傾向スコアのマッチング相手がいたらランダムにどちらかを選ぶ).それに対して,マハラノビス距離やCEMなど他の方法は完全にブロック(層化)したうえでのランダム化に近似しようとしている(各共変量の距離を計算するので).したがって,傾向スコアマッチングよりもマハラノビス距離マッチングやCEMの方が望ましいということである.

 というわけで,Kingらはマッチングをする際にはマハラノビス距離やCEMを利用することを薦めている.ただし,傾向スコアが数式的に問題があるというわけでなく,またマッチング以外に傾向スコアを用いることについては今回の指摘はあてはまらないと繰り返している.それでも傾向スコアマッチングを使いたい場合にはFig3にあるように,枝刈りに応じたインバランスの程度を必ず示して,傾向スコア基準ではバランスは改善されているはずなのに実際にはインバランスが大きくなっていないかを確認すべきであると指摘する.

 ルービンたちに気を遣ってか「傾向スコアは数式に問題があるわけでなく実践面で問題があるのだ」と繰り返されているが,これは実際の分析では強く無視できる割り当てが担保できていないことを含意しているのだろう(そこで感度分析をするわけだが).よくわからなかったのは,シミュレーションのデータ生成過程.2つの共変量それぞれについてUniform(0,5)でコントロール,Uniform(1,6)でトリートメントをランダムに発生させているのだけど,一般的に傾向スコアマッチングを使う際にはトリートメントが共変量との何らかの関連のもとで発生する状況を想定する.この場合にも今回と同じような結果になるのかについては書かれていなかった気がする(ただそれでもマハラノビス距離やCEMはうまくいってるからトリートメントのデータ生成過程に関しても一般的な結果なのだろうか).アペンディックス等にあるのかもしれないけど,シミュレーション自体は簡単なので後で試してみたい.

 それとこのWPが出たのは結構前なんだけど,まだパブリッシュされていないのは査読が長いのか,それとも何かあったんだろうかというのは研究会で話題になった.