傾向スコアの本来の目的とその特性

はじめに

傾向スコアに関して思うところを今回は記事にしていきたいと思います。

偶に、傾向スコアに関してtwitterで呟くことがあるのですが、多くの人が抱いてる傾向スコアが持つべき性質に関して勘違いがあるのではないかと思い、この記事を書くに至りました。

傾向スコアの目的

傾向スコアはどのような目的で導出されているか、皆様は理解しているでしょうか?私が多く見聞きするのは、「傾向スコアとは介入確率であり、介入が行われる確率を精度よく予測できるモデルを構築し、その確率を傾向スコアと呼ぶべきだ」といった言説です。形式上、介入群を1、対照群を0とし、1となる確率を予測するモデルを組み、そのモデルによって予測された確率値を傾向スコアと呼ぶわけですから、単純に考えれば、このような見解が広まるのは理解できます。

しかし、傾向スコアの本来の目的はそこにはありません。本記事では、傾向スコアマッチングに焦点を当てつつ、傾向スコアが本来持つべき特性について述べていきたいと思います。

私は、傾向スコアの本来の目的は共変量分布の要約値であると考えています。そして、傾向スコアマッチングの目的は、傾向スコアによって非常に共変量分布の近しい対照群を見つけ、介入群1人に対しての潜在結果(介入が行われなかった場合の結果)を適切に推定することであると解釈しています。この解釈は、IPW(Inverse Probability Weighting)など他の手法においても傾向スコアが共変量分布の要約値であることを前提としている点と一致します。

傾向スコアの本質:共変量分布の要約値

RosenbaumとRubin(1983)は次のように述べています:

"The propensity score is a balancing score: given the propensity score, the distribution of observed baseline covariates will be similar between treated and control units." (傾向スコアはバランシングスコアである。傾向スコアが与えられると、介入群と対照群の観測された基準共変量の分布は類似する。)

この「バランシングプロパティ(Balancing Property)」が傾向スコアの本質です。具体的には、以下の条件が成り立ちます:

すなわち、傾向スコア に条件付けした場合、介入の有無 と共変量 は独立となります。この特性により、傾向スコアを利用した手法がバイアスを削減し、因果効果の推定を可能にします。

また、この特性が重要である理由は、現実の観測データでは共変量分布が介入群と対照群でしばしば異なるためです。この差異がある限り、介入効果の推定にはバイアスが生じます。傾向スコアを用いることで、共変量分布を調整し、介入効果の推定をより正確に行えるのです。

傾向スコアマッチングの意義

傾向スコアマッチングの目的は、介入群と対照群の共変量分布を調和させ、因果効果をバイアスなく推定することです。これについてRubin(2001)は次のように述べています:

"Matching on the propensity score can yield unbiased estimates of treatment effects if the propensity score model is correctly specified." (傾向スコアに基づくマッチングは、傾向スコアモデルが正しく指定されている場合、介入効果のバイアスのない推定値を提供する。)

傾向スコアマッチングのプロセスは次のように進みます:

  1. 傾向スコアモデルの構築(例:ロジスティック回帰)。

  2. 傾向スコアに基づくマッチング(例:1対1マッチング、カリパーマッチング)。

  3. マッチング後のバランス確認。

  4. マッチングデータに基づく因果効果の推定。

この中核にあるのが、傾向スコアのバランシングスコアとしての性質です。この性質により、共変量分布が近い個体同士をペアリングでき、結果として正確な潜在結果の推定が可能になります。

たとえば、医療研究において新薬の効果を評価する際、年齢や性別、基礎疾患といった共変量が介入群と対照群で異なることがあります。傾向スコアを用いてこれらの共変量を調整することで、新薬の効果をより厳密に検証することが可能になります。

傾向スコアの導出におけるロジスティック回帰の役割

傾向スコアモデルを構築する際に、ロジスティック回帰がよく用いられるのは、以下の理由からです。

  1. 単純性と解釈の容易さ:ロジスティック回帰はモデルが比較的単純で、傾向スコアを明示的に計算することができます。また、変数の影響を解釈しやすい点が研究者に支持されています。

  2. バランシングプロパティの保証:ロジスティック回帰を用いると、バランシングプロパティを適切に満たす傾向スコアが導出されることが多いです。高精度を追求する非線形モデル(例:勾配ブースティング)では、共変量分布が過剰に調整されるリスクがあります。

  3. 推論の信頼性:ロジスティック回帰は、統計的推論に必要な特性(例:分布仮定、線形性)を満たしているため、因果推論の文脈で安全に利用できます。

これに対し、勾配ブースティングなどの高精度なモデルを用いる場合、予測精度が向上する一方で、以下の課題が生じます。

  • 過学習のリスク:複雑なモデルは過学習に陥りやすく、バランシングプロパティが損なわれる可能性があります。

  • ブラックボックス性:モデルが複雑であるため、傾向スコアがどのように計算されたのか解釈が困難になります。

  • 外挿のリスク:一部の共変量範囲で極端な値を生成する可能性があり、重み付け手法(IPWなど)で不安定性を引き起こします。

したがって、傾向スコアの目的が「共変量分布の要約値としてのバランシングスコア」である点を考慮すると、ロジスティック回帰の利用が適している場合が多いといえます。

さらに、傾向スコアモデルの選択は、単に予測精度を追求するのではなく、目的に適合した結果を得ることを重視する必要があります。因果推論の観点では、解釈可能性と適切なバランスの確保が最優先事項となるのです。

最後に

というわけで、傾向スコアを導出するモデルは確率を正確に予測できる勾配ブースティング系のモデルの方がいいのような言説が間違っていることはご理解いただけたでしょうか?

傾向スコアの本来の目的は、「共変量分布の要約値としてのバランシングスコア」ということを常に頭に入れたうえで傾向スコアを扱うことが、正しい傾向スコアの使用につながると思います。

最後までお読みいただきありがとうございました。

markdown形式で書かなくて良いというのは非常に楽ですね...