👍

新しい相関係数の理論的性質

に公開

はじめに

あるデータの組み合わせが手元にあるとき、それらがどれほど依存関係にあるのか?というのはデータを触っていると自然に湧いてくる疑問だと思う。
データの依存関係を見る時、「相関係数」なるものを計算するのは大半の人が行うと思うが、この相関係数は「ピアソンの相関係数」を指すことがほとんどであろう。この相関係数は Y = aX + b という線形の関係を捉えることはできる。

と、ここまで書いてたのだが、つい先日 Qiita にこんな記事が投稿された。
https://qiita.com/Islay_tr/items/dd427ba86ba11bd25626
まさにこういう話をしたかったので完全に先を越されてしまった。悔しい…
だがせっかくなので、実はこの相関係数は「バイアス」があると指摘した論文についてでも紹介しようかと思う。以下はarXivに投稿されたワーキングペーパーをベースにしたものである
https://arxiv.org/abs/2508.09040

注意:以下は夜中に勢いで書いたので、構成とか変わる可能性がある

Chatterjeeの相関係数

近年話題を集めている新しい相関係数は以下の論文が出発点である

  • Chatterjee, S. (2021). A new coefficient of correlation. Journal of the American Statistical Association, 116(536), 2009-2022.

https://www.tandfonline.com/doi/abs/10.1080/01621459.2020.1758115

  • Azadkia, M., & Chatterjee, S. (2021). A simple measure of conditional dependence. The Annals of Statistics, 49(6), 3070-3102.

https://www.jstor.org/stable/27170947

モチベーションは非常にシンプルで

  • -1\leq\xi\leq 1 を満たして、
  • \xi=\pm 1 だったらデータ同士に依存関係があり、
  • \xi=0 だったら依存関係がなく、
  • しかも計算が容易である

をできる限り幅広いデータで満たすような相関係数を提案したいというもの

それに対して次のような指摘がされている

  • 最近傍ベースの場合、バイアスが生じる(不偏性がない)
    • 一般に \mathbb{E}[\hat{\theta}_{n}] = \theta のように推定量の期待値が真値になることを不偏性があるという。これがないということは、推定量には何かしらのバイアスが載っていることになる

相関係数の定義

議論の土台として少し定義をしておく

  • 観測されているデータは (X,Y) の組み合わせで、X\in\mathbb{R}^{d}, Y\in\mathbb{R} とする。つまり関心のある変数が Y で、その他観測されている色んな変数を X でまとめているとイメージすればいい
  • このとき母集団における指標 (Dette-Siburg-Stoimenov dependence measureという)は以下で定義される
    • ここで、1(\cdot) は指示関数で、中身が真なら1, そうでなければ0を取る関数である
T = T(Y,X) = \dfrac{\int\mathrm{Var}(\mathbb{E}[1(Y\geq t)\mid X])d\mu(t)}{\int\mathrm{Var}(\mathbb{E}[1(Y\geq t)])d\mu(t)}
  • Chatterjeeが提案したのはこれをデータから実際に推定する方法で、データの中で一番近いもの同士(最近傍ベース)で計算する。
    • (X_{1},Y_{1}),\cdots,(X_{n},Y_{n}) が観測されているとき、各 Y_{i} ごとに以下を計算する。解釈としては R_{i}i 番目のデータ Y_{i}Y の小さい方から並べて何番目にあるかを表し、N_{i}X_{i} に一番近い別のデータを選んでいる
R_{i} = \sum_{j=1}^{n}1(Y_{j}\leq Y_{i}),\ \ N_{i}=\arg\min_{j\neq\ i}\|X_{i}-X_{j}\|

この定義の下でChatterjeeの最近傍ベースの相関係数は以下で定義される

\hat{T}_{n} = \hat{T}_{n}(Y,X) = \dfrac{6}{n^{2}-1}\sum_{i=1}^{n}\min\{R_{i},R_{N(i)}\}-\dfrac{2n+1}{n-1}

データが手元にあるときに、順位を計算しつつ一番近いデータがどれかという対応さえ作ることができれば計算できてしまうので使い勝手が良いというメリットがあるのが売りポイントである

新しい相関係数の弱点

これに対して実はバイアスがあるというのが Lemma 3.1 で(先行研究の結果を引用する形で)示されている。ざっくり紹介すると次のようなバイアスを持つ

\mathbb{E}[\hat{T}_{n}] - T = 6L + O(n^{-1})

O(n^{-1}) はサンプルサイズ n が増えるほど 0 に近づくので、要は問題ない項であるが、1つ目の 6L が問題である。

L = \underbrace{\mathbb{E}[1(Y_{2}\leq \min \{Y_{1}, Y_{N(1)}\})]}_{\text{最近傍で計算したとき}} - \underbrace{\mathbb{E}[1(Y_{2}\leq \min\{Y_{1}, \tilde{Y}_{1}\})]}_{真の分布で計算したとき(理想)}

ちょっと複雑だが

  • Y_{N(1)}X_{1} の最近傍に対応する Y の値
  • \tilde{Y}_{1}X=X_{1} が与えられたときの、Y の条件付き分布から独立にサンプリングした値

である。これを読み解くとバイアスが起きる原因は X_{1} に一番近いデータを選んで相関係数を計算したときと、X_{1} で条件付けてサンプリングしたもので相関係数を計算したときでズレが生じるところにある。理想的な状況ではこの2つは統計的に区別できないはずなのだが、そうではないことをこの結果が示唆している

ただ、幸いなことにバイアスの構造が分かっているので、このバイアス項を引いたもので推定してあげれば不偏性を達成することができるのもこの結果が示唆するところである(いわゆるバイアス修正と呼ばれる操作)。

Bias Correction

細かい説明をすると大変なので、バイアス修正の方法はざっくり解説するに留める。興味がある人は上の元論文を読んでください。

  1. あるデータ X_{i} とその最近傍 N(i) でペアを作る
  2. 別のデータ Y_{j} を閾値 t とする
  3. Y_{i}\geq t であるかどうかの予測確率を X_{i}X_{N(i)} それぞれ使って求める
  4. その積を計算して、X_{i} を使って予測した確率の2乗を引く
  5. これを全部のペアで計算して平均を取る。それがバイアス項 L の推定量 \hat{L}_{n} である

何をしているかと言うと、「もしバイアスが生じるならそれは一番近いデータを探すことで自分自身と少しズレているところが原因で、それが積み重なるとバイアスが大きくなる。もし完全に近隣のデータが一致していれば4で計算したものがゼロになるはずだから、そうでない部分の大きさを計算して平均を取ればバイアスが推定できるはず」というもの

ちなみに予測確率の計算はノンパラメトリックにやるのでそこの部分で少し実装が複雑になってしまうのが弱点ではある。バイアスを認めてシンプルな計算にするか、多少複雑な実装をしてもいいからバイアスを除いたものを計算するかは状況次第であろう。重要なのは 新しい相関係数にはバイアスがあるよ を認識することだと思う。

以下はシミュレーション結果で、高次元 (d=10) かつ相関 \rho を 0 から 0.9 まで刻んで相関係数を計算したものである。\hat{T}^{bc} がこのペーパーで提案しているバイアス修正をしたものに対応する。実は相関が小さいとき (\rho がゼロに近い) は修正前のほうがパフォーマンスがいいのだが、相関が大きくなるほどバイアス修正したときのパフォーマンスが圧倒するようになることがわかる

あと注目すべきはECP、すなわち被覆率と呼ばれるもので「生成したデータから算出した 95% 信頼区間が真の相関係数の値を含む確率」が95% に近いほど望ましいとされる評価指標なのだが、\rho が大きいときにほとんど棄却できていないのに対して、バイアス修正をするとどのケースでも95% 付近を達成していることがわかる。

この結果は、信頼区間が真の値を含む確率がほぼ理論通りであり、バイアス修正をしないと正確な統計的推論ができない可能性が高い ことも示唆しており、バイアス修正の重要性がわかる結果である。

Discussion