Bayes Independence Test - HSIC と性能を比較する-

問題

離散の場合

連続の場合

HSIC

実験

まとめ

Bayes Independence Test - HSIC と性能を比較する -

鈴木譲
大阪大学

人工知能学会基本問題研究会 (宮古島)
2014 年 3 月 3 日

Bayes Independence Test - HSIC と性能を比較する 1 / 19

問題

離散の場合

連続の場合

HSIC

実験

まとめ

ロードマップ

1

問題

2

離散の場合

3

連続の場合

4

HSIC

5

実験

6

まとめ


問題

離散の場合

連続の場合

実験

HSIC

まとめ

問題: (x1 , y1 ), · · · , (xn , yn ) から、X ⊥ Y か否かを検定
⊥
相互情報量: I (X , Y ) :=

∑∑
x

PXY (x, y ) log

y

PXY (x, y )
PX (x)PY (y )

I (X , Y ) = 0 ⇐⇒ X ⊥ Y
⊥
Hilbert Schmidt independent criterion: 相関係数の非線型化
相関係数 (X , Y ) = 0

⇐=
X ⊥ Y
⊥
̸=⇒

HSIC (X , Y ) = 0 ⇐⇒ X ⊥ Y
⊥

独立性検定 (X ⊥ Y か否か)
⊥

(x1 , y1 ), · · · , (xn , yn ) から、I (X , Y ), HSIC (X , Y ) を推定

問題

離散の場合

連続の場合

HSIC

実験

まとめ

相互情報量の推定 (最尤推定)
X , Y : 離散
In (x n , y n ) :=

∑∑
x

y

ˆ
Pn (x, y ) log

ˆ
Pn (x, y )
ˆ
ˆ
Pn (x)Pn (y )

ˆ
Pn (x, y ): (x1 , y1 ), · · · , (xn , yn ) での (X , Y ) = (x, y ) の相対頻度
ˆ
Pn (x): x1 , · · · , xn での X = x の相対頻度
ˆ
Pn (y ): y1 , · · · , yn での Y = y の相対頻度
In (x, y ) → I (X , Y ) (n → ∞)
X ⊥ Y であっても、確率 1 で、In (x n , y n ) > 0 が無限回生じる
⊥
独立性検定をどのように構成するか ({ϵn } の設定) が不明

In (x n , y n ) < ϵn ⇐⇒ X ⊥ Y
⊥
X , Y が連続のときに、どのように一般化されるのかが不明

問題

離散の場合

連続の場合

HSIC

実験

まとめ

相互情報量の Bayes 推定の提案: 離散
Lempel-Ziv アルゴリズム (lzh, gzip など)
x n = (x1 , · · · , xn ) を圧縮して、z m = (z1 , · · · , zm ) ∈ {0, 1}m
1

.

2

m
PX によらず、圧縮率
がエントロピー H(X ) に収束
n
∑
.
2−m ≤ 1 (Kraft の不等式)
n
n
QX (x n ) := 2−m とおくと、m = − log QX (x n ) は圧縮後の長さ

.

n
n
QY (y n ), QXY (x n , y n ) も定義し、X ⊥ Y の事前確率を p として
⊥

Jn (x n , y n ) :=

n
(1 − p)QXY (x n , y n ) .
1
log
n (x n )Q n (y n )
n
pQX
Y


問題

離散の場合

連続の場合

HSIC

実験

まとめ

MDL(minimum description length) 原理
例から、各モデルについて、
モデルの記述
モデルを仮定したときの例の記述

の長さの合計を最小とするモデルを選択
する情報量基準 (Rissanen, 1976)

1
1
n
n
log QX (x n ) − log QY (y n )
n
n
1
n
MDL(X ̸⊥ Y ) := − log(1 − p) − log QXY (x n , y n )
⊥
n

MDL(X ⊥ Y ) := − log p −
⊥

一致性

n → ∞ で、MDL 最小のモデルが真のモデルと確率 1 で一致

問題

離散の場合

連続の場合

HSIC

実験

まとめ

相互情報量の Bayes 推定の提案: 離散 (続)
MDL の一致性から、独立性検定の一致性が証明される
Jn (x n , y n ) ≤ 0 ⇐⇒ MDL(X ⊥ Y ) ≤ MDL(X ̸⊥ Y )
⊥
⊥
α := |X |, β := |Y | として、
Jn (x n , y n ) ≈ In (x n .y n ) −

(α − 1)(β − 1)
log n
2n

Jn (x n , y n ) ≤ 0 ⇐⇒ In (x n , y n ) ≤ ϵn :=

(α − 1)(β − 1)
log n
2n

Jn (x n , y n ) → I (X , Y ) (n → ∞)
O(n) の計算量

Suzuki 2012 では、p =

1
を仮定していた
2

問題

離散の場合

連続の場合

HSIC

実験

まとめ

ユニバーサル性: 離散
任意の PX について、

m
1
n
= − log QX (x n ) → H(X )
n
n
i.i.d. であることと、大数の強法則から、任意の PX について、
1
1∑
n
− log PX (x n ) = −
log PX (xi ) → E [− log PX (X )] = H(X )
n
n
n

i=1

したがって、任意の PX について、

P n (x n )
1
log X n → 0
n
n
QX (x )


問題

離散の場合

連続の場合

HSIC

実験

まとめ

ユニバーサル性: 連続
正則条件のもとで、
任意の密度関数 fX について、

f n (x n )
1
log X n → 0
n
n
gX (x )
∫ ∞
g n (x n )dx ≤ 1
−∞

なる

n
gX

が存在する (Ryabko 2009)

正則条件の仮定の除去

2 変数以上でも成立
離散でも連続でもない確率変数についても成立

(Suzuki 2013)

問題

離散の場合

連続の場合

n
gX

実験

HSIC

まとめ

の構成
(k)

(k)

(1)

(1)

レベル k での量子化: x n = (x1 , · · · , xn ) → (a1 , · · · , an )
レベル 1

E

レベル 2

E

.
.
.

n
Q1 (a1 , · · · , an )
(1)

(1)

(2)

(2)

λ(a1 ) · · · λ(an )
(2)
n (2)
Q2 (a1 , · · · , an )
λ(a1 ) · · · λ(an )

.
.
.
(k)

レベル k

.
.
.
(1)

n
gX (x n ) = w1 ×

.
.
.

(1)

λ(a1 ) · · · λ(an )

(k)

n
Qk (a1 , · · · , an )
(k)

(k)

λ(a1 ) · · · λ(an )
(k)

(1)

n
Q1 (a1 , · · · , an )
(1)

E

+· · ·+wk ×

(k)

n
Qk (a1 , · · · , an )
(k)

(k)

λ(a1 ) · · · λ(an )

+· · ·


離散の場合

連続の場合

HSIC

実験

まとめ

相互情報量の Bayes 推定の提案: 一般の場合
相互情報量の Bayes 推定量

Jn (x n , y n ) :=

n
(1 − p)gXY (x n , y n )
1
log
n
n
n
pgX (x n )gY (y n )

.

(通常の密度関数ではなく、離散の場合を含めることができる)
.

MDL 原理の一般化と思える
MDL(X ⊥ Y ) := − log p −
⊥

.

問題

1
1
n
n
log gX (x n ) − log gY (y n )
n
n

MDL(X ̸⊥ Y ) := − log(1 − p) −
⊥

1
n
log gXY (x n , y n )
n

予想: 一致性

n → ∞ で、MDL 最小のモデルが真のモデルと確率 1 で一致

問題

離散の場合

連続の場合

HSIC

実験

まとめ

Jn (x , y ) → I (X , Y ) (n → ∞)
n

n

証明: x n , y n が i.i.d.、大数の強法則から、任意の fX について、
n
n
fXY (x n , y n )
fXY (x n , y n )
1
1∑
log n n n n =
log n n n n
n
fX (x )fY (x )
n
fX (x )fY (x )
n

i=1

fXY (XY )
→ E [log
] = I (X , Y )
fX (X )fY (Y )

Jn (x n , y n ) − I (X , Y )
f n (x n , y n )
f n (x n )
f n (y n )
1
1
1
= − log XY n n + log X n + log Y n
n
n
n
n
gXY (x , y ) n
gX (x ) n
gY (y )
n
fXY (x n , y n )
1
1
1−p
+ log n n n n − I (X , Y ) + log
n
fX (x )fY (x )
n
p
→ 0

問題

離散の場合

連続の場合

HSIC

実験

まとめ

HSIC
相関係数 cov (X , Y ) の非線形化
確率変数
値域
RKHS
kernel

X
X
F: 基底 {fi }
k :X ×X →R

HSIC (PXY , F, G) =

∑

Y
Y
G: 基底 {gj }
l :Y ×Y →R

cov (fi (X ), gj (Y ))2

i,j

k が universal のとき、HSIC (PXY , F, G) = 0 ⇐⇒ X ⊥ Y
⊥

例: Gaussian kernel は、universal
k(x, y ) = exp{−(x − y )2 /2}

問題

離散の場合

連続の場合

HSIC

実験

まとめ

HSIC 適用の問題点
HSIC (PXY , F, G) の推定量
1
K = (k(xi , xj )), L = (k(yi , yj )), H = (δi,j − n ) として、

HSIC (x n , y n , F, G) =

.

1
tr (KHLH)
(n − 1)2

n → ∞ で、確率 1 で、
HSIC (PXY , F, G) → HSIC (PXY , F, G)
となる証明がない

.

H0 : X ⊥ Y の危険率 α を設定した検
⊥
定で、採択域 {ϵn } の設定が難しい
{x n , y n |HSIC (x n , y n , F, G) ≤ ϵn }
O(n3 ) の計算量 (不完全 Cholesky 分解
で近似しても O(n2 ))

問題

離散の場合

連続の場合

HSIC

実験

まとめ

実験
X

1

.

Y
1
E
r1 2
B
¨0
0 r
¨
2 r¨¨
r
¨ r
p
rE 1
1 ¨¨
j
r
1−p
[

2

(X , Y ) ∼ N(0, Σ), Σ =

1
ρ

ρ
1

]

I (X , Y ) = HSIC (X , Y ) = 0
1
⇐⇒ p = ⇐⇒ X ⊥ Y
⊥
2
, −1 < ρ < 1

I (X , Y ) = HSIC (X , Y ) = 0 ⇐⇒ ρ = 0 ⇐⇒ X ⊥ Y
⊥
.

3

P(X = 0) = P(X = 1) = 1 , Y ∼ N(aX , 1), a ≥ 0
2
I (X , Y ) = HSIC (X , Y ) = 0 ⇐⇒ a = 0 ⇐⇒ X ⊥ Y
⊥


問題

離散の場合

連続の場合

HSIC

実験

まとめ

実験 1
n = 100 のときの誤り率
真の p
→ 推定した p

提案

= 0.5 → p
= 0.4 → p
= 0.3 → p
= 0.2 → p
= 0.1 → p

0.084
0.758
0.333
0.048
0.001

p
p
p
p
p

̸= 0.5
= 0.5
= 0.5
= 0.5
= 0.5

4
0.306
0.507
0.139
0.018
0.000

HSIC
しきい値 (×10−4 )
8
12
16
0.135 0.077 0.043
0.694 0.787 0.860
0.251 0.396 0.505
0.035 0.083 0.135
0.001 0.005 0.010
↑

20
0.022
0.908
0.610
0.201
0.021


問題

離散の場合

連続の場合

HSIC

実験

まとめ

実験 2
n = 100 のときの誤り率
ρ

提案

0.0
0.2
0.4
0.6
0.8

0.095
0.628
0.168
0.008
0.000

HSIC
しきい値 (×10−3 )
2
4
6
8
0.338 0.036 0.006 0.00
0.298 0.676 0.884 0.97
0.008 0.088 0.300 0.512
0.000 0.000 0.002 0.006
0.000 0.000 0.000 0.000
↑

Gaussian kernel で、Gauss 分布の場合、HSIC はかなり良い性能を
示している。

問題

離散の場合

連続の場合

実験

HSIC

まとめ

実行時間

n
提案
HSIC

実行時間 (秒)
100 500 1000
0.30 0.33 0.62
0.50 9.51 40.28

2000
1.05
185.53


問題

離散の場合

連続の場合

HSIC

実験

まとめ

まとめ
成果

.

原理
強い問題
しきい値
事前確率
計算時間
強一致性

提案
Bayes(事後確率最大)
離散
不要
必要
O(n)
証明されている

HSIC
危険率一定で、検定力最大
連続
必要
不要
O(n3 )
証明されていない

.

離散や連続によらない MDL の一般化による独立性の検定
.

課題
実験による提案方法の実現の最適化
一般化 MDL の一致性 (予想) の証明

Bayes Independence Test - HSIC と性能を比較する-

Recommended

More Related Content

What's hot (20)

Similar to Bayes Independence Test - HSIC と性能を比較する- (20)

More from Joe Suzuki (20)

Bayes Independence Test - HSIC と性能を比較する-