Andrew 先生の説明がとてもわかりやすかったのでメモです。カルバック・ライブラー情報量(KL divergence)を用いる事なく、イェンゼンの不等式のみで自然に展開していました。
凸関数 – convex function
f’’(x) > 0、また x がベクトルの場合はヘシアン H >= 0 の時、f(x) は凸関数。f’’(x) > 0 とは x が大きくなるにつれ接線の傾き f’(x) も大きくなるということ。全ての x で、下図の (1) -> (2) -> (3) のような変化が成り立つ f(x) のこと。
イエンセンの不等式 – Jensen’s inequality
f(x) が凸関数の時、E[f(x)] >= f(E[x]) が成り立つ。これがイェンゼンの不等式。
図を見れば直感的にわかるのだが、今仮に xは a,b の2点しか取れないとすると、f(E[x])より、f(x)の期待値(この場合 f(a)とf(b)の平均値)E[f(x)] のほうが大きくなる。
EM アルゴリズム – EM algorithm
概要
目的: X, Z 両方の、完全データを知る事。
前提:しかし実際に観測できるのは X だけで、(例えばxの発生起源を示す)Z は潜在変数であり、観測されない。
方法:観測できる X のデータを用いて、母集団の統計モデルの潜在変数 Zを最尤推定する、こと。
観測したXを最もよく説明しうるパラメータθを探す。この方法がEMアルゴリズム。θが求まれば、p(Z|X,θ) = p(X,Z|θ) / p(X|θ) のように、観測した任意のXに対するZを推定できる。
最大化したい(対数)尤度関数
目的は対数尤度 l(θ) = Σ log p(x;θ) を最大化する θ を探す事だが、混合分布のような場合だと難しい。しかしもしzが観測できたとしたら、 log p(x,z;θ) の最大化は容易である(*)ことが多い。
(*)この仮定は、p(x,z;θ)がガウス分布などの指数分布族の時のみ成り立つのだろうか。そうでなくても成り立つ?最初から尤度関数の対数で考えてるあたり、指数分布族で log を打ち消す気満々のように思える。
l(θ)の最大化を一発でやらず、lの下限値を求め、その下限値に合うようにθを調節、を繰り返し行うことで、単調増加させていくという方法。
ここでとある確率分布 Qi を考える。確率分布なので、 z について ΣQi(z) = 1, Qi(z) >= 0を満たす。このQi(z) を挟んで(2)式にする。
(2)→(3)の展開で早速イェンゼンの不等式を使う。まず、
は、分布Qに従う z について、p(x,z;θ) / Q(z) を期待値とった形。”zi~Qi”の記号はその意味。また、f(x) = log x は凹関数である。(f(x)” = -1 / x^2 < 0 を満たす。)なので凸関数の逆で下記が成り立ち、ち、(2)→(3)の展開はこれそのもの。
(3)式は l(θ)の下限値を示している。あらゆるQについて(3) 式は成り立つが、ではどんなQを選ぼうか。
下限値となる右辺を最も小さくするような Q、つまり(3)式で等号を成り立つQ を選びたい。イェンゼンの不等式が等式になる答えとは、 f(x) が一定(定数)の時、となる。
最初読んだ時には、なぜ l(θ) を最大化することと(3)式を等号にすることが関係あるのかわからなかったが、(2)式と(3)式を別々に考えるといより、Qを調節することで(2)式の、f(E[x}) と(3)式のE[f(x)]を同時に動かすイメージ。
l(θ)(= f(E[x])) が最大となる天辺の値を選択するようにするには、逆説的にE[f(x)]とくっついてしまえば天辺以外の点は選べなくなる。全てのxに対してくっつくということは f(x) は定数しかない、ということになる。
もう一度読み返してみると、
Well, if we have some current guess θ of the parameters, it seems natural to try to make the lower-bound tight at that value of θ.
たしかに tight という言葉を使っている。(3)式の右辺を小さくする、と受け取るとわからなくなってしまう。ここがこの導出方法のキモな気がしました。
(3)式に戻ると、p(x,z;θ) / Q(z) = c が成り立つQとは、p(x,z;θ) に比例する値ということになる。
Qの満たさなければいけない条件として、ΣQi(z) = 1 がある。これを満たすことを考えると、 1行目の形で正規化。あとはベイズの定理。Qi(z) = p(Z|X;θ) の形が自然に得られた。
EMアルゴリズムが収束する理由( = l(θ)が単調増加する理由)の説明
l(θ(t)) <= l(θ(t+1)) となることを証明する。
(4)式は以下の(3)式のθ をθ(t+1)に置き換えただけ。
(4)式から(5)式は下記のM-stepの結果から。
(5)式から(6)式はE-stepそのもの。
イェンゼンの不等式に尽きる。