EM アルゴリズム

Andrew 先生の説明がとてもわかりやすかったのでメモです。カルバック・ライブラー情報量(KL divergence)を用いる事なく、イェンゼンの不等式のみで自然に展開していました。

凸関数 – convex function

f’’(x) > 0、また x がベクトルの場合はヘシアン H >= 0 の時、f(x) は凸関数。f’’(x) > 0 とは x が大きくなるにつれ接線の傾き f’(x) も大きくなるということ。全ての x で、下図の (1) -> (2) -> (3) のような変化が成り立つ f(x) のこと。

スクリーンショット 2013-04-18 22.37.53

イエンセンの不等式 – Jensen’s inequality

f(x) が凸関数の時、E[f(x)] >= f(E[x]) が成り立つ。これがイェンゼンの不等式。

スクリーンショット 2013-04-17 22.22.07

図を見れば直感的にわかるのだが、今仮に xは a,b の2点しか取れないとすると、f(E[x])より、f(x)の期待値(この場合 f(a)とf(b)の平均値)E[f(x)] のほうが大きくなる。

 

EM アルゴリズム – EM algorithm

概要

目的: X, Z 両方の、完全データを知る事。

前提:しかし実際に観測できるのは X だけで、(例えばxの発生起源を示す)Z は潜在変数であり、観測されない。

方法:観測できる X のデータを用いて、母集団の統計モデルの潜在変数 Zを最尤推定する、こと。

観測したXを最もよく説明しうるパラメータθを探す。この方法がEMアルゴリズム。θが求まれば、p(Z|X,θ) = p(X,Z|θ) / p(X|θ) のように、観測した任意のXに対するZを推定できる。

最大化したい(対数)尤度関数スクリーンショット 2013-04-17 22.28.46

目的は対数尤度 l(θ) = Σ log p(x;θ) を最大化する θ を探す事だが、混合分布のような場合だと難しい。しかしもしzが観測できたとしたら、 log p(x,z;θ) の最大化は容易である(*)ことが多い。

(*)この仮定は、p(x,z;θ)がガウス分布などの指数分布族の時のみ成り立つのだろうか。そうでなくても成り立つ?最初から尤度関数の対数で考えてるあたり、指数分布族で log を打ち消す気満々のように思える。

l(θ)の最大化を一発でやらず、lの下限値を求め、その下限値に合うようにθを調節、を繰り返し行うことで、単調増加させていくという方法。

ここでとある確率分布 Qi を考える。確率分布なので、 z について ΣQi(z) = 1, Qi(z) >= 0を満たす。このQi(z) を挟んで(2)式にする。

スクリーンショット 2013-04-17 22.29.01

(2)→(3)の展開で早速イェンゼンの不等式を使う。まず、

スクリーンショット 2013-04-17 22.29.11

は、分布Qに従う z について、p(x,z;θ) / Q(z) を期待値とった形。”zi~Qi”の記号はその意味。また、f(x) = log x は凹関数である。(f(x)” = -1 / x^2  < 0 を満たす。)なので凸関数の逆で下記が成り立ち、ち、(2)→(3)の展開はこれそのもの。

スクリーンショット 2013-04-17 22.29.19

(3)式は l(θ)の下限値を示している。あらゆるQについて(3) 式は成り立つが、ではどんなQを選ぼうか。

下限値となる右辺を最も小さくするような Q、つまり(3)式で等号を成り立つQ を選びたい。イェンゼンの不等式が等式になる答えとは、 f(x) が一定(定数)の時、となる。

最初読んだ時には、なぜ l(θ) を最大化することと(3)式を等号にすることが関係あるのかわからなかったが、(2)式と(3)式を別々に考えるといより、Qを調節することで(2)式の、f(E[x}) と(3)式のE[f(x)]を同時に動かすイメージ。

スクリーンショット 2013-04-19 0.01.26

l(θ)(= f(E[x])) が最大となる天辺の値を選択するようにするには、逆説的にE[f(x)]とくっついてしまえば天辺以外の点は選べなくなる。全てのxに対してくっつくということは f(x) は定数しかない、ということになる。

スクリーンショット 2013-04-17 22.29.34もう一度読み返してみると、

Well, if we have some current guess θ of the parameters, it seems natural to try to make the lower-bound tight at that value of θ.

たしかに tight という言葉を使っている。(3)式の右辺を小さくする、と受け取るとわからなくなってしまう。ここがこの導出方法のキモな気がしました。

(3)式に戻ると、p(x,z;θ) / Q(z) = c が成り立つQとは、p(x,z;θ) に比例する値ということになる。 スクリーンショット 2013-04-17 22.29.41

Qの満たさなければいけない条件として、ΣQi(z) = 1 がある。これを満たすことを考えると、 1行目の形で正規化。あとはベイズの定理。スクリーンショット 2013-04-17 22.29.49Qi(z) = p(Z|X;θ) の形が自然に得られた。

スクリーンショット 2013-04-17 22.29.59

EMアルゴリズムが収束する理由( = l(θ)が単調増加する理由)の説明

l(θ(t)) <= l(θ(t+1)) となることを証明する。

スクリーンショット 2013-04-17 22.30.15(4)式は以下の(3)式のθ をθ(t+1)に置き換えただけ。

スクリーンショット 2013-04-17 22.30.22

(4)式から(5)式は下記のM-stepの結果から。

スクリーンショット 2013-04-17 22.30.28

(5)式から(6)式はE-stepそのもの。

イェンゼンの不等式に尽きる。

Post a Comment

Your email is never shared. Required fields are marked *

*
*