å¤‰åˆ†è¿‘ä¼¼ï¼ˆVariational Approximationï¼‰ã®åŸºæœ¬ï¼ˆï¼‘ï¼‰

åˆå›žã®è¨˜äº‹ã§å¤‰åˆ†è¿‘ä¼¼ã¯ã‘ã£ã“ã†é‡ãŸã„ã®ã§ã™ãŒã€ä»Šå¾Œã“ã“ã§é »ç¹ã«ä½¿ã£ã¦ã„ã“ã†ã¨è€ƒãˆã¦ã„ã‚‹ã®ã§ã¨ã‚Šã‚ãˆãšã”ç´¹ä»‹ã§ã™ã€‚

å¤‰åˆ†è¿‘ä¼¼ï¼ˆvariational approximationï¼‰ã¨ã¯ã€ç¢ºçŽ‡åˆ†å¸ƒã‚’è¿‘ä¼¼çš„ã«æ±‚ã‚ã‚‹æ–¹æ³•ã®ã²ã¨ã¤ã§ã™*1ã€‚ä¸€èˆ¬çš„ã«ã¯ç¢ºçŽ‡åˆ†å¸ƒã‚’æ±‚ã‚ã‚‹ã«ã¯æ£è¦åŒ–ï¼ˆç©åˆ†ã—ã¦ï¼‘ã«ãªã‚‹ã‚ˆã†ã«ã™ã‚‹ï¼‰ã—ãªã‘ã‚Œã°ãªã‚‰ãªã„ã®ã§ã™ãŒã€è¤‡é›‘ãªåˆ†å¸ƒï¼ˆä¾‹ãˆã°æ½œåœ¨å¤‰æ•°ãƒ¢ãƒ‡ãƒ«ã®äº‹å¾Œåˆ†å¸ƒï¼‰ã«ãªã£ã¦ãã‚‹ã¨ã€ã©ã†ã—ã¦ã‚‚è§£æžçš„ã«ç©åˆ†ãŒã§ããªããªã£ã¦ã—ã¾ã„ã¾ã™ã€‚å¤‰åˆ†è¿‘ä¼¼ã§ã¯ã“ã®ã‚ˆã†ãªè¤‡é›‘ã™ãŽã¦æ£è¦åŒ–ã§ããªã„ã‚ˆã†ãªç¢ºçŽ‡åˆ†å¸ƒã‚’ã€ã‚‚ã£ã¨ã‚·ãƒ³ãƒ—ãƒ«ãªç¢ºçŽ‡åˆ†å¸ƒãŸã¡ã®ç©ã«åˆ†è§£ã™ã‚‹ï¼ˆï¼ç‹¬ç«‹æ€§ã‚’ä»®å®šã™ã‚‹ï¼‰ã“ã¨ã«ã‚ˆã‚Šè¿‘ä¼¼ã—ã¾ã™ã€‚åˆ†è§£ã‚’ä»®å®šã™ã‚‹ã“ã¨ã«ã‚ˆã£ã¦å¤‰æ•°ã®ä¾å˜é–¢ä¿‚ã‚’ç°¡ç•¥åŒ–ã—ã€æ•°å€¤æœ€é©åŒ–ã§ã„ã†ã¨ã“ã‚ã®åå¾®åˆ†ã‚’ä½¿ã£ãŸå‹¾é…æ³•ã¨ä¼¼ãŸã‚ˆã†ãªã“ã¨ãŒç¢ºçŽ‡åˆ†å¸ƒã®æŽ¨è«–ã«å¯¾ã—ã¦ã‚‚è¡Œãˆã‚‹ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚

ã“ã‚ŒãŒä½¿ãˆã‚‹ã‚ˆã†ã«ãªã‚‹ã¨ã€æ§˜ã€…ãªãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ã‚¹ã®èª²é¡Œã«åˆã‚ã›ã¦ç¢ºçŽ‡ãƒ¢ãƒ‡ãƒ«ã‚’ä½œã‚Š*2ã€è‡ªåˆ†ã§è‡ªç”±ã«åˆ†å¸ƒæŽ¨å®šãŒã§ãã‚‹ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚å®Ÿéš›ã«ã€ç”»åƒã‚„éŸ³å£°ã€é‡‘èžãƒ‡ãƒ¼ã‚¿ã€ç”Ÿå‘½æƒ…å ±ã€è‡ªç„¶è¨€èªžã€å„ç¨®ã‚»ãƒ³ã‚µãƒ¼ãƒ‡ãƒ¼ã‚¿ãªã©ã€ç¾åœ¨ã¾ã§ã§ã»ã¼ã™ã¹ã¦ã®æ©Ÿæ¢°å¦ç¿’ã®å•é¡Œã«é©ç”¨ã•ã‚Œã¦ãã¦ã„ã¾ã™ã€‚

[å¿…è¦ãªçŸ¥è˜]

ä¸‹è¨˜ã‚’ã•ã‚‰ã£ã¨ã ã‘ç¢ºèªã—ã¦ãŠãã¨ã„ã„ã§ã™ã€‚

ç¢ºçŽ‡ã®åŠ æ³•å®šç†ï¼ˆsum ruleï¼‰ã¨ä¹—æ³•å®šç†ï¼ˆproduct ruleï¼‰ã€ãƒ™ã‚¤ã‚ºã®å®šç†ï¼ˆBayes' theoremï¼‰
KL divergenceÂ

ä»Šã€æ¬¡ã®ã‚ˆã†ãªç¢ºçŽ‡ãƒ¢ãƒ‡ãƒ«ã‚’è€ƒãˆãŸã„ã¨æ€ã„ã¾ã™ã€‚

\[ p(x,z) \]

$x$ã¯è¦³æ¸¬ãƒ‡ãƒ¼ã‚¿ã§ã€$z$ã¯æŽ¨å®šã—ãŸã„æœªçŸ¥ã®å¤‰æ•°ï¼ˆæ¬ æå€¤ã‚„ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã€æœªæ¥ã®äºˆæ¸¬å€¤ãªã©ï¼‰ã§ã€ã¨ã‚‚ã«å¤šæ¬¡å…ƒãƒ™ã‚¯ãƒˆãƒ«ã£ã¦ã“ã¨ã«ã—ã¦ãŠã„ã¦ãã ã•ã„ã€‚ä»Šå›žã¯é€£ç¶šå€¤ã‚’å–ã‚‹å¤‰æ•°ã‚’ä»®å®šã—ã¾ã™ãŒã€é›¢æ•£å€¤ã§ã‚‚ã¾ã£ãŸãåŒã˜è°è«–ã«ãªã‚Šã¾ã™ã€‚

æ©Ÿæ¢°å¦ç¿’ã®ç›®çš„ã¯zã®äº‹å¾Œåˆ†å¸ƒ$p(z|x)$ã‚’ä¸‹è¨˜ã®ã‚ˆã†ã«ãƒ™ã‚¤ã‚ºã®å®šç†ã‚’ç”¨ã„ã¦æŽ¨å®šã™ã‚‹ã“ã¨ã§ã™ã€‚

\[ p(z|x) = \frac{p(x|z)p(z)}{p(x)} = \frac{p(x|z)p(z)}{\int p(x,z) dz} \tag{1} \]

ä¾‹ãˆã°æ™®é€šã«$x$ã¨$z$ãŒã¨ã‚‚ã«ã‚¬ã‚¦ã‚¹åˆ†å¸ƒã«å¾“ã†ã‚ˆã†ãªãƒ¢ãƒ‡ãƒ«ã§ã¯ã€å¼(1)ã®åˆ†æ¯ã®ç©åˆ†ãŒå…¬å¼ã‚’ä½¿ãˆã°ç°¡å˜ã«è¡Œãˆã‚‹ã®ã§ã€äº‹å¾Œåˆ†å¸ƒã¯æ™®é€šã«æ‰‹è¨ˆç®—ã§ä¸€ç™ºã§è§£ã‘ã¾ã™ã€‚ã“ã‚Œã‚’è§£æžçš„ã«è§£ã‘ã‚‹ã¨ã‹ã€closed formã§è§£ã‘ã‚‹ã¨ã‹ã£ã¦è¨€ã„ã¾ã™ã€‚

ãŸã ã—ã€ä»Šå›žã¯ã“ã‚ŒãŒã©ã†ã—ã¦ã‚‚ã§ããªã„ã¨ä»®å®šã—ã¾ã™ã€‚ã¤ã¾ã‚Šå¼(1)ã®ç©åˆ†è¨ˆç®—ãŒã‚ã¡ã‚ƒãã¡ã‚ƒè¤‡é›‘ã§ã€è§£æžè§£ãŒå¾—ã‚‰ã‚Œãªã„çŠ¶æ…‹ã«ã‚ã‚‹ã¨ã—ã¾ã™ã€‚

ã“ã†ã„ã†ã¨ãã«ç™»å ´ã™ã‚‹ã®ãŒå¤‰åˆ†è¿‘ä¼¼ã®ã‚ˆã†ãªè¿‘ä¼¼æŽ¨è«–æ³•ã§ã™ã€‚äº‹å¾Œåˆ†å¸ƒã‚’æ¬¡ã®ã‚ˆã†ãªåˆ¥ã®é–¢æ•°å½¢ã§è¿‘ä¼¼ã—ã¾ã™ã€‚

\[ p(z|x) \approx q(z) \]

$q(z)$ã®å…·ä½“çš„ãªé–¢æ•°ï¼ˆã‚¬ã‚¦ã‚¹åˆ†å¸ƒã ã¨ã‹ï¼‰ã¯ä»®å®šã—ã¦ã„ãªã„ã“ã¨ã«æ³¨æ„ã—ã¦ãã ã•ã„ã€‚

ä»Šã‚„ã‚ŠãŸã„ã“ã¨ã¯ã€$q(z)$ãŒ$p(z|x)$ã¨ã€ãªã‚‹ã¹ãã€Œä¼¼ã‚‹ã€ã‚ˆã†ã«ã—ãŸã„ã¨ã„ã†ã“ã¨ã§ã™ã€‚

ï¼’ã¤ã®ç¢ºçŽ‡åˆ†å¸ƒãŒã©ã‚Œã ã‘ã€Œä¼¼ã¦ã„ãªã„ã‹ã€ã‚’è¡¨ã™æŒ‡æ¨™ã®ï¼‘ã¤ã¨ã—ã¦ã€KL divergenceãŒã‚ã‚Šã¾ã™ã€‚ä¾‹ãˆã°ã€æ··ä¹±ã‚’é¿ã‘ã‚‹ãŸã‚ã«ç¢ºçŽ‡å¤‰æ•°$w$ã‚’ä¸€æ™‚çš„ã«ä½¿ã†ã¨ã€ç¢ºçŽ‡åˆ†å¸ƒ$p(w)$ã¨$q(w)$ã®é–“ã®ï¼ˆq(w)ã‹ã‚‰è¦‹ãŸ*3ï¼‰KL divergenceã¯

\[ KL(q(w)||p(w)) = - \int q(w) \ln \frac{p(w)}{q(w)} dw \]

ã®ã‚ˆã†ã«å®šç¾©ã•ã‚Œã¾ã™ã€‚$q(w)=p(w)$ãŒæˆã‚Šç«‹ã¤ã¨ãã“ã®å¼ã¯0ã«ãªã‚Šã¾ã™ã€‚

ä»Šå›žã¯äºŒã¤ã®ç¢ºçŽ‡åˆ†å¸ƒ$p(z|x)$ã¨$q(z)$ã‚’ãªã‚‹ã¹ãã€Œä¼¼ã›ã€ãŸã„ã®ã§ã€ã“ã®2ã¤ã®ç¢ºçŽ‡åˆ†å¸ƒã®é–“ã®KL divergenceã‚’æœ€å°åŒ–ã™ã‚‹ã“ã¨ã«ã‚ˆã‚Šç›®çš„ã‚’é”æˆã—ãŸã„ã¨æ€ã„ã¾ã™ã€‚ã¤ã¾ã‚Šã€

\[ KL(q(z)||p(z|x)) = - \int q(z) \ln \frac{p(z|x)}{q(z)} dz \]

ã‚’æœ€å°ã«ã™ã‚‹ã‚ˆã†ãª$q(z)$ã‚’æ±‚ã‚ã‚‹ã“ã¨ãŒç›®æ¨™ã«ãªã‚Šã¾ã™ã€‚

ã—ã‹ã—ã“ã“ã§ç–‘å•ãŒæ®‹ã‚Šã¾ã™ã€‚

$p(z|x)$ã¯ã€ç©åˆ†ã“ãã§ããªã„ã‚‚ã®ã®ã€ç¢ºã‹ã«ä½•ã‚‰ã‹ã®å½¢çŠ¶ãŒå˜åœ¨ã™ã‚‹ã‚ˆã†ãªç¢ºçŽ‡åˆ†å¸ƒã§ã™ã€‚ã—ã‹ã—æœ€åˆã®ä»®å®šã®é€šã‚Šã€ã“ã®åˆ†å¸ƒã¯ç›´æŽ¥æ‰‹è¨ˆç®—ã‚’ã—ã¦æ±‚ã‚ã‚‹ã“ã¨ã¯ã§ããªã„ã€‚ç›´æŽ¥è¨ˆç®—ã§ããªã„åˆ†å¸ƒã¨ã€è¿‘ä¼¼åˆ†å¸ƒ$q(z)$ã®é–“ã®è·é›¢ã‚’ã€ã„ã£ãŸã„ã©ã†ã‚„ã£ã¦ç¸®ã‚ã‚‹ã®ã‹ï¼Ÿ

ã¡ã‚‡ã£ã¨é•·ããªã£ãŸã®ã§ã“ã“ã§ã„ã£ãŸã‚“åˆ‡ã‚Šã¾ã™ã€‚

[ç¶šããƒ»é–¢é€£]

ä»Šå›žã®è¨˜äº‹ãŒã‚ˆãã‚ã‹ã‚‰ã‚“ï¼ã¨ã„ã†æ–¹ã«ã¯ï¼Œæ¬¡ã®ã‚ˆã†ãªå…¥é–€æ›¸ã‚‚ã‚ã‚Šã¾ã™ï¼Ž

books.rakuten.co.jp

*1:ä»–ã«ã‚‚ã€å¤‰åˆ†æŽ¨è«–ï¼ˆvariational inferenceï¼‰ã¨ã‹ãŸã å˜ã«å¤‰åˆ†æ³•ï¼ˆvariational methodï¼‰ã¨ã‹ã£ã¦å‘¼ã‚“ã ã‚Šã‚‚ã—ã¾ã™ã€‚ãƒ™ã‚¤ã‚ºãƒ¢ãƒ‡ãƒ«ã§ã‚ã‚‹ã“ã¨ã‚’å¼·èª¿ã™ã‚‹å ´åˆã«ã¯ã€å¤‰åˆ†ãƒ™ã‚¤ã‚ºï¼ˆvariational Bayesï¼‰ã¨å‘¼ã¶ã“ã¨ã‚‚ã‚ã‚Šã¾ã™ã€‚

http://machine-learning.hatenablog.com/entry/2016/02/10/184755

*3:ä¸€èˆ¬ã«$KL(q||p)$ã¨$KL(p||q)$ã¯ä¸€è‡´ã—ã¾ã›ã‚“ã€‚