AlphaGo ã¨ AlphaGo Zero ã®è‡ªå·±å¯¾æˆ¦ã«ã‚ˆã‚‹å¦ç¿’éƒ¨åˆ†ã®é•ã„

æµã—èªã¿ã ã¨ã¡ã‚ƒã‚“ã¨åˆ†ã‹ã‚‰ãªã‹ã£ãŸã®ã§ãƒ¡ãƒ¢ã€‚

æº–å‚™(AlphaGo)

policy network : ç›¤é¢ã¨ãã®ç‰¹å¾´é‡ã‚’å…¥åŠ›ã¨ã—ã¦å—ã‘å–ã‚Šã€å„ãƒžã‚¹ã«æ‰“ã¤ç¢ºçŽ‡ã‚’è¿”ã™ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆã€‚
value network: ç›¤é¢ã¨ãã®ç‰¹å¾´é‡ã‚’å…¥åŠ›ã¨ã—ã¦å—ã‘å–ã‚Šã€ãã®ç›¤é¢ã§ã®å‹çŽ‡ã‚’è¿”ã™ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆã€‚

AlphaGo ã§ã¯ã¾ãš policy network ã‚’ãƒ—ãƒã®æ£‹èœãƒ‡ãƒ¼ã‚¿ã‹ã‚‰æ•™å¸«ã‚ã‚Šå¦ç¿’ã§äº‹å‰å¦ç¿’ã•ã›ã€ãã®å¾Œè‡ªå·±å¯¾æˆ¦ã«ã‚ˆã‚‹å¼·åŒ–å¦ç¿’ã«ã‚ˆã£ã¦ã•ã‚‰ã«æ”¹å–„ã•ã›ã¦ã„ãã€‚

AlphaGo ã®å¼·åŒ–å¦ç¿’ãƒ‘ãƒ¼ãƒˆ

æ•™å¸«ã‚ã‚Šå¦ç¿’å¾Œã® policy network ã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ $\rho_0$ ã‹ã‚‰å¦ç¿’ã‚’ã‚¹ã‚¿ãƒ¼ãƒˆã™ã‚‹ã€‚è‡ªå·±å¯¾æˆ¦ã®çµæžœã‹ã‚‰ policy network ã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã¯éšæ™‚æ›´æ–°ã•ã‚Œã¦ã„ãã€‚ãã‚Œã‚‰ã‚’ $\rho_1, \rho_2, \cdots$ ã¨ã™ã‚‹ã€‚$t$ å›žç›®ã®è‡ªå·±å¯¾æˆ¦ã§ã¯ã€ç¾åœ¨ã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ $\rho_t$ ã¨ã€ãã‚Œã‚ˆã‚Šä»¥å‰ã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ $\rho_{t'}$ ã¨å¯¾æˆ¦ãŒè¡Œã‚ã‚Œã‚‹ã€‚
- å®Ÿéš›ã«ã¯ã€æ¯Žè©¦åˆã”ã¨ã«ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’ä¿å˜ã—ã¦ã„ãŸã‚‰é‡ãŒè†¨å¤§ã«ãªã£ã¦å¤§å¤‰ãªã®ã§ã€ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®ä¿å˜ã¯ä¸€å®šåå¾©ã”ã¨ã«è¡Œã‚ã‚Œã‚‹ã€‚
ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®æ›´æ–°ã¯ REINFORCE ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã«ã‚ˆã£ã¦è¡Œã‚ã‚Œã‚‹ã€‚ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®æ›´æ–°å¹… $\Delta\rho$ ã¯ä»¥ä¸‹ã®å¼ã§è¡¨ã•ã‚Œã‚‹ã€‚ã“ã“ã§ã€$\alpha$ ã¯å¦ç¿’çŽ‡ã€$T$ ã¯è‡ªå·±å¯¾æˆ¦ãŒçµ‚äº†ã™ã‚‹ã¾ã§ã«ã‹ã‹ã£ãŸã‚¹ãƒ†ãƒƒãƒ—æ•°ã€$a^i$ ã¨ $s^i$ ã¯ãã‚Œãžã‚Œè‡ªåˆ†ãŒ $i$ ã‚¹ãƒ†ãƒƒãƒ—ç›®ã«å–ã£ãŸè¡Œå‹•å€¤ã¨çŠ¶æ…‹ã€$p_\rho(\cdot \mid \cdot)$ ã¯ $\rho$ ã‚’ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã¨ã™ã‚‹ policy network ã®å‡ºåŠ›å€¤ã€$z$ ã¯ãã®å¯¾å±€ã§è‡ªåˆ†ãŒå‹åˆ©ã—ãŸãªã‚‰ $+1$ã€æ•—åŒ—ã—ãŸãªã‚‰ $-1$ ã¨ãªã‚‹ã‚ˆã†ãªå ±é…¬å€¤ã€$b^i$ ã¯åˆ†æ•£ã‚’å°ã•ãã™ã‚‹ãŸã‚ã«ç”¨ã„ã‚‰ã‚Œã‚‹ãƒ™ãƒ¼ã‚¹ãƒ©ã‚¤ãƒ³ã¨å‘¼ã°ã‚Œã‚‹å€¤ã€‚

\[
\Delta\rho = \alpha \sum_{i=1}^{T} \frac{\partial\log{p_\rho(a^i \mid s^i)}}{\partial\rho}(z - b^i)
\]

è‡ªå·±å¯¾æˆ¦ä¸ã«æ‰“ã¤æ‰‹ã¯ã€policy network ã§ã®ç¢ºçŽ‡ã‚’ã‹ã‚‰ãã®ã¾ã¾ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã—ã¦ã„ã‚‹ï¼š$a^i \sim p_\rho(\cdot \mid s^i)$. ã¤ã¾ã‚Šã€è‡ªå·±å¯¾æˆ¦ä¸ã«ã¯æŽ¢ç´¢ã‚’è¡Œã£ã¦ã„ãªã„ã€‚
REINFORCE ã«ã‚ˆã‚Š policy network ãŒå¦ç¿’ã§ããŸå¾Œã¯ã€è‡ªå·±å¯¾æˆ¦ã®æ£‹èœãƒ‡ãƒ¼ã‚¿ã‚’å…ƒã« value network ã‚’æ•™å¸«ã‚ã‚Šå¦ç¿’ã®è¦é ˜ã§å¦ç¿’ã•ã›ã‚‹ã€‚
ãƒ†ã‚¹ãƒˆæ™‚ã«ã¯ã€MCTS ã«ã‚ˆã‚‹æŽ¢ç´¢ä¸ã®è©•ä¾¡é–¢æ•°ã¨ã—ã¦ã“ã‚Œã‚‰ã® policy network ã¨ value network ã‚’ç”¨ã„ã‚‹ã€‚

Zero ã®å¦ç¿’æ–¹æ³•

æ¬¡ã« Zero ã«ã¤ã„ã¦ã€‚è‡ªå·±å¯¾æˆ¦éƒ¨åˆ†ã«é–¢é€£ã™ã‚‹é•ã„ã¨ã—ã¦ã€AlphaGo ã§ã¯ policy network ã¨ value network ã¯åˆ¥ã€…ã®ã‚‚ã®ã ã£ãŸãŒã€Zero ã§ã¯ã“ã‚Œã‚‰ãŒ1ã¤ã®ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã«çµ±ä¸€ã•ã‚Œã€ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆã®æ§‹æˆã«å¤‰æ›´ãŒåŠ ãˆã‚‰ã‚Œã¦ã„ã‚‹ã€‚ã—ãŸãŒã£ã¦ã€AlphaGo ã§ã¯ policy network ã¨ value network ã®è¨“ç·´ã¯åˆ¥ã€…ã®æ®µéšŽã§è¡Œã‚ã‚ŒãŸã®ã«å¯¾ã—ã¦ã€Zero ã§ã¯åŒä¸€ã®è¨“ç·´ãƒ«ãƒ¼ãƒ—å†…ã§æœ€é©åŒ–ã•ã‚Œã‚‹ã€‚

Zero ã§ã‚‚è‡ªå·±å¯¾æˆ¦ã‚’è¡Œã†ãŒã€ä»¥ä¸‹ã®ã‚ˆã†ãªç‚¹ãŒ AlphaGo ã¨ç•°ãªã£ã¦ã„ã‚‹ã€‚

è‡ªå·±å¯¾æˆ¦ä¸ã«ã‚‚ MCTS ã«ã‚ˆã‚‹æŽ¢ç´¢ã‚’è¡Œã†ã€‚ã“ã‚Œã«ã‚ˆã‚Šã€MCTS ã«ã‚ˆã‚‹å„ãƒžã‚¹ã«æ‰“ã¤ç¢ºçŽ‡å€¤ã®ãƒ™ã‚¯ãƒˆãƒ« $\pi$ ãŒå¾—ã‚‰ã‚Œã‚‹ã€‚
ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’æ›´æ–°ã™ã‚‹éš›ã®æ›´æ–°å¼ãŒå¤‰ã‚ã£ã¦ã„ã‚‹ã€‚ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆã®å‡ºåŠ›å€¤ã‚’ $(p, v)$ ã¨ã™ã‚‹ã€‚ä»¥ä¸‹ã®è¦ç´ ã‚’ãƒã‚¹é–¢æ•°ã¨ã—ã¦ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’æœ€é©åŒ–ã™ã‚‹ã€‚
- $v$ ã®ãƒã‚¹ï¼š$(v-z)^2$
- $p$ ã®ãƒã‚¹ï¼š$-\pi^\mathrm{T} \log{p}$ (ã‚¯ãƒã‚¹ã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ã§ã€ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆã«ã‚ˆã‚‹å‡ºåŠ›ãŒ MCTS ã®å‡ºåŠ›ã«ã§ãã‚‹ã ã‘é¡žä¼¼ã—ã¦æ¬²ã—ã„ã¨ã„ã†æ„å›³ãŒã‚ã‚‹)
- ã‚ã¨ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®æ£å‰‡åŒ–ï¼š$\|\theta\|^2$

è€ƒå¯Ÿ

AlphaGo ã§ã¯è‡ªå·±å¯¾æˆ¦ä¸ã«æ‰“ã¤æ‰‹ã¯ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã«ã‚ˆã‚‹ã‚‚ã®ã ã£ãŸãŸã‚æ›´æ–°æ™‚ã®åˆ†æ•£ãŒå¤§ããã†ã ã£ãŸãŒã€Zero ã§ã¯æŽ¢ç´¢çµæžœã‚’ç›´æŽ¥æ•™å¸«ãƒ‡ãƒ¼ã‚¿ã¿ãŸã„ã«ã—ã¦ $p$ ã‚’å¦ç¿’ã—ã¦ã„ã‚‹ãŸã‚åˆ†æ•£ãŒå°ã•ãã†ã€‚ã“ã‚Œã«ã‚ˆã‚Šã€å®‰å®šã—ãŸãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®æ›´æ–°ã‚’ã™ã‚‹ã®ã«å¿…è¦ãªã‚µãƒ³ãƒ—ãƒ«æ•°ãŒå°‘ãªãã¦æ¸ˆã¿ãã†ã€‚
$v$ ã®å¦ç¿’ã«ã¤ã„ã¦ã‚‚ã€ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã‚ˆã‚Šã‚‚æŽ¢ç´¢çµæžœã®æ–¹ãŒåˆ¤æ–ã¨ã—ã¦ã®è³ªãŒé«˜ã„ã®ã§ã€åˆæœŸã®æ®µéšŽã‹ã‚‰ç¢ºåº¦ã®é«˜ã„æƒ…å ±ã‚’æ•™å¸«ãƒ‡ãƒ¼ã‚¿ã«ç”¨ã„ã‚‰ã‚Œã‚‹ã¨ã„ã†ãƒ¡ãƒªãƒƒãƒˆãŒã‚ã‚Šãã†ã€‚
AlphaGo ã§ã¯ policy network ã®å¦ç¿’éƒ¨åˆ†ã¨æŽ¢ç´¢ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ éƒ¨åˆ†ã¯åˆ†é›¢ã—ã¦ã„ãŸ(ç ”ç©¶ã®æµã‚Œçš„ã«ã‚‚ã€æ ¹æœ¬ã¨ãªã‚‹ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã« MCTS ãŒã‚ã‚Šãã®è©•ä¾¡é–¢æ•°ã¨ã—ã¦ã§ãã‚‹ã ã‘è³ªã®è‰¯ã„ã‚‚ã®ã‚’ä½œã‚ŠãŸã„ã¨ã„ã†ãƒ¢ãƒãƒ™ã ã£ãŸã‚ˆã†ã«æ€ã†)ãŒã€Zero ã«ãªã£ã¦å¦ç¿’ã®éŽç¨‹ã«æŽ¢ç´¢ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ãŒç›´æŽ¥å…¥ã‚‹ã‚ˆã†ã«ãªã£ãŸã€‚ã“ã‚Œã«ã‚ˆã‚Šã€ã‚ˆã‚Šãƒ†ã‚¹ãƒˆæ™‚ã«ä¸€è²«æ€§ã®ã‚ã‚‹æ–¹ç–ã‚’å–ã‚Œã‚‹ã‚ˆã†ã«ãªã£ã¦ãã†ã€‚

ä½™è«‡

ã€ŒZero ã¯4ã¤ã® TPU ã ã‘ã‚’ä½¿ã£ã¦å¦ç¿’ã•ã‚ŒãŸã€ã¨è¨€ã‚ã‚Œã¦ã„ã‚‹ã®ã‚’è¦‹ã‹ã‘ã‚‹ãŒã“ã‚Œã¯ãƒ†ã‚¹ãƒˆæ™‚ã®è©±ã§ã‚ã‚Šã€å¦ç¿’æ™‚ã«ã¯ 64 å€‹ã® GPU ã¨ 19 å€‹ã® CPU ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚µãƒ¼ãƒãƒ¼ãŒä½¿ç”¨ã•ã‚ŒãŸã¨æ›¸ã‹ã‚Œã¦ã„ã‚‹ã€‚"""Each neural network fÎ¸i is optimized on the Google Cloud using TensorFlow, with 64 GPU workers and 19 CPU parameter servers."""

æº–å‚™(AlphaGo)

AlphaGo ã®å¼·åŒ–å­¦ç¿’ãƒ‘ãƒ¼ãƒˆ

Zero ã®å­¦ç¿’æ–¹æ³•

è€ƒå¯Ÿ

ä½™è«‡

AlphaGo ã®å¼·åŒ–å¦ç¿’ãƒ‘ãƒ¼ãƒˆ

Zero ã®å¦ç¿’æ–¹æ³•