kaggleã§å¼·åŒ–å¦ç¿’ã‚’ã‚„ã£ã¦ã¿ãŸ - æ©Ÿæ¢°å¦ç¿’ Memo Ï†(ãƒ»Ï‰ãƒ» )

æ¦‚è¦

ç¾åœ¨ã€kaggle ã« Connect X ã¨ã„ã†å¼·åŒ–å¦ç¿’ã® Getting Started ã‚³ãƒ³ãƒš ãŒã‚ã‚Šã¾ã™ã€‚ã“ã®ã‚³ãƒ³ãƒšã‚’é€šã˜ã¦å¼·åŒ–å¦ç¿’ã‚’å°‘ã—å‹‰å¼·ã—ãŸã®ã§ã€ãã®å†…å®¹ã‚’è¨˜è¼‰ã—ãŸã„ã¨æ€ã„ã¾ã™ã€‚

ã“ã¡ã‚‰ã®æ›¸ç±ã‚’ã‚‚ã¨ã«å¼·åŒ–å¦ç¿’ã«ã¤ã„ã¦ç†è§£ã—ãŸã“ã¨ã¨ã€Connect Xã‚³ãƒ³ãƒšã§ã®å®Ÿè£…ã‚’è§£èª¬ã—ãŸè¨˜äº‹ã«ãªã‚Šã¾ã™ã€‚é–“é•ã„ãŒã‚ã‚Œã°ã€ã‚³ãƒ¡ãƒ³ãƒˆã„ãŸã ã‘ãŸã‚‰å¬‰ã—ã„ã§ã™ã€‚

bookclub.kodansha.co.jp

å¼·åŒ–å¦ç¿’ã¨ã¯

å¼·åŒ–å¦ç¿’ã¨ã¯ã€è¡Œå‹•ã‹ã‚‰å ±é…¬ãŒå¾—ã‚‰ã‚Œã‚‹ç’°å¢ƒã«ãŠã„ã¦ã€å„çŠ¶æ³ã§å ±é…¬ã«ç¹‹ãŒã‚‹ã‚ˆã†ãªè¡Œå‹•ã‚’å‡ºåŠ›ã™ã‚‹ã‚ˆã†ã«ã€ãƒ¢ãƒ‡ãƒ«ã‚’ä½œæˆã™ã‚‹ã“ã¨ã€‚

æ•™å¸«ã‚ã‚Šå¦ç¿’ã¨ã®é•ã„ã¯é€£ç¶šã—ãŸè¡Œå‹•ã«ã‚ˆã£ã¦å¾—ã‚‰ã‚Œã‚‹å ±é…¬ã‚’æœ€å¤§åŒ–ã•ã›ã‚‹ã¨ã„ã†ç‚¹ã§ã™ã€‚å›²ç¢ã‚’è€ƒãˆãŸæ™‚ã€ã‚ã‚‹å±€é¢ã§æ‚ªæ‰‹ã«è¦‹ãˆãŸä¸€æ‰‹ãŒã€å…ˆã€…é€²ã‚ã‚‹ã¨å®Ÿã¯è‰¯ã„æ‰‹ã ã£ãŸã€ã¨ã„ã£ãŸå ´åˆã®ãã®ä¸€æ‰‹ã‚’é¸æŠžã§ãã‚‹ã‚ˆã†ã«ã™ã‚‹ã®ãŒå¼·åŒ–å¦ç¿’ã«ãªã‚Šã¾ã™ã€‚

Connect X ã¨å¼·åŒ–å¦ç¿’

ã„ã‚ã‚†ã‚‹å››ç›®ä¸¦ã¹ã‚²ãƒ¼ãƒ ã§ã™ã€‚å¯¾æˆ¦ç›¸æ‰‹ã‚ˆã‚Šå…ˆã«ã€è‡ªåˆ†ã®ãƒ”ãƒ¼ã‚¹ã‚’ç¸¦ãƒ»æ¨ªãƒ»æ–œã‚ã®ã„ãšã‚Œã‹ã§ã€ï¼”ã¤æƒãˆã‚‰ã‚ŒãŸã‚‰å‹ã¡ã«ãªã‚Šã¾ã™ã€‚

f:id:YukoIshizaki:20200401191514p:plain:w250
Connect X | Kaggle

æå‡ºã™ã‚‹ãƒ•ã‚¡ã‚¤ãƒ«ã¯é€šå¸¸ã®ã‚ˆã†ãªcsvãƒ•ã‚¡ã‚¤ãƒ«ã§ã¯ãªãã€ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®æŒ¯ã‚‹èˆžã„ãŒè¨˜è¼‰ã•ã‚Œã¦ã„ã‚‹Pythonãƒ•ã‚¡ã‚¤ãƒ«ã‚’æå‡ºã—ã¾ã™ã€‚

Connect X ã®ãƒ«ãƒ¼ãƒ«ã‚’ãµã¾ãˆã€å¼·åŒ–å¦ç¿’ã§ã®è€ƒãˆã‚’æ•´ç†ã—ã¾ã™ã€‚

ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆ

å››ç›®ä¸¦ã¹ã‚’è¡Œã†ãƒ—ãƒ¬ãƒ¼ãƒ¤ãƒ¼

è¡Œå‹• Action

ãƒ”ãƒ¼ã‚¹ã‚’å…¥ã‚Œã‚‹ã“ã¨
$A = \{a_1, a_2, a_3, ...\}$
ConnectXã§ã¯ã€ãƒ”ãƒ¼ã‚¹ã¯ã€Œãƒã‚§ãƒƒã‚«ãƒ¼ã€ã€åˆ—ã‚’é¸ã¶ã“ã¨ã‚’ã€Œãƒ‰ãƒãƒƒãƒ—ã€ã¨è¡¨ç¾ã€‚

çŠ¶æ…‹ State

ã‚²ãƒ¼ãƒ ãƒœãƒ¼ãƒ‰ä¸Šã®ãƒã‚§ãƒƒã‚«ãƒ¼ã®é…ç½®ã€‚
$S = \{s_1, s_2, s_3, ...\}$

(ä»¥é™ã®è¨˜è¼‰ã§ã¯ã€ $s$ ãŒç¾åœ¨ã®çŠ¶æ…‹ã€ $s'$ ãŒæ¬¡ã®STEPã®çŠ¶æ…‹ã¨è¡¨ã—ã¦ã„ã‚‹)

å ±é…¬ Reward

ã‚²ãƒ¼ãƒ çµ‚äº†æ™‚ã«å‹ã¤ã¨ 1 ãŒã€è² ã‘ã‚‹ã¨ 0 ãŒã€ã©ã¡ã‚‰ã§ã‚‚ãªã„å ´åˆ (å¼•ãåˆ†ã‘ãƒ»å‹è² ãŒã¤ã„ã¦ã„ãªã„) ã ã¨ 0.5 ãŒå ±é…¬ã¨ã—ã¦å¾—ã‚‰ã‚Œã¾ã™ã€‚

è¡Œå‹•å¾Œã™ãã«å¾—ã‚‰ã‚Œã‚‹å ±é…¬ã‚’å³æ™‚å ±é…¬ã¨å‘¼ã³ã¾ã™ã€‚

ã¾ãŸã€æ™‚é–“å‰²å¼•ã•ã‚ŒãŸå ±é…¬ã®ç·å’Œã‚’ä»¥ä¸‹ã®ã‚ˆã†ã«è¡¨ã—ã¾ã™ã€‚

$G_t:= r_{t+1} + \gamma r_{t+2} + \gamma r^2_{t+3} + \cdots + \gamma r^{T-t-1}_T= \displaystyle \sum_{k=0}^{T-t-1} \gamma^kr_{t+k+1}$
$t$ ã¯æ™‚é–“ (æ‰‹/ã‚¹ãƒ†ãƒƒãƒ—)ã€ $\gamma$ $(\in [0, 1] )$ ãŒæ™‚é–“å‰²å¼•çŽ‡

10æ‰‹ã§å‹åˆ©ã—ãŸå ´åˆã¨ã€ 20æ‰‹ã§å‹åˆ©ã—ãŸå ´åˆã§ã¯ã€å‰è€…ã®æ–¹ãŒã‚ˆã‚Šè‰¯ã„ã‚‚ã®ã¨è©•ä¾¡ã—ãŸã„ãŸã‚ã€‚

ã“ã‚Œã¯å†å¸°çš„ã«è¡¨ã™ã“ã¨ãŒå¯èƒ½ã€‚
$G_t:= r_{t+1}+\gamma G_{t+1}$

å ±é…¬é–¢æ•° Reward Function

å ±é…¬ã‚’è¿”ã™é–¢æ•°ã€‚
$R(s, s')$

é·ç§»é–¢æ•° Transition Function

ç¾åœ¨ã®çŠ¶æ…‹ã¨è¡Œå‹•ã‹ã‚‰ã€ã‚ã‚‹çŠ¶æ…‹ã«ãªã‚‹ç¢ºçŽ‡ã¨ã€é·ç§»å…ˆã‚’è¿”ã™é–¢æ•°ã€‚
$T(s, a)$

é·ç§»é–¢æ•°ãŒçŠ¶æ…‹é·ç§»ç¢ºçŽ‡ $P_a(s, s')$ ã‚’å‡ºåŠ›ã—ã€é·ç§»å…ˆã¯çŠ¶æ…‹é·ç§»ç¢ºçŽ‡ã®é«˜ã„ã‚‚ã®ã¨ãªã‚‹ã€‚
Connect X ã§ã¯ã€ã‚²ãƒ¼ãƒ ä¸Šé¸æŠžå¯èƒ½ãªActionã‚’ã—ãŸå ´åˆã€å¿…ãšæƒ³å®šé€šã‚Šã®çŠ¶æ…‹ã«é·ç§»ã™ã‚‹ã®ã§è€ƒæ…®ã—ãªã„ã‚‚ã®ã¨ã—ã¾ã™ã€‚

æˆ¦ç•¥ Policy

ã‚ã‚‹çŠ¶æ…‹ $s$ ã§æ¬¡ã®è¡Œå‹• $a$ ã‚’æ±ºã‚ã‚‹é–¢æ•°ã€‚
$\pi(a|s)$

é·ç§»é–¢æ•°ã¨ä¼¼ã¦ã„ã¾ã™ãŒã€Policyã¯å®Ÿéš›ã«èµ·ã“ã™è¡Œå‹•ã‚’æ±ºã‚ã‚‹ã‚‚ã®ã§ã€ãã®è¡Œå‹•ã‚’èµ·ã“ã™ã¨ã©ã®ã‚ˆã†ãªçŠ¶æ…‹ã«ãªã‚‹ã®ã‹ã‚’å®šã‚ã¦ã„ã‚‹ã®ãŒé·ç§»é–¢æ•°ã§ã™ã€‚

å¼·åŒ–å¦ç¿’ã®ç¨®é¡ž

ãƒ¢ãƒ‡ãƒ«ãƒ™ãƒ¼ã‚¹

é·ç§»é–¢æ•°ã¨å ±é…¬é–¢æ•°ã‚’ãƒ™ãƒ¼ã‚¹ã«å¦ç¿’ã™ã‚‹ã“ã¨ã‚’ãƒ¢ãƒ‡ãƒ«ãƒ™ãƒ¼ã‚¹ã¨ã„ã„ã¾ã™ã€‚
ã‚ã‚‹çŠ¶æ…‹ $s$ ã§æˆ¦ç•¥ $\pi(a|s)$ ã«åŸºã¥ã„ã¦è¡Œå‹•ã™ã‚‹ã“ã¨ã§å¾—ã‚‰ã‚Œã‚‹ä¾¡å€¤ $V_{\pi}(s)$ ã‚’ã€ä»¥ä¸‹ã®ã‚ˆã†ã«è¡¨ã™ã“ã¨ãŒã§ãã¾ã™ã€‚

$\begin{eqnarray} V_{\pi}(S_t) &=& E_{\pi}[r_{t+1} + \gamma V_{\pi}(S_{t+1})] \\ &=& \displaystyle \sum_{a}{\pi(a|s)} \displaystyle \sum_{s'}{T(s'|s,a)(R(s, s')+ \gamma V_{\pi}(s'))} \end{eqnarray}$

æœŸå¾…å€¤ $E$ ã¯ã€è¡Œå‹•ç¢ºçŽ‡ (æˆ¦ç•¥ã‹ã‚‰æ±ºã¾ã‚‹) ã¨é·ç§»ç¢ºçŽ‡ã‚’ã‹ã‘ã‚‹ã“ã¨ã§å°Žãå‡ºã™ã“ã¨ãŒã§ãã¾ã™ã€‚

ä¾¡å€¤ãŒæœ€å¤§ã«ãªã‚‹ã‚ˆã†ãªè¡Œå‹•ã‚’å¸¸ã«é¸æŠžã™ã‚‹æ–¹æ³•ã‚’ Value ãƒ™ãƒ¼ã‚¹ã¨ã„ã„ã€è¡Œå‹•ã®è©•ä¾¡æ–¹æ³•ã®ã¿ã‚’å¦ç¿’ã—ã¾ã™ã€‚ãã‚Œã¨ã¯åˆ¥ã«ã€æˆ¦ç•¥ã«ã‚ˆã£ã¦è¡Œå‹•ã‚’æ±ºå®šã—ã€ãã®æˆ¦ç•¥ã®è©•ä¾¡ã¨æ›´æ–°ã«è¡Œå‹•è©•ä¾¡ã‚’ä½¿ã†æ–¹æ³•ã‚’ Policy ãƒ™ãƒ¼ã‚¹ã¨ã„ã„ã¾ã™ã€‚

ä¸Šè¨˜ã®å¼ã«ãŠã„ã¦ã€æ¬¡ã®STEPã«ãŠã‘ã‚‹ä¾¡å€¤ $V(s')$ ãŒè¨ˆç®—æ¸ˆã¿ã§ãªã„ã¨ã„ã‘ãªã„ã‚ã‘ã§ã™ãŒã€å…¨ã¦ã®è¡Œå‹•ã«å¯¾ã™ã‚‹ä¾¡å€¤ã‚’è¨ˆç®—ã™ã‚‹ã®ã¯ãƒ‘ã‚¿ãƒ¼ãƒ³ãŒå¤šã„å ´åˆã¯å®¹æ˜“ã§ã¯ãªã„ãŸã‚ã€å‹•çš„è¨ˆç”»æ³• DP ãŒç”¨ã„ã‚‰ã‚Œã¾ã™ã€‚

ãƒ¢ãƒ‡ãƒ«ãƒ™ãƒ¼ã‚¹ã§ã¯ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒä¸€æ©ã‚‚å‹•ãã“ã¨ãªãã€ç’°å¢ƒã®æƒ…å ±ã®ã¿ã§æœ€é©ãªè¨ˆç”» (æˆ¦ç•¥) ã‚’å°Žãã“ã¨ãŒã§ãã¾ã™ã€‚ãŸã ã—ã€ã“ã‚Œã¯é·ç§»é–¢æ•°ã¨å ±é…¬é–¢æ•°ãŒæ—¢çŸ¥ (ã‚‚ã—ãã¯æŽ¨å®šãŒå¯èƒ½) ã§ã‚ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚ãã®ãŸã‚ã€ä¸€èˆ¬çš„ã«ã¯ãƒ¢ãƒ‡ãƒ«ãƒ™ãƒ¼ã‚¹ã§ã¯ãªããƒ¢ãƒ‡ãƒ«ãƒ•ãƒªãƒ¼ãŒä½¿ã‚ã‚Œã¾ã™ã€‚ä»Šå›žã® Connect X ã§ã‚‚ãƒ¢ãƒ‡ãƒ«ãƒ•ãƒªãƒ¼ã§ã®ã‚¢ãƒ—ãƒãƒ¼ãƒã«ãªã‚‹ãŸã‚ã€ãƒ¢ãƒ‡ãƒ«ãƒ™ãƒ¼ã‚¹ã®è©³ç´°ã«ã¤ã„ã¦ã¯å‰²æ„›ã—ã¾ã™ã€‚

ãƒ¢ãƒ‡ãƒ«ãƒ•ãƒªãƒ¼

ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒè‡ªã‚‰å‹•ãã€ãã®çµŒé¨“ã‚’ä½¿ã£ã¦å¦ç¿’ã™ã‚‹ã“ã¨ã‚’ãƒ¢ãƒ‡ãƒ«ãƒ•ãƒªãƒ¼ã¨ã„ã„ã¾ã™ã€‚

çµŒé¨“ã¨ã¯ã€è¦‹ç©ã‚‚ã£ã¦ã„ãŸä¾¡å€¤ $V(s)$ ã¨ã€å®Ÿéš›ã«è¡Œå‹•ã—ã¦ã¿ãŸæ™‚ã®ä¾¡å€¤ $r + \gamma V(s')$ ã®å·®åˆ†ã®ã“ã¨ã§ã™ã€‚

ä»£è¡¨çš„ãªã‚‚ã®ã«ã€ãƒ¢ãƒ³ãƒ†ã‚«ãƒ«ãƒæ³•ã¨TDæ³•ãŒã‚ã‚Šã¾ã™ã€‚TDæ³•ã¯1STEPé€²ã‚“ã ã‚‰ã€èª¤å·® (TDèª¤å·®) ã‚’å°ã•ãã™ã‚‹æ›´æ–°ã‚’è¡Œã„ã€ãƒ¢ãƒ³ãƒ†ã‚«ãƒ«ãƒæ³•ã¯ã‚¨ãƒ”ã‚½ãƒ¼ãƒ‰çµ‚äº†ã¾ã§STEPã‚’é€²ã‚ã¦ã‹ã‚‰ã€èª¤å·®ã‚’å°ã•ãã™ã‚‹æ›´æ–°ã‚’è¡Œã„ã¾ã™ã€‚

TDæ³•ã® $V$ ã®æ›´æ–°ã®ä»•æ–¹
$V(s_t) \leftarrow V(s_t) + \alpha(r_{t+1} + \gamma V(s_{t+1}) - V(s_t))$

ãƒ¢ãƒ³ãƒ†ã‚«ãƒ«ãƒæ³•ã® $V$ ã®æ›´æ–°ã®ä»•æ–¹
$V(s_t) \leftarrow V(s_t) + \alpha ( ( r_{t+1} + \gamma r_{t+2} + \gamma^{2} r_{t+3} + \cdots + \gamma^{T-t-1} r_{T-t})- V(s_t))$

TDæ³•ã®ä»£è¡¨çš„ãªã‚‚ã®ã«Q-learningãŒã‚ã‚Šã¾ã™ã€‚ã‚ã‚‹çŠ¶æ…‹ã«ãŠã‘ã‚‹ã‚ã‚‹è¡Œå‹•ã‚’ã™ã‚‹ã“ã¨ã®ä¾¡å€¤ã‚’ $Q(s, a)$ ã¨è¡¨ã—Qå€¤ã¨è¨€ã„ã¾ã™ã€‚Q-learningã¯æˆ¦ç•¥ã‚’ä½¿ç”¨ã›ãšã«ã€ä¾¡å€¤ãŒæœ€å¤§ã¨ãªã‚‹çŠ¶æ…‹ã«é·ç§»ã™ã‚‹è¡Œå‹•ã‚’ã¨ã‚Šã€ä¾¡å€¤è©•ä¾¡ã‚’æ›´æ–°ã™ã‚‹ãŸã‚ Off-Policy (æˆ¦ç•¥ãŒãªã„)ã¨è¨€ã„ã¾ã™ã€‚ã“ã‚Œã«å¯¾ã—ã€SARSAã¨ã„ã†æ–¹æ³•ã¯è¡Œå‹•ã®æ±ºå®šãŒæˆ¦ç•¥ã«åŸºã¥ãã‚‚ã®ã§ã‚ã‚Šã€æˆ¦ç•¥ã‚’æ›´æ–°ã™ã‚‹ãŸã‚ã€On-Policy ã¨è¨€ã„ã¾ã™ã€‚æˆ¦ç•¥ã‚’ActorãŒæ‹…å½“ã—ã€ä¾¡å€¤è©•ä¾¡ã‚’CriticãŒæ‹…å½“ã—ã¦äº¤äº’ã«æ›´æ–°ã‚’è¡Œã†Actor Criticæ³•ã¨ã„ã†ã‚‚ã®ã‚‚ã‚ã‚Šã¾ã™ã€‚

Connect X

å¼·åŒ–å¦ç¿’ã«ã¤ã„ã¦å¤§ã¾ã‹ã«ç†è§£ã—ãŸã¨ã“ã‚ã§ã€Connect X ã®ç’°å¢ƒã‚’è§¦ã£ã¦ã¿ãŸã„ã¨æ€ã„ã¾ã™ã€‚

ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

ConnectX ã‚³ãƒ³ãƒšã®ç’°å¢ƒãŒä½¿ãˆã‚‹ã‚ˆã†ã€ä»¥ä¸‹ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚’ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã—ã¾ã™ã€‚

>> pip install kaggle-environments

ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã®ä½¿ã„æ–¹

make ã§ã‚²ãƒ¼ãƒ ç’°å¢ƒã®ã‚¤ãƒ³ã‚¹ã‚¿ãƒ³ã‚’ç”Ÿæˆã—ã€render ã§ ã‚²ãƒ¼ãƒ ãƒœãƒ¼ãƒ‰ã®çŠ¶æ…‹ã‚’è¡¨ç¤ºã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

from kaggle_environments import make, utils

env = make("connectx", debug=True)
env.render()

f:id:YukoIshizaki:20200404024256p:plain:w250

configuration ã«ã€ã‚²ãƒ¼ãƒ ã®æ§‹æˆæƒ…å ±ãŒã‚ã‚Šã¾ã™ã€‚åˆ—ãŒ 7 ã§è¡ŒãŒ 6 ã®ãƒœãƒ¼ãƒ‰ã§ãƒã‚§ãƒƒã‚«ãƒ¼ã‚’ 4 ã¤æƒãˆãŸã‚‰è‰¯ã„ã“ã¨ãŒã‚ã‹ã‚Šã¾ã™ã€‚

print(env.configuration)

>> {'timeout': 5, 'columns': 7, 'rows': 6, 'inarow': 4, 'steps': 1000}

ã‚¨ãƒ”ã‚½ãƒ¼ãƒ‰ãŒçµ‚äº†ã™ã‚‹ã¨ã€done ãŒ True ã‚’è¿”ã—ã¾ã™ã€‚
å¯¾æˆ¦ç›¸æ‰‹ã‚’ãƒ©ãƒ³ãƒ€ãƒ ã¨ã—ã¦ã€ãƒˆãƒ¬ãƒ¼ãƒŠãƒ¼ã‚’ä½œæˆã—ã€ã‚²ãƒ¼ãƒ ã‚’åˆæœŸåŒ– (ãƒªã‚»ãƒƒãƒˆ) ã—ã€æ¯Žå›ž 0 åˆ—ç›®ã«ãƒ‰ãƒãƒƒãƒ—ã—ã¦ã¿ã¾ã™ã€‚

trainer = env.train([None, "random"])
state = trainer.reset()
print(f"board: {state.board}\n"\
      f"mark: {state.mark}")

while not env.done:
    state, reward, done, info = trainer.step(0)
    print(f"reward: {reward}, done: {done}, info: {info}")
    board = state.board
env.render(mode="ipython", width=350, height=300)

>> board: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
>> mark: 1
>> reward: 0.5, done: False, info: {}
>> reward: 0.5, done: False, info: {}
>> reward: 0.5, done: False, info: {}
>> reward: 1, done: True, info: {}

state.board ã«ã¯ã€ãƒœãƒ¼ãƒ‰ä¸Šã®é…ç½®ãŒã‚·ãƒªã‚¢ãƒ«åŒ–ã•ã‚ŒãŸé…åˆ—ãŒå¾—ã‚‰ã‚Œã¾ã™
state.mark ã§è‡ªåˆ†ã®ãƒã‚§ãƒƒã‚«ãƒ¼ãŒ 1 ã‹ 2 ã‹åˆ¤åˆ¥ã§ãã¾ã™
trainer.step() ã«è‡ªåˆ†ãŒãƒ‰ãƒãƒƒãƒ—ã™ã‚‹åˆ—ã‚’æ¸¡ã™ã¨ã€ç›¸æ‰‹ã‚‚ãƒ‰ãƒãƒƒãƒ—ã—ãŸå¾Œã® state ã¨reward ã€ã‚²ãƒ¼ãƒ ã®çµ‚äº†åˆ¤å®šãƒ•ãƒ©ã‚°ãŒå¾—ã‚‰ã‚Œã¾ã™
ã™ã§ã«6ã¤ãƒã‚§ãƒƒã‚«ãƒ¼ãŒé…ç½®ã•ã‚Œã¦ã„ã‚‹åˆ—ã«ãƒ‰ãƒãƒƒãƒ—ã™ã‚‹ã¨ã€Invalid Action ã¨ãªã‚Š reward Nan ã§ã‚²ãƒ¼ãƒ çµ‚äº†ã¨ãªã‚Šã¾ã™
renderã®mode ã‚’ ipython ã«ã™ã‚‹ã¨ jupyter notebook ä¸Šã§ãƒ—ãƒ¬ã‚¤å‹•ç”»ã®å†ç”ŸãŒã§ãã¾ã™

f:id:YukoIshizaki:20200404120829g:plain:w300

è©•ä¾¡æŒ‡æ¨™

ã‚¬ã‚¦ã‚¹åˆ†å¸ƒ $N(\mu, \sigma^2)$ ã§ãƒ¢ãƒ‡ãƒ«åŒ–ã•ã‚Œã€ $\mu$ ã®å€¤ãŒã‚¹ã‚ãƒ«è©•ä¾¡ã¨ã—ã¦LBã«åæ˜ ã•ã‚Œã¦ã„ã¾ã™ã€‚ã‚µãƒ–ãƒŸãƒƒãƒˆã™ã‚‹ã¨ã€ $\mu$ ã¯ 600ã§åˆæœŸåŒ–ã•ã‚Œã¦ã€å…¨ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®ãƒ—ãƒ¼ãƒ«ã«å…¥ã‚Œã‚‰ã‚Œã¾ã™ã€‚å„ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã¯ 1 æ—¥æœ€å¤§ 8 ã‚¨ãƒ”ã‚½ãƒ¼ãƒ‰åˆ†ã€è‡ªåˆ†ã®è©•ä¾¡ã¨è¿‘ã—ã„ã‚‚ã®ã¨å¯¾æˆ¦ã‚’è¡Œã„ã¾ã™ã€‚ãã®å¯¾æˆ¦ã§è² ã‘ã‚‹ã¨ $\mu$ ã®å€¤ãŒå°ã•ããªã‚Šã€å‹ã¤ã¨ $\mu$ ã®å€¤ãŒå¤§ãããªã‚Šã€å¼•ãåˆ†ã‘ã ã¨ä¸¡è€…ã®å¹³å‡ã¨ãªã‚Šã¾ã™ã€‚å€¤ã®æ›´æ–°ã¯ã€ãã‚Œãžã‚Œã®åå·®ã‚’è€ƒæ…®ã—ãŸå€¤ã«ãªã‚Š $\sigma$ ã‚‚æ›´æ–°ã•ã‚Œã¾ã™ã€‚ã¾ãŸã€æ–°ã—ã„ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®å ´åˆã¯ã€ãƒ¬ãƒ¼ãƒˆã‚’å°‘ã—ä¸Šã’ã¦å‡ºæ¥ã‚‹ã ã‘æ—©ãã€é©åˆ‡ãªå€¤ã«ãªã‚‹ã‚ˆã†ã«èª¿æ•´ã—ã¦ã„ã‚‹ãã†ã§ã™ã€‚

æ–°ãŸãªã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚’ä½œæˆã—ãŸã¨ãã€ã‚µãƒ–ãƒŸãƒƒãƒˆå‰ã«ç¾åœ¨ã®LBã®ãŠã‘ã‚‹ $\mu$ å€¤ã®è¨ˆç®—ã‚’ã™ã‚‹ã®ã¯é›£ã—ã„ã§ã™ãŒã€ã„ãšã‚Œã«ã›ã‚ˆã€å¼·ã„ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã¯å¾ã€…ã« LB ã‚’ç™»ã£ã¦ã„ãã€è² ã‘ç¶šã‘ã‚‹ã¨ä¸‹ãŒã£ã¦ã„ãã‚ˆã†ã«ãªã£ã¦ã„ã¾ã™ã€‚

ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®ä½œæˆ

Connect X ã‚³ãƒ³ãƒšã§ã¯ã€ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®æŒ¯ã‚‹èˆžã„ãŒè¨˜è¼‰ã•ã‚ŒãŸ Python ãƒ•ã‚¡ã‚¤ãƒ«ã‚’æå‡ºã™ã‚‹å¿…è¦ãŒã‚ã‚‹ã®ã§ã€ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚’ä½œæˆã—ã¦æå‡ºã—ã¦ã¿ã¾ã™ã€‚

ä¸€ç•ªä¸ŠãŒ 0 (ç©º) ã§ã‚ã‚‹åˆ—ã®ä¸ã‹ã‚‰ã€ãƒ©ãƒ³ãƒ€ãƒ ã« 1 ã¤é¸ã¶ã ã‘ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚’ä½œæˆã—ã¾ã™ã€‚

from random import choice
def my_agent(state, configuration):
    return choice([c for c in range(configuration.columns) if state.board[c] == 0])

evaluate ã«ã€ã‚²ãƒ¼ãƒ åã¨ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã¨ã‚¨ãƒ”ã‚½ãƒ¼ãƒ‰æ•°ã‚’æ¸¡ã™ã¨ã€å¯¾æˆ¦çµæžœãŒå¾—ã‚‰ã‚Œã¾ã™ã€‚
ä»¥ä¸‹ã®å‡ºåŠ›ã ã¨ 2 å‹ 1 æ•—ã§ã™ã€‚

from kaggle_environments import evaluate
print(evaluate("connectx", [my_agent, "random"], num_episodes=3))

>> [[1, 0], [0, 1], [1, 0]]

submission.py ãƒ•ã‚¡ã‚¤ãƒ«ã« my_agent ã‚’å‡ºåŠ›ã—ã¾ã™ã€‚

import inspect
import os

def write_agent_to_file(function, file):
    with open(file, "a" if os.path.exists(file) else "w") as f:
        f.write(inspect.getsource(function))

write_agent_to_file(my_agent, "submission.py")

ã“ã‚Œã¯æå‡ºãƒ•ã‚¡ã‚¤ãƒ«ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒæ£å¸¸ã«å‹•ä½œã™ã‚‹ã‹ã®ç¢ºèªã‚³ãƒ¼ãƒ‰ã§ã™ã€‚ã‚µãƒ–ãƒŸãƒƒãƒˆã™ã‚‹å‰ã«ã€ç¢ºèªã—ã¦ãŠãã¾ã™ã€‚

import sys
out = sys.stdout
submission = utils.read_file("{æå‡ºãƒ•ã‚¡ã‚¤ãƒ«Path}")
agent = utils.get_last_callable(submission)
sys.stdout = out

env = make("connectx", debug=True)
env.run([agent, agent])
print("Success" if env.state[0].status == env.state[1].status == "DONE" else "Failed")

>> Success

ãƒ•ã‚¡ã‚¤ãƒ«ãŒå‡ºåŠ›ã•ã‚ŒãŸã‚‰ã€ã„ã¤ã‚‚ã¨åŒã˜ã‚ˆã†ã«ãƒ•ã‚¡ã‚¤ãƒ«ã‚’ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰ã—ã¾ã™ã€‚
é€šå¸¸ã¨åŒã˜ãã€kernelã‹ã‚‰æå‡ºã™ã‚‹ã“ã¨ã‚‚ã€APIã§æå‡ºã™ã‚‹ã“ã¨ã‚‚ã§ãã¾ã™ã€‚

f:id:YukoIshizaki:20200404142714p:plain:w700

LBä¸Šã®ãƒ‡ã‚£ã‚¹ãƒ—ãƒ¬ã‚¤ã‚¢ã‚¤ã‚³ãƒ³ã‚’ã‚¯ãƒªãƒƒã‚¯ã™ã‚‹ã¨ã€LBä¸Šã§ã®å¯¾æˆ¦å‹•ç”»ãŒã¿ã‚Œã¾ã™ï¼ã“ã®ã‚ˆã†ãªä»–ã®ã‚³ãƒ³ãƒšã¨ã¯é•ã†ã¨ã“ã‚ã¯ã€é¢ç™½ã„ã§ã™ãã€‚

Q-Learning ã®å®Ÿè£…

ã‚ã‚‹çŠ¶æ…‹ã§ã‚ã‚‹è¡Œå‹•ã‚’è¡Œã†ã“ã¨ã®ä¾¡å€¤ã‚’Qå€¤ $Q(s, a)$ ã¨è¡¨ã—ã€ãã®Qå€¤ã‚’å¦ç¿’ã™ã‚‹æ–¹æ³•ã§ã‚ã‚‹ã€Q-Learning ã‚’ Connect X ã«ç”¨ã«å®Ÿè£…ã—ã¦ã¿ã¾ã™ã€‚

Qãƒ†ãƒ¼ãƒ–ãƒ«

Qå€¤ã‚’æ ¼ç´ã—ã¦ãŠãQãƒ†ãƒ¼ãƒ–ãƒ«ã®å®Ÿè£…

Q : Qãƒ†ãƒ¼ãƒ–ãƒ«ã‚’dictã§ã€keyã«çŠ¶æ…‹ã‚’, valueã«å…¨actionã®Qå€¤ã‚’é…åˆ—ã§æ ¼ç´ã—ã¦ãŠã
get_state_key : Qãƒ†ãƒ¼ãƒ–ãƒ«ã®keyã§ã‚ã‚‹ã€çŠ¶æ…‹ (è‡ªåˆ†ãŒã©ã¡ã‚‰ã®ãƒã‚§ãƒƒã‚«ãƒ¼ã‹ã‚‚åŠ å‘³) ã‚’ state_key (16é€²æ•°)ã§è¡¨ã™
get_q_values : ã‚ã‚‹çŠ¶æ…‹ã§ã®å…¨actionã®Qå€¤ã‚’é…åˆ— (0 ~ 6: ãƒ‰ãƒãƒƒãƒ—ã™ã‚‹åˆ—é †) ã§è¿”ã™é–¢æ•°
update : ã‚ã‚‹çŠ¶æ…‹ã«ãŠã‘ã‚‹ã‚ã‚‹ã‚¢ã‚¯ã‚·ãƒ§ãƒ³ã«å¯¾ã—ã¦æ›´æ–°ã‚’ã‹ã‘ã‚‹

class QTable():
    def __init__(self, actions):
        self.Q = {} # Qãƒ†ãƒ¼ãƒ–ãƒ«
        self.actions = actions
    
    def get_state_key(self, state):
        # 16é€²æ•°ã§çŠ¶æ…‹ã®keyã‚’ä½œã‚‹
        board = state.board[:]
        board.append(state.mark)
        state_key = np.array(board).astype(str) 
        return hex(int(''.join(state_key), 3))[2:]        
        
    def get_q_values(self, state):
        # çŠ¶æ…‹ã«å¯¾ã—ã¦ã€å…¨actionã®Qå€¤ã®é…åˆ—ã‚’å‡ºåŠ›
        state_key = self.get_state_key(state)
        if state_key not in self.Q.keys(): 
            # éŽåŽ»ã«ãã®çŠ¶æ…‹ã«ãªã£ãŸã“ã¨ãŒãªã„å ´åˆ
            self.Q[state_key] = [0] * len(self.actions)
        return self.Q[state_key]
    
    def update(self, state, action, add_q):
        # Qå€¤ã‚’æ›´æ–°
        state_key = self.get_state_key(state)
        self.Q[state_key] = [q + add_q if idx == action else q for idx, q in enumerate(self.Q[state_key])]

Agent ã®å®Ÿè£…

policy function : Qãƒ†ãƒ¼ãƒ–ãƒ«ã‚’ã‚‚ã¨ã«ã€ã‚ã‚‹çŠ¶æ…‹ã«ãŠã‘ã‚‹Qå€¤ãŒæœ€å¤§ãªactionã‚’é¸æŠžã™ã‚‹
custom_reward : Qãƒ†ãƒ¼ãƒ–ãƒ«ã®ä½œæˆãŒã‚ˆã‚Šã†ã¾ãã„ãã‚ˆã†ã«å ±é…¬é–¢æ•°ã‚’ã‚«ã‚¹ã‚¿ãƒžã‚¤ã‚º
learn : ã‚¨ãƒ”ã‚½ãƒ¼ãƒ‰ã”ã¨ã«Qãƒ†ãƒ¼ãƒ–ãƒ«ã‚’æ›´æ–°ã—ã¦å¦ç¿’ã•ã›ã‚‹
q_table : çŠ¶æ…‹ x è¡Œå‹• ã«å¯¾ã—ã¦ã€ä¾¡å€¤ã‚’æ ¼ç´ã—ãŠã Q ãƒ†ãƒ¼ãƒ–ãƒ«
reward_log : å ±é…¬ã®å±¥æ´

ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿

episode_cnt : å¦ç¿’ã«ä½¿ã†ã‚¨ãƒ”ã‚½ãƒ¼ãƒ‰æ•°
epsilon : æŽ¢ç´¢ã‚’è¡Œã†(Qå€¤ã«å¾“ã‚ãªã„)ã‚ˆã†ã«ã™ã‚‹ç¢ºçŽ‡, ã¯ã˜ã‚ã¯å¤§ããã¦å¾ã€…ã«å°ã•ããªã‚‹ã‚ˆã†ã«å®Ÿè£…
gamma : æ™‚é–“å‰²å¼•çŽ‡
learn_rate : å¦ç¿’çŽ‡

env = make("connectx", debug=True)
trainer = env.train([None, "random"])

class QLearningAgent():
    def __init__(self, env, epsilon=0.99):
        self.env = env
        self.actions = list(range(self.env.configuration.columns))
        self.q_table = QTable(self.actions)
        self.epsilon = epsilon
        self.reward_log = []    
        
    def policy(self, state):
        if np.random.random() < self.epsilon:
            # epsilonã®å‰²åˆã§ã€ãƒ©ãƒ³ãƒ€ãƒ ã«actionã‚’é¸æŠžã™ã‚‹
            return choice([c for c in range(len(self.actions)) if state.board[c] == 0])
        else:
            # ã‚²ãƒ¼ãƒ ä¸Šé¸æŠžå¯èƒ½ã§ã€Qå€¤ãŒæœ€å¤§ãªactionã‚’é¸æŠžã™ã‚‹
            q_values = self.q_table.get_q_values(state)
            selected_items = [q if state.board[idx] == 0 else -1e7 for idx, q in enumerate(q_values)]
            return int(np.argmax(selected_items))
        
    def custom_reward(self, reward, done):
        if done:
            if reward == 1: # å‹ã¡
                return 20
            elif reward == 0: # è² ã‘
                return -20
            else: # å¼•ãåˆ†ã‘
                return 10
        else:
            return -0.05 # å‹è² ãŒã¤ã„ã¦ãªã„
        
    def learn(self, trainer, episode_cnt=10000, gamma=0.6, 
              learn_rate=0.3, epsilon_decay_rate=0.9999, min_epsilon=0.1):
        for episode in tqdm(range(episode_cnt)):
            # ã‚²ãƒ¼ãƒ ç’°å¢ƒãƒªã‚»ãƒƒãƒˆ
            state = trainer.reset() 
            # epsilonã‚’å¾ã€…ã«å°ã•ãã™ã‚‹
            self.epsilon = max(min_epsilon, self.epsilon * epsilon_decay_rate) 
            while not env.done:
                # ã©ã®åˆ—ã«ãƒ‰ãƒãƒƒãƒ—ã™ã‚‹ã‹æ±ºã‚ã‚‹ã¦å®Ÿè¡Œã™ã‚‹
                action = self.policy(state) 
                next_state, reward, done, info = trainer.step(action)
                reward = self.custom_reward(reward, done)
                # èª¤å·®ã‚’è¨ˆç®—ã—ã¦Qãƒ†ãƒ¼ãƒ–ãƒ«ã‚’æ›´æ–°ã™ã‚‹
                gain = reward + gamma * max(self.q_table.get_q_values(next_state))
                estimate = self.q_table.get_q_values(state)[action]
                self.q_table.update(state, action, learn_rate * (gain - estimate)) 
                state = next_state
      
            self.reward_log.append(reward)

çµæžœ

# å¦ç¿’
qa = QLearningAgent(env)
qa.learn(trainer)

# ã‚²ãƒ¼ãƒ çµ‚äº†æ™‚ã«å¾—ã‚‰ã‚ŒãŸå ±é…¬ã®ç§»å‹•å¹³å‡
import seaborn as sns
sns.set(style='darkgrid')
pd.DataFrame({'Average Reward': qa.reward_log}).rolling(500).mean().plot(figsize=(10,5))
plt.show()

æ›´æ–°ã•ã‚ŒãŸ q_table ã«å¦ç¿’ã§å¾—ã‚‰ã‚ŒãŸ Q å€¤ãŒã€ reward_log ã«å ±é…¬ã®å±¥æ´ (å‹æ•—) ãŒå¾—ã‚‰ã‚Œã¾ã™ã€‚
å ±é…¬ã®ç§»å‹•å¹³å‡ã‚’ã¿ã‚‹ã¨ã€å¾ã€…ã«å‹çŽ‡ãŒä¸ŠãŒã£ã¦ã„ã‚‹ã®ãŒç¢ºèªã§ãã¾ã™ã€‚ã¡ã‚ƒã‚“ã¨å¦ç¿’ã§ãã¦ã„ã‚‹ã‚ˆã†ã§ã™ï¼

f:id:YukoIshizaki:20200405200836p:plain:w500

Pythonãƒ•ã‚¡ã‚¤ãƒ«ã¸ã®å‡ºåŠ›

ã¾ãŸã€ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®æŒ¯ã‚‹èˆžã„ã‚’ã™ã‚‹1ã¤ã®é–¢æ•°ã¨ã—ã¦Pythonãƒ•ã‚¡ã‚¤ãƒ«ã¸å‡ºåŠ›ã™ã‚‹ãŸã‚ã€Qãƒ†ãƒ¼ãƒ–ãƒ«ã®ãƒ‡ãƒ¼ã‚¿ã‚’æ–‡å—åˆ—ã«å¤‰æ›ã—ã€ä»¥ä¸‹ã®ã‚³ãƒ¼ãƒ‰ã§Pythonãƒ•ã‚¡ã‚¤ãƒ«ã«æ›¸ãè¾¼ã‚€éš›ã«dictã¨ã—ã¦æ‰±ãˆã‚‹ã‚ˆã†ã«ã—ã¦å‡ºåŠ›ã—ã¾ã™ã€‚

tmp_dict_q_table = qa.q_table.Q.copy()
dict_q_table = dict()

# å¦ç¿’ã—ãŸQãƒ†ãƒ¼ãƒ–ãƒ«ã§ã€ä¸€ç•ªQå€¤ã®å¤§ãã„Actionã«ç½®ãæ›ãˆã‚‹
for k in tmp_dict_q_table:
    if np.count_nonzero(tmp_dict_q_table[k]) > 0:
        dict_q_table[k] = int(np.argmax(tmp_dict_q_table[k]))

my_agent = '''def my_agent(observation, configuration):
    from random import choice
    # ä½œæˆã—ãŸãƒ†ãƒ¼ãƒ–ãƒ«ã‚’æ–‡å—åˆ—ã«å¤‰æ›ã—ã¦ã€Pythonãƒ•ã‚¡ã‚¤ãƒ«ä¸Šã§dictã¨ã—ã¦æ‰±ãˆã‚‹ã‚ˆã†ã«ã™ã‚‹
    q_table = ''' \
    + str(dict_q_table).replace(' ', '') \
    + '''
    board = observation.board[:]
    board.append(observation.mark)
    state_key = list(map(str, board))
    state_key = hex(int(''.join(state_key), 3))[2:]
    # Qãƒ†ãƒ¼ãƒ–ãƒ«ã«å˜åœ¨ã—ãªã„çŠ¶æ…‹ã®å ´åˆ
    if state_key not in q_table.keys():
        return choice([c for c in range(configuration.columns) if observation.board[c] == 0])
    # Qãƒ†ãƒ¼ãƒ–ãƒ«ã‹ã‚‰æœ€å¤§ã®Qå€¤ã‚’ã¨ã‚‹Actionã‚’é¸æŠž
    action = q_table[state_key]
    # é¸ã‚“ã ActionãŒã€ã‚²ãƒ¼ãƒ ä¸Šé¸ã¹ãªã„å ´åˆ
    if observation.board[action] != 0:
        return choice([c for c in range(configuration.columns) if observation.board[c] == 0])
    return action
    '''

with open('submission.py', 'w') as f:
    f.write(my_agent)

Qãƒ†ãƒ¼ãƒ–ãƒ«ã®ä½œã‚Šæ–¹ãƒ»ãƒ•ã‚¡ã‚¤ãƒ«å‡ºåŠ›ã®ä»•æ–¹ã¯ã“ã¡ã‚‰ã®kernelã‚’å‚è€ƒã«ã—ã¾ã—ãŸ.
ConnectX with Q-Learning | Kaggle

Deep Q-Net ã®å®Ÿè£…

å¼·åŒ–å¦ç¿’ã«ãƒ‡ã‚£ãƒ¼ãƒ—ãƒ©ãƒ¼ãƒ‹ãƒ³ã‚°ã‚’ä½¿ã£ãŸä»£è¡¨çš„ãªDeep Q-Netã«ã¤ã„ã¦ã€Connect X ç”¨ã«å®Ÿè£…ã—ã¦ã¿ã¾ã™ã€‚
åŸºæœ¬çš„ãªè€ƒãˆæ–¹ã¯Q-learningã¨åŒã˜ã§ã€Qãƒ†ãƒ¼ãƒ–ãƒ«ã§è¡Œãªã£ã¦ã„ãŸä¾¡å€¤ã®è©•ä¾¡ã«ã€CNNã‚’ç”¨ã„ã¾ã™ã€‚
inputã¯çŠ¶æ…‹ $s$ ã§ã€outputã¯actionã®ä¾¡å€¤ã§ã€Lossé–¢æ•°ã§TDèª¤å·®ã‚’æœ€å°åŒ–ã™ã‚‹ã™ã‚‹ã‚ˆã†ã«å®Ÿè£…ã—ã¾ã™ã€‚

ã¾ãŸã€ã†ã¾ãå¦ç¿’ã‚’è¡Œã†ãŸã‚ã® 3 ã¤ã®ãƒ†ã‚¯ãƒ‹ãƒƒã‚¯ãŒã‚ã‚Šã¾ã™ã€‚

Experience Replay

ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è¡Œå‹•å±¥æ´ã‚’è²¯ã‚ã¦ãŠãã€ãã“ã‹ã‚‰ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã—ã¦å¦ç¿’ã«åˆ©ç”¨ã—ã¾ã™ã€‚è¡Œå‹•å±¥æ´ã¨ã¯ [ çŠ¶æ…‹, è¡Œå‹•, å ±é…¬, é·ç§»å…ˆã®çŠ¶æ…‹, ã‚¨ãƒ”ã‚½ãƒ¼ãƒ‰ã®çµ‚äº†ãƒ•ãƒ©ã‚° ] ã®ã¾ã¨ã¾ã‚Šã«ãªã‚Šã¾ã™ã€‚ã•ã¾ã–ã¾ãªã‚¨ãƒ”ã‚½ãƒ¼ãƒ‰ã®ç•°ãªã‚‹ã‚¿ã‚¤ãƒŸãƒ³ã‚°ã®ãƒ‡ãƒ¼ã‚¿ãŒä½¿ãˆã‚‹ã“ã¨ã§ã€å¦ç¿’ã‚’å®‰å®šã•ã›ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

Fixed Target Q-Network

é·ç§»å…ˆã®ä¾¡å€¤ã‚’è¨ˆç®—ã™ã‚‹å ´åˆã€ç¾åœ¨ã®æ›´æ–°ã—ã¦ã„ã‚‹ãƒ¢ãƒ‡ãƒ«(CNN)ã¨åŒã˜ã‚‚ã®ã‚’ä½¿ç”¨ã™ã‚‹ã¨é‡ã¿ã‚’æ›´æ–°ã™ã‚‹ãŸã³ã«é•ã£ãŸå€¤ã«ãªã£ã¦ã—ã¾ã„ã€TDèª¤å·®ãŒå®‰å®šã—ãªã„ã‚‚ã®ã«ãªã£ã¦ã—ã¾ã„ã¾ã™ã€‚ä¸€å®šæœŸé–“ã€æ›´æ–°ã—ã¦ã„ãªã„CNNãƒ¢ãƒ‡ãƒ«ã‹ã‚‰é·ç§»å…ˆã®ä¾¡å€¤ã‚’è¨ˆç®—ã—ã€ã‚ã‚‹ã‚¿ã‚¤ãƒŸãƒ³ã‚°ã§æ›´æ–°ã‚’ã‹ã‘ã‚‹ã€ã¨ã„ã£ãŸæ–¹æ³•ã‚’ã¨ã‚Šã¾ã™ã€‚ä¾¡å€¤ã®è©•ä¾¡ã®ãŸã‚ã«æ›´æ–°ã—ç¶šã‘ã¦ã„ã‚‹CNNã¨é·ç§»å…ˆã®ä¾¡å€¤è¨ˆç®—ç”¨ã®CNNã€2 ã¤ã‚’ä½¿ã£ã¦å¦ç¿’ã—ã¾ã™ã€‚

Clipping

å ±é…¬ã‚’ã€æˆåŠŸãŒ 1 , å¤±æ•—ãŒ -1 , ãã‚Œä»¥å¤–ã¯ 0 ã«çµ±ä¸€ã—ã¾ã™ã€‚

CNN ã®å®Ÿè£…

ä¾¡å€¤è©•ä¾¡ã‚’è¡Œã†ãŸã‚ã®CNNã‚’å®Ÿè£…ã—ã¾ã™ã€‚ä¸Šè¨˜ã€Fixed Target Q-Network ã‚’ä½¿ã†ãŸã‚ã€ä¾¡å€¤è©•ä¾¡ç”¨ã®CNNã¨é·ç§»å…ˆä¾¡å€¤è¨ˆç®—ç”¨ã®CNNã€ä¸¡æ–¹ã“ã®CNNã‚’ä½¿ã„ã¾ã™ã€‚

ä»Šå›žã¯ã€å››ç›®ä¸¦ã¹ã¨ã„ã†å°ã•ã„ã‚²ãƒ¼ãƒ ãƒœãƒ¼ãƒ‰ãªã®ã§ã€ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯æ§‹æˆã‚’ç•³ã¿è¾¼ã¿2å±¤ã®å°ã•ã„CNNã«ã—ã¦ã¿ã¾ã—ãŸã€‚input ã¯çŠ¶æ…‹ã®ã‚²ãƒ¼ãƒ ãƒœãƒ¼ãƒ‰ã®ãƒã‚§ãƒƒã‚«ãƒ¼ã®é…ç½®ã‚’2æ¬¡å…ƒ (7, 6) ã§ãã®ã¾ã¾å…¥ã‚Œã¦ã¾ã™ã€‚output ã¯ action ã® value (7) ã§ã™ã€‚

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

class CNN(nn.Module):
    def __init__(self, outputs=7):
        super(CNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 16, 3)
        self.bn1 = nn.BatchNorm2d(16)
        self.conv2 = nn.Conv2d(16, 32, 3)
        self.bn2 = nn.BatchNorm2d(32)
        self.fc = nn.Linear(192, 32)
        self.head = nn.Linear(32, outputs)

    def forward(self, x):
        x = F.relu(self.bn1(self.conv1(x)))
        x = F.relu(self.bn2(self.conv2(x)))
        x = x.view(x.size()[0], -1)
        x = self.fc(x)
        x = self.head(x)
        return x

Deep Q-Net ã® Agent ã®å®Ÿè£…

ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®å®Ÿè£…ã‚’ã—ã¾ã™ã€‚Q-lerningã§ã®å®Ÿè£…ã®é•ã„ã¯ã€ä»¥ä¸‹ã® 4 ç‚¹ã§ã™ã€‚

CNNã«å…¥ã‚Œã‚‰ã‚Œã‚‹ã‚ˆã†ã«ã€ãƒã‚§ãƒƒã‚«ãƒ¼ã®é…ç½®ã‚’ (1, 7, 6) ã® Tensorã«å¤‰æ›ã™ã‚‹ã¨ã“ã‚ã¨
è‡ªåˆ†ã®ãƒã‚§ãƒƒã‚«ãƒ¼ã‚’ 1 ã€ç›¸æ‰‹ã®ãƒã‚§ãƒƒã‚«ãƒ¼ã‚’ 0.5 ã« ã—ãŸã“ã¨
ä¸Šè¨˜ã®ãƒ†ã‚¯ãƒ‹ãƒƒã‚¯ Experience Replay, Fixed Target Q-Network, Clipping ã‚’ä½¿ç”¨ã™ã‚‹ã“ã¨

class DeepQNetworkAgent():
    def __init__(self, env, lr=1e-2, min_experiences=100, max_experiences=10_000, channel=1):
        self.env = env
        self.model = CNN() # ä¾¡å€¤è©•ä¾¡ç”¨ã®CNN
        self.teacher_model = CNN() # é·ç§»å…ˆä¾¡å€¤è©•ä¾¡ç”¨ã®CNN
        self.optimizer = optim.Adam(self.model.parameters(), lr=lr)
        self.criterion = nn.MSELoss()
        self.experience = {'s': [], 'a': [], 'r': [], 'n_s': [], 'done': []} # è¡Œå‹•å±¥æ´
        self.min_experiences = min_experiences
        self.max_experiences = max_experiences
        self.actions = list(range(self.env.configuration.columns))
        self.col_num = self.env.configuration.columns
        self.row_num = self.env.configuration.rows
        self.channel = channel
        
    def add_experience(self, exp):
        # è¡Œå‹•å±¥æ´ã®æ›´æ–°
        if len(self.experience['s']) >= self.max_experiences:
            # è¡Œå‹•å±¥æ´ã®ã‚µã‚¤ã‚ºãŒå¤§ãã™ãŽã‚‹æ™‚ã¯å¤ã„ã‚‚ã®ã‚’å‰Šé™¤
            for key in self.experience.keys():
                self.experience[key].pop(0)
        for key, value in exp.items():
            self.experience[key].append(value)
        
        
    def preprocess(self, state):
        # çŠ¶æ…‹ã¯è‡ªåˆ†ã®ãƒã‚§ãƒƒã‚«ãƒ¼ã‚’1, ç›¸æ‰‹ã®ãƒã‚§ãƒƒã‚«ãƒ¼ã‚’0.5ã¨ã—ãŸ7x6å¤šæ¬¡å…ƒé…åˆ—ã§è¡¨ã™
        result = np.array(state.board[:])
        result = result.reshape([self.col_num, self.row_num])
        if state.mark == 1:
            return np.where(result == 2, 0.5, result)
        else:
            result = np.where(result == 2, 1, result)
            return np.where(result == 1, 0.5, result)
    
    def estimate(self, state):
        # ä¾¡å€¤ã®è¨ˆç®—
        return self.model(
            torch.from_numpy(state).view(-1, self.channel, self.col_num, self.row_num).float()
        ) 
    
    def future(self, state):
        # é·ç§»å…ˆã®ä¾¡å€¤ã®è¨ˆç®—
        return self.teacher_model(
            torch.from_numpy(state).view(-1, self.channel, self.col_num, self.row_num).float()
        )
    
    def policy(self, state, epsilon):
        # çŠ¶æ…‹ã‹ã‚‰ã€CNNã®å‡ºåŠ›ã«åŸºã¥ãã€æ¬¡ã®è¡Œå‹•ã‚’é¸æŠž
        if np.random.random() < epsilon:
            # æŽ¢ç´¢
            return int(np.random.choice([c for c in range(len(self.actions)) if state.board[c] == 0]))
        else:
            # Actionã®ä¾¡å€¤ã‚’å–å¾—
            prediction = self.estimate(self.preprocess(state))[0].detach().numpy()
            for i in range(len(self.actions)):
                # ã‚²ãƒ¼ãƒ ä¸Šé¸æŠžå¯èƒ½ãªactionã«çµžã‚‹
                if state.board[i] != 0:
                    prediction[i] = -1e7
            return int(np.argmax(prediction))
    
    def update(self, gamma):
        # è¡Œå‹•å±¥æ´ãŒååˆ†ã«è“„ç©ã•ã‚Œã¦ã„ã‚‹ã‹
        if len(self.experience['s']) < self.min_experiences:
            return 
        
        # è¡Œå‹•å±¥æ´ã‹ã‚‰å¦ç¿’ç”¨ã®ãƒ‡ãƒ¼ã‚¿ã®idã‚’ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã™ã‚‹
        ids = np.random.randint(low=0, high=len(self.experience['s']), size=32)
        states = np.asarray([self.preprocess(self.experience['s'][i]) for i in ids])
        states_next = np.asarray([self.preprocess(self.experience['n_s'][i]) for i in ids])
        
        # ä¾¡å€¤ã®è¨ˆç®—
        estimateds = self.estimate(states).detach().numpy() # è¦‹ç©ã‚‚ã‚Šã®ä¾¡å€¤
        future = self.future(states_next).detach().numpy() # é·ç§»å…ˆã®ä¾¡å€¤
        target = estimateds.copy()
        for idx, i in enumerate(ids):
            a = self.experience['a'][i]
            r = self.experience['r'][i]
            d = self.experience['done'][i]
            reward = r
            if not d:
                reward += gamma * np.max(future[idx])
        # TDèª¤å·®ã‚’å°ã•ãã™ã‚‹ã‚ˆã†ã«CNNã‚’æ›´æ–°
        self.optimizer.zero_grad()
        loss = self.criterion(torch.tensor(estimateds, requires_grad=True),
                              torch.tensor(target, requires_grad=True))
        loss.backward()
        self.optimizer.step()
        
    def update_teacher(self):
        # é·ç§»å…ˆã®ä¾¡å€¤ã®æ›´æ–°
        self.teacher_model.load_state_dict(self.model.state_dict())

Deep Q-Net ã® Trainer ã®å®Ÿè£…

åŸºæœ¬çš„ã«ã€Q-learning ã¨å¤‰ã‚ã‚Šã¾ã›ã‚“ã€‚
è¡Œå‹•å±¥æ´ã‚’ãŸã‚ã¦ã„ãå‡¦ç†ã¨ã€ä¸€å®šã®é–“éš”ã§ä¾¡å€¤è©•ä¾¡ç”¨ã®CNNã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’é·ç§»å…ˆä¾¡å€¤è¨ˆç®—ç”¨ã®CNNã«ã‚³ãƒ”ãƒ¼ã—ã¦ã„ã‚‹å‡¦ç†ãŒè¿½åŠ ã•ã‚Œã¦ã„ã¾ã™ã€‚

class DeepQNetworkTrainer():
    def __init__(self, env):
        self.epsilon = 0.9
        self.env = env
        self.agent = DeepQNetworkAgent(env)
        self.reward_log = []
    
    def custom_reward(self, reward, done):
        # Clipping
        if done:
            if reward == 1: # å‹ã¡
                return 1
            elif reward == 0: # è² ã‘
                return -1
            else: # å¼•ãåˆ†ã‘
                return 0
        else:
            return 0 # å‹è² ãŒã¤ã„ã¦ãªã„
        
    def train(self, trainer,epsilon_decay_rate=0.9999, min_epsilon=0.1, episode_cnt=100, gamma=0.6):
        iter = 0
        for episode in tqdm(range(episode_cnt)):
            rewards = []
            state = trainer.reset() # ã‚²ãƒ¼ãƒ ç’°å¢ƒãƒªã‚»ãƒƒãƒˆ
            self.epsilon = max(min_epsilon, self.epsilon * epsilon_decay_rate) # epsilonã‚’å¾ã€…ã«å°ã•ãã™ã‚‹
            while not env.done: 
                # ã©ã®åˆ—ã«ãƒ‰ãƒãƒƒãƒ—ã™ã‚‹ã‹æ±ºã‚ã‚‹
                action = self.agent.policy(state, self.epsilon)
                prev_state = state
                state, reward, done, _ = trainer.step(action) 
                reward = self.custom_reward(reward, done)
                # è¡Œå‹•å±¥æ´ã®è“„ç©
                exp = {'s': prev_state, 'a': action, 'r': reward, 'n_s': state, 'done': done}
                self.agent.add_experience(exp)
                # ä¾¡å€¤è©•ä¾¡ã®æ›´æ–°
                self.agent.update(gamma)
                iter += 1
                if iter % 100 == 0:
                    # é·ç§»å…ˆä¾¡å€¤è¨ˆç®—ç”¨ã®æ›´æ–°
                    self.agent.update_teacher()
            self.reward_log.append(reward)

çµæžœ

å®Ÿéš›ã« Deep Q-Net Agentã§å¦ç¿’ã—ã¦ã¿ã¾ã™ã€‚

dq = DeepQNetworkTrainer(env)
dq.train(trainer, episode_cnt=30000)

# çµæžœã®æç”»
import seaborn as sns
sns.set()

sns.set_palette("winter", 8)
sns.set_context({"lines.linewidth": 1})
pd.DataFrame({'Average Reward': dq.reward_log}).rolling(300).mean().plot(figsize=(10,5))

f:id:YukoIshizaki:20200405195449p:plain:w500

å ±é…¬ã®å±¥æ´ã‹ã‚‰å‹æ•—ã®ç§»å‹•å¹³å‡ã‚’ã¿ã¦ã¿ã‚‹ã¨ã€å¾ã€…ã«å‹ã¦ã‚‹ã‚ˆã†ã«ãªã£ã¦ã„ã¦ã€ã†ã¾ãå¦ç¿’ã§ãã¦ã„ãã†ã§ã™ã€‚(ã•ãã»ã©ã®Q-learningã¨ã¯å ±é…¬é–¢æ•°ãŒç•°ãªã‚‹ã®ã§ã€yè»¸ã®ã‚¹ã‚±ãƒ¼ãƒ«ãŒç•°ãªã‚Šã¾ã™)

ä»Šå›žã€20,000ã‚¨ãƒ”ã‚½ãƒ¼ãƒ‰å¦ç¿’ã•ã›ã¾ã—ãŸãŒã€ä»–ã®æ–¹ã®kernelã‚’è¦‹ã‚‹ã¨3000ã‚¨ãƒ”ã‚½ãƒ¼ãƒ‰ãã‚‰ã„ã§ã†ã¾ãå¦ç¿’ã•ã›ã‚‰ã‚Œã¦ã„ã‚‹äººã‚‚ã„ã‚‹ã®ã§ã€CNNã‚„ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’èª¿æ•´ã—ã¦ä¸Šæ‰‹ãæ—©ãå¦ç¿’ã§ãã‚‹ã‚ˆã†ã«å·¥å¤«ã—ãŸæ–¹ãŒè‰¯ã„ã®ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚

ãŠã‚ã‚Š

å¼·åŒ–å¦ç¿’åˆå¿ƒè€…ã®å‹‰å¼·ã®å ´ã¨ã—ã¦ã€kaggle ã® Connect X ã¯æœ€é©ã ã¨æ€ã„ã¾ã—ãŸï¼kaggle ã® notebook ã‚’ç«‹ã¡ä¸Šã’ã‚Œã°ã™ãã«ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚’å‹•ã‹ã›ã‚‹ç’°å¢ƒãŒæ•´ã†ã®ã¯ã¨ã¦ã‚‚ä¾¿åˆ©ã§ã™ã€‚å¦ç¿’æ¸ˆã¿ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚’ã©ã†è¨˜è¼‰ã™ã‚‹ã‹ã¨ã„ã†æ‚©ã¾ã—ã„å•é¡Œã¯ã‚ã‚‹ã®ã§ã™ãŒ(å¤–éƒ¨ãƒ•ã‚¡ã‚¤ãƒ«ã®èªã¿è¾¼ã¿ã€å¦ç¿’ã—ãŸãƒ¢ãƒ‡ãƒ«ã®èªã¿è¾¼ã¿ãŒã§ããªã„)ã€Getting Started ã‚³ãƒ³ãƒšãªã®ã§ã€æ°—è»½ã«å‚åŠ ã§ãã¦æ¥½ã—ã‹ã£ãŸã§ã™ã€‚

Connect X ã®å®Ÿè£…ãŒãƒ¡ã‚¤ãƒ³ã«ãªã‚Šã€å¼·åŒ–å¦ç¿’ã®ç†è«–ã«ã¤ã„ã¦ã¯ã¾ã å‹‰å¼·ä¸è¶³ãªã®ã§ã€å¼•ãç¶šãå¦ã‚“ã§ã„ããŸã„ã§ã™ã€‚

å‹‰å¼·ä¼šã®ãŠçŸ¥ã‚‰ã›

Wantedly ã§ã¯æ¯Žé€±æœ¨æ›œæ—¥18:30ã‹ã‚‰æ©Ÿæ¢°å¦ç¿’ã®å‹‰å¼·ä¼šã‚’é–‹ã„ã¦ã„ã¾ã™ãŒã€ç¾åœ¨ã€ç¤¾å“¡ãŒåŽŸå‰‡ãƒªãƒ¢ãƒ¼ãƒˆãƒ¯ãƒ¼ã‚¯ã®ãŸã‚ã‚ªãƒ³ãƒ©ã‚¤ãƒ³ (hangouts) ã§é–‹å‚¬ã—ã¦ã„ã¾ã™ï¼ã‚ªãƒ³ãƒ©ã‚¤ãƒ³ã ã‹ã‚‰ã“ãå‚åŠ ã—ã‚„ã™ã„ã‹ã¨æ€ã„ã¾ã™ã®ã§ã€èˆˆå‘³ãŒã‚ã‚‹æ–¹ã¯ã€æ˜¯éžï¼

github.com

www.wantedly.com

ãŠã™ã™ã‚æ›¸ç±

ä»Šå›žã¯ã€æ¦‚è¦ã§ã‚‚è¨˜è¼‰ã—ãŸã¨ãŠã‚Šã€æ©Ÿæ¢°å¦ç¿’ã‚¹ã‚¿ãƒ¼ãƒˆã‚¢ãƒƒãƒ—ã‚·ãƒªãƒ¼ã‚ºã® Python ã§å¦ã¶å¼·åŒ–å¦ç¿’ã§å‹‰å¼·ã—ã¾ã—ãŸã€‚Pythonã‚³ãƒ¼ãƒ‰ãŒè¨˜è¼‰ã•ã‚Œã¦ã„ã¦åˆ†ã‹ã‚Šã‚„ã™ãã€ã“ã‚Œã‹ã‚‰å¼·åŒ–å¦ç¿’ã‚’å‹‰å¼·ã™ã‚‹äººã«ã¯ã´ã£ãŸã‚Šã ã¨æ€ã„ã¾ã™ï¼ã“ã®è¨˜äº‹ã§ã¯æ‰±ã£ã¦ã„ãªã„äº‹ã‚‚ãŸãã•ã‚“è¨˜è¼‰ã•ã‚Œã¦ã„ã‚‹ã®ã§ã€æ°—ã«ãªã£ãŸæ–¹ã¯æ˜¯éžã€èªã‚“ã§ã¿ã‚‹ã“ã¨ã‚’ãŠã™ã™ã‚ã—ã¾ã™ã€‚

bookclub.kodansha.co.jp

ã¾ãŸã€hakubishin ã•ã‚“ã‚ˆã‚Šã€ä»¥ä¸‹ã®æ›¸ç±ã‚‚ãŠã™ã™ã‚ã¨ç´¹ä»‹ã—ã¦ã„ãŸã ãã¾ã—ãŸï¼å¼·åŒ–å¦ç¿’ã‚’å‹‰å¼·ã—ãŸã„æ–¹ã®å‚è€ƒã«ãªã‚Œã°ã¨æ€ã„ã¾ã™ã€‚
www.kinokuniya.co.jp
honto.jp

æ¦‚è¦

å¼·åŒ–å­¦ç¿’ã¨ã¯

Connect X ã¨å¼·åŒ–å­¦ç¿’

ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆ

è¡Œå‹• Action

çŠ¶æ…‹ State

å ±é…¬ Reward

å ±é…¬é–¢æ•° Reward Function

é·ç§»é–¢æ•° Transition Function

æˆ¦ç•¥ Policy

å¼·åŒ–å­¦ç¿’ã®ç¨®é¡ž

ãƒ¢ãƒ‡ãƒ«ãƒ™ãƒ¼ã‚¹

ãƒ¢ãƒ‡ãƒ«ãƒ•ãƒªãƒ¼

Connect X

ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã®ä½¿ã„æ–¹

è©•ä¾¡æŒ‡æ¨™

ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®ä½œæˆ

Q-Learning ã®å®Ÿè£…

Qãƒ†ãƒ¼ãƒ–ãƒ«

Agent ã®å®Ÿè£…

çµæžœ

Pythonãƒ•ã‚¡ã‚¤ãƒ«ã¸ã®å‡ºåŠ›

Deep Q-Net ã®å®Ÿè£…

Experience Replay

Fixed Target Q-Network

Clipping

CNN ã®å®Ÿè£…

Deep Q-Net ã® Agent ã®å®Ÿè£…

Deep Q-Net ã® Trainer ã®å®Ÿè£…

çµæžœ

ãŠã‚ã‚Š

å‹‰å¼·ä¼šã®ãŠçŸ¥ã‚‰ã›

ãŠã™ã™ã‚æ›¸ç±

æ¦‚è¦

å¼·åŒ–å¦ç¿’ã¨ã¯

Connect X ã¨å¼·åŒ–å¦ç¿’

é·ç§»é–¢æ•° Transition Function

å¼·åŒ–å¦ç¿’ã®ç¨®é¡ž

ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã®ä½¿ã„æ–¹

ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®ä½œæˆ

Q-Learning ã®å®Ÿè£…

Agent ã®å®Ÿè£…

çµæžœ

Pythonãƒ•ã‚¡ã‚¤ãƒ«ã¸ã®å‡ºåŠ›

Deep Q-Net ã®å®Ÿè£…

CNN ã®å®Ÿè£…

Deep Q-Net ã® Agent ã®å®Ÿè£…

Deep Q-Net ã® Trainer ã®å®Ÿè£…

çµæžœ

ãŠã‚ã‚Š

å‹‰å¼·ä¼šã®ãŠçŸ¥ã‚‰ã›

ãŠã™ã™ã‚æ›¸ç±