å¼·åŒ–å¦ç¿’ã«ã¤ã„ã¦å¦ã‚“ã§ã¿ãŸã€‚ï¼ˆã¾ã¨ã‚ï¼‰

ã¨ã„ã†ã“ã¨ã§ã€é•·ãç¶šã„ã¦ããŸã‘ã©ã€ã“ã‚Œã§ã‚ªã‚·ãƒžã‚¤ã€‚

ã“ã‚Œã¾ã§ã®å„è¨˜äº‹ã¯ã€ä»¥ä¸‹ã‹ã‚‰ã€‚

ãªãŠã€æœ¬ã§ã¯ã€Œä¸€èˆ¬åŒ–ã¨é–¢æ•°è¿‘ä¼¼ã€ã®ç« ã®æ¬¡ã«ã€Œãƒ—ãƒ©ãƒ³ãƒ‹ãƒ³ã‚°ã¨å¦ç¿’ã€ã¨ã„ã†ç« ãŒã‚ã‚‹ã€‚
ã“ã®ç« ã«ã¤ã„ã¦ã¯ã€çœç•¥ã€‚
ï¼ˆäººé–“ã®å¦ç¿’ã«å–©ãˆã‚Œã°ã€å¦æ ¡ã§ç¿’ã£ãŸã“ã¨ã‚’å®¶ã«å¸°ã£ã¦ã‹ã‚‰ä½•åº¦ã‚‚åå¾©ç·´ç¿’ã•ã›ã¾ã—ã‚‡ã†ã€ã¨ã„ã†ã‚¢ã‚¤ãƒ‡ã‚£ã‚¢ã€‚ãŸã ã€å¦æ ¡ã§ã®å¦ç¿’ï¼ˆï¼å®Ÿéš›ã®çµŒé¨“ã‹ã‚‰ã®å¦ç¿’ï¼‰ã¨å®¶ã§ã®å¦ç¿’ï¼ˆï¼çµŒé¨“ã®è¨˜æ†¶ï¼ˆãƒ¢ãƒ‡ãƒ«ï¼‰ã‹ã‚‰ã®å¦ç¿’ï¼‰ã«ã‚³ã‚¹ãƒˆã®å·®ãŒã»ã¨ã‚“ã©ãªã„å ´åˆã€æ„å‘³ãŒã‚ã‚‹ã‚ˆã†ã«ã¯æ€ãˆãªã„ï¼‰

çµ±ä¸€ã•ã‚ŒãŸè¦‹æ–¹

ã“ã“ã¾ã§ã§ã€å‹•çš„è¨ˆç”»æ³•ã€ãƒ¢ãƒ³ãƒ†ã‚«ãƒ«ãƒæ³•ã€TDå¦ç¿’ã€TD(Î»)ã¨ã„ã£ãŸæ‰‹æ³•ã‚’å¦ã‚“ã§ããŸã‘ã©ã€ã“ã‚Œã‚‰ã«ã¯æ¬¡ã®ã‚ˆã†ãªå…±é€šç‚¹ãŒã‚ã‚‹ï¼š

ä¾¡å€¤ãƒ™ã‚¯ãƒˆãƒ«ã®æŽ¨å®šã‚’è¡Œã†
ä¾¡å€¤ãƒ™ã‚¯ãƒˆãƒ«ã®æŽ¨å®šã¯ã€çŠ¶æ…‹é·ç§»ã®ä»•æ–¹ã«ã—ãŸãŒã£ã¦è¡Œã†
ä¾¡å€¤ãƒ™ã‚¯ãƒˆãƒ«ã®æŽ¨å®šã®æ”¹å–„ã«ã‚ˆã£ã¦æ–¹ç–ã®æ”¹å–„ã‚’è¡Œã„ã€ã¾ãŸã€æ–¹ç–ã®æ”¹å–„ã«ã‚ˆã£ã¦ä¾¡å€¤ãƒ™ã‚¯ãƒˆãƒ«ã®æŽ¨å®šã®æ”¹å–„ã‚’è¡Œã†ï¼ˆã“ã‚Œã‚’ã€Œä¸€èˆ¬åŒ–æ–¹ç–åå¾©ã€ã¨ã„ã†ï¼‰

ä¸€æ–¹ã€æ¬¡ã®ã‚ˆã†ãªç‰¹å¾´è»¸ã«ã‚ˆã£ã¦ã€æ§˜ã€…ãªæ‰‹æ³•ã«åˆ†é¡žã•ã‚Œã‚‹ï¼š

ä¾¡å€¤ãƒ™ã‚¯ãƒˆãƒ«ã®æŽ¨å®šã‚’è¡Œã†ã¨ãã€é·ç§»å¯èƒ½ãªã™ã¹ã¦ã®çŠ¶æ…‹ã‚’å‚ç…§ã™ã‚‹ï¼ˆå®Œå…¨ãƒãƒƒã‚¯ã‚¢ãƒƒãƒ—ï¼‰ã‹ã€é·ç§»ã®ä¸€ä¾‹ã‚’å‚ç…§ã™ã‚‹ï¼ˆã‚µãƒ³ãƒ—ãƒ«ãƒ»ãƒãƒƒã‚¯ã‚¢ãƒƒãƒ—ï¼‰ã‹
ä¾¡å€¤ãƒ™ã‚¯ãƒˆãƒ«ã®æŽ¨å®šã‚’è¡Œã†ã¨ãã€1ã‚¹ãƒ†ãƒƒãƒ—å…ˆã®çŠ¶æ…‹é·ç§»ã‚’å‚ç…§ã™ã‚‹ï¼ˆæµ…ã„ãƒãƒƒã‚¯ã‚¢ãƒƒãƒ—ï¼‰ã‹ã€ã‚¨ãƒ”ã‚½ãƒ¼ãƒ‰ã®çµ‚ã‚ã‚Šã¾ã§ã®çŠ¶æ…‹é·ç§»ã‚’å‚ç…§ã™ã‚‹ï¼ˆæ·±ã„ãƒãƒƒã‚¯ã‚¢ãƒƒãƒ—ï¼‰ã‹
ä¾¡å€¤ãƒ™ã‚¯ãƒˆãƒ«ã®æƒ…å ±ã‚’ã©ã®ã‚ˆã†ã«ã‚‚ã¤ã‹ï¼ˆãƒ†ãƒ¼ãƒ–ãƒ«åž‹/ç·šå½¢é–¢æ•°ã«ã‚ˆã‚‹è¿‘ä¼¼/éžç·šå½¢é–¢æ•°ã«ã‚ˆã‚‹è¿‘ä¼¼ï¼‰
ã‚µãƒ³ãƒ—ãƒ«ãƒ»ãƒãƒƒã‚¯ã‚¢ãƒƒãƒ—ã‚’è¡Œã†ã¨ãã€ä¾¡å€¤ã‚’æŽ¨å®šã•ã‚Œã‚‹æ–¹ç–ã¨ã‚µãƒ³ãƒ—ãƒ«ã‚’ç”Ÿæˆã™ã‚‹æ–¹ç–ãŒåŒã˜ï¼ˆæ–¹ç–ã‚ªãƒ³åž‹ï¼‰ã‹ã€ç•°ãªã‚‹ï¼ˆæ–¹ç–ã‚ªãƒ•åž‹ï¼‰ã‹
ä¾¡å€¤ãƒ™ã‚¯ãƒˆãƒ«ã®ç¨®é¡žï¼ˆçŠ¶æ…‹ä¾¡å€¤/è¡Œå‹•ä¾¡å€¤/äº‹å¾ŒçŠ¶æ…‹ä¾¡å€¤ï¼‰
è¡Œå‹•é¸æŠžã®æ‰‹æ³•ï¼ˆÎµã‚°ãƒªãƒ¼ãƒ‡ã‚£/ã‚½ãƒ•ãƒˆãƒžãƒƒã‚¯ã‚¹/etc.ï¼‰
é€ä¸€å¦ç¿’ã‚’è¡Œã†ï¼ˆã‚ªãƒ³ãƒ©ã‚¤ãƒ³å¦ç¿’ï¼‰ã‹ã€ä¸€æ‹¬ã§å¦ç¿’ã‚’è¡Œã†ï¼ˆã‚ªãƒ•ãƒ©ã‚¤ãƒ³å¦ç¿’ï¼‰ã‹

é–¢æ•°è¿‘ä¼¼ã¨ã—ã¦ä½•ã‚’ä½¿ã†ã®ã‹ã€ã¨ã„ã†ã®ã¯ã€ä»–ã®æ©Ÿæ¢°å¦ç¿’ã®æ‰‹æ³•ã¨æ·±ã„é–¢ä¿‚ãŒå‡ºã¦ãã‚‹ã€‚

ä¾‹ãˆã°ã€TD-Gammonã¨ã„ã†ãƒãƒƒã‚¯ã‚®ãƒ£ãƒ¢ãƒ³ã®ãƒ—ãƒã‚°ãƒ©ãƒ ã¯ã€é–¢æ•°è¿‘ä¼¼ã¨ã—ã¦ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã‚’ä½¿ã„ã€å¤§ããªæˆæžœã‚’å‡ºã—ã¦ã„ã‚‹ã€‚

ãŸã ã—ã€æœ¬ã®ä½œè€…ã®Sutttonã¯ã€é–¢æ•°è¿‘ä¼¼ã«ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã‚’ä½¿ã†ã®ã¯ã€ã¨ã‚Šã‚ãˆãšæ¢ã‚ã¦ãŠã„ãŸæ–¹ãŒã„ã„ã¨è¨€ã£ã¦ã„ã‚‹ã¿ãŸã„ã€‚

Frequently Asked Questions about Reinforcement Learning

I am doing RL with a backpropagation neural network and it doesn't work; what should I do?

It is a common error to use a backpropagation neural network as the function approximator in one's first experiments with reinforcement learning, which almost always leads to an unsatisfying failure. The primary reason for the failure is that backpropation is fairly tricky to use effectively, doubly so in an online application like reinforcement learning.

ï¼ˆæ„è¨³ï¼‰
èª¤å·®é€†ä¼æ’æ³•ã‚’ç”¨ã„ãŸãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã‚’ä½¿ã£ã¦å¼·åŒ–å¦ç¿’ã‚’è¡ŒãŠã†ã¨ã—ã¦ã„ã‚‹ã‚“ã ã‘ã©ã€ã†ã¾ãå‹•ã‹ãªã„ã€‚ã©ã†ã—ãŸã‚‰ã„ã„ï¼Ÿ

èª¤å·®é€†ä¼æ’æ³•ã‚’ç”¨ã„ãŸãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã‚’é–¢æ•°è¿‘ä¼¼ã¨ã—ã¦ã¾ãšè©¦ã™ã®ã¯ã‚ˆãã‚ã‚‹é–“é•ã„ã§ã€ã»ã¨ã‚“ã©å¤±æ•—ã™ã‚‹ã€‚ã¨ã„ã†ã®ã‚‚ã€èª¤å·®é€†ä¼æ’æ³•ã‚’åŠ¹æžœçš„ã«ä½¿ã†ã®ã¯ã‹ãªã‚Šãƒˆãƒªãƒƒã‚ãƒ¼ã§ã€ã¾ã—ã¦ã‚„ã€å¼·åŒ–å¦ç¿’ã®ã‚ˆã†ãªã‚ªãƒ³ãƒ©ã‚¤ãƒ³å¦ç¿’ã§ä½¿ã†ã«ã¯ã€ã•ã‚‰ã«ãƒˆãƒªãƒƒã‚ãƒ¼ã§ã‚ã‚‹å¿…è¦ãŒã‚ã‚‹ã‹ã‚‰ã ã€‚

å®Ÿéš›ã€è‡ªåˆ†ã‚‚ã¡ã‚‡ã£ã¨è©¦ã—ãŸé™ã‚Šã ã¨ä¸Šæ‰‹ãã„ã‹ãªã‹ã£ãŸã—ã€ä½•ã‚ˆã‚Šå•é¡Œã ã£ãŸã®ã¯ã€ãªã‚“ã§ä¸Šæ‰‹ãã„ã‹ãªã‹ã£ãŸã®ã‹ã®åŽŸå› ãŒã‚ˆãåˆ†ã‹ã‚‰ãªã‹ã£ãŸã¨ã„ã†ã“ã¨ã€‚
å¦ç¿’ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®å•é¡Œãªã®ã‹ã€ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã®æ§‹æˆã®å•é¡Œãªã®ã‹ã€ãã‚‚ãã‚‚å®Ÿè£…ãŒé–“é•ã£ã¦ã‚‹ã®ã‹ã€ãã®ã‚ãŸã‚Šã‚’ãã¡ã‚“ã¨åˆ‡ã‚Šåˆ†ã‘ã¦èª¿æ•´ã™ã‚‹ã®ã¯ã€é›£ã—ãã†ã€‚

ãŸã ã€ç·šå½¢æ‰‹æ³•ã§ã¯è¡¨ç¾åŠ›ã«é™ç•ŒãŒã‚ã‚‹ã®ã§ã€ã“ã®ã‚ãŸã‚Šã‚‚ã¡ã‚ƒã‚“ã¨å‹‰å¼·ã—ãªã„ã¨ã„ã‘ãªã„ã‚“ã ã‚ã†ãªã¨ã¯æ€ã£ã¦ã„ã‚‹ã€‚

ä»Šæ—¥ã¯ã“ã“ã¾ã§ï¼