å¼·åŒ–å¦ç¿’ã¨ã¯ä½•ã‹ã€èª¿ã¹ã¦ã¿ãŸ

çš†ã•ã‚“ã“ã‚“ã«ã¡ã¯
ãŠå…ƒæ°—ã§ã™ã‹ã€‚ç§ã¯å…ƒæ°—ã§ã™ã€‚

ä»Šæ—¥ã¯å¼·åŒ–å¦ç¿’ã®å‹‰å¼·ãŒã¦ã‚‰ãƒ¡ãƒ¢ã‚’æ›¸ã„ã¦ã¿ã¾ã—ãŸã€‚
å€‹äººçš„ã«ã¯æœ€è¿‘ã€æ³¨ç›®ã—ã¦ã„ã‚‹åˆ†é‡Žã§ã€ã‚´ãƒ¼ãƒ«ãŒã‚ã‚‹ã‚ˆã†ãªï¼ˆã‚¯ãƒ©ã‚¹åˆ†é¡žã‚„Regressionï¼‰
æ©Ÿæ¢°å¦ç¿’ã¨ç•°ãªã‚Šã€æ±Žç”¨çš„ã«è‰²ã€…å•é¡ŒãŒè§£ã‘ãã†ã ã‹ã‚‰ã¨ã„ã†ã®ãŒç†ç”±ã§ã™ã€‚
ï¼ˆãªã‚“ã‹è‰²ã€…èªžå¼Šã‚’ç”Ÿã¿ãã†ï¼‰

é–“é•ã£ã¦ã„ã‚Œã°æ•™ãˆã¦ä¸‹ã•ã„ã€‚

å¼·åŒ–å¦ç¿’

å¼·åŒ–å¦ç¿’ã¯ã‚ã‚‹ç’°å¢ƒãªã„ã«ãŠã‘ã‚‹ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒã€
ç¾åœ¨ã®çŠ¶æ…‹ã‚’è¦³æ¸¬ã—ã€å–ã‚‹ã¹ãè¡Œå‹•ã‚’æ±ºå®šã™ã‚‹å•é¡Œã‚’æ‰±ã†
æ©Ÿæ¢°å¦ç¿’ã®ä¸€ç¨® by wikipedia

ã“ã®ä¸ã§ç™»å ´ã™ã‚‹ã®ã¯ã€ã€ŒçŠ¶æ…‹ã€ã¨ã€Œè¡Œå‹•ã‚’æ±ºå®šã™ã‚‹ã€ã¨ã„ã£ãŸã¨ã“ã‚ã§ã—ã‚‡ã†ã‹ã€‚
ã¤ã¾ã‚Šã€ã€Œã‚ã‚‹çŠ¶æ…‹ã®æ™‚ã«ã€ã©ã†è¡Œå‹•ã‚’ã™ã‚‹ã‹ã€ã¨ã„ã£ãŸã“ã¨ã‚’è§£ãå•é¡Œã¨ãªã‚Šã¾ã™ã€‚

å¼·åŒ–å¦ç¿’ã«ãŠã‘ã‚‹è¦å›

å¼·åŒ–å¦ç¿’ã«ã¤ã„ã¦è€ƒãˆãªã‘ã‚Œã°ãªã‚‰ãªã„ã“ã¨ãŒ4ç‚¹ã‚ã‚Šã¾ã™ã€‚

â‘ ãƒãƒªã‚·ãƒ¼ï¼ˆpolicyï¼‰ãƒ»ãƒ»ãƒ»ã©ã®ã‚ˆã†ã«è¡Œå‹•ã™ã‚‹ã‹
â‘¡å ±é…¬é–¢æ•°ï¼ˆreward functionï¼‰ãƒ»ãƒ»ãƒ»å¼·åŒ–å¦ç¿’å•é¡Œã®ã‚´ãƒ¼ãƒ«ã‚’å®šç¾©ã™ã‚‹é–¢æ•°
â‘¢å€¤é–¢æ•°ï¼ˆvalue functionï¼‰ãƒ»ãƒ»ãƒ»é•·æœŸé–“ã«æ¸¡ã‚‹è©•ä¾¡æŒ‡æ¨™
â‘£ç’°å¢ƒãƒ¢ãƒ‡ãƒ«ï¼ˆmodel of the environmentï¼‰ãƒ»ãƒ»ãƒ»ã‚¢ã‚¯ã‚·ãƒ§ãƒ³ãƒ»çŠ¶æ…‹ã®å®šç¾©

Policy

ã‚ã‚‹çŠ¶æ…‹ãŒä¸Žãˆã‚‰ã‚ŒãŸæ™‚ã€è¦³æ¸¬ã•ã‚ŒãŸçŠ¶æ…‹ã‹ã‚‰ã©ã†è¡Œå‹•ã™ã‚‹ã‹è¦å‰‡ã®ã“ã¨ã€‚
ä¸€ç•ªã€ç°¡å˜ãªæ–¹æ³•ã¯Look up tableï¼ˆã€Œã“ã®çŠ¶æ…‹ã®æ™‚ã¯ã€ã“ã†ã™ã‚‹ã€‚ã€ãŒä¸€è¦§è¡¨ã§æ±ºã¾ã£ã¦ã„ã‚‹ï¼‰

Reward Function

å¼·åŒ–å¦ç¿’ã‚’å®Ÿæ–½ã™ã‚‹æ™‚ã«ä½¿ã†ã‚´ãƒ¼ãƒ«éƒ¨åˆ†
ã‚¤ãƒ™ãƒ³ãƒˆã«å¯¾ã—ã¦ã€è‰¯ã„ã‹æ‚ªã„ã‹ã‚’agentã«ä¼ãˆã‚‹

Value function

Value functionã¯é•·æœŸçš„ã«è¡Œå‹•ãŒæ‚ªã„ã‹è‰¯ã„ã‹ã‚’è©•ä¾¡ã™ã‚‹æŒ‡æ¨™

model of the environment

æ‰€è¬‚è§£ããŸã„å•é¡Œã§ã—ã‚‡ã†ã‹ã€‚çŠ¶æ…‹ã¨ãã‚Œã«å¯¾ã™ã‚‹ã‚¢ã‚¯ã‚·ãƒ§ãƒ³ãŒã©ã†ã„ã£ãŸå½¢å¼ã§
å®šç¾©ã§ãã‚‹ã®ã‹ã€‚

ã¤ã¾ã‚Šã€ã“ã‚Œã‚‰ã‚’çµµã«ã™ã‚‹ã¨ã“ã‚“ãªæ„Ÿã˜ã§ã—ã‚‡ã†ã‹ã€‚

f:id:tereka:20160530212129p:plain

å¼·åŒ–å¦ç¿’ã§è§£ã‘ã‚‹å•é¡Œ

å¼·åŒ–å¦ç¿’ã§ã¯è§£ã‘ã‚‹å•é¡Œã¯ä»¥ä¸‹ã®ã‚ˆã†ãªå•é¡Œã§ã™ã€‚

ãƒãƒœãƒƒãƒˆã®å‹•ä½œæœ€é©åŒ–
強化学習 - Google 検索
è¿·è·¯ã‚’è§£ã
http://qiita.com/hogefugabar/items/74bed2851a84e978b61c
Alpha Go
AlphaGo - Wikipedia

ã¾ãŸã€n-Armed Bandit Problemã‚‚å«ã¾ã‚Œã€ã“ã†ã„ã£ãŸéƒ¨åˆ†ã¯å‹‰å¼·ã—ã¦ã„ããŸã„ã¨æ€ã„ã¾ã™ã€‚

å‚è€ƒæ–‡çŒ®

Richard S. Sutton and Andrew G. Bartoã€ŒReinforcement Learning: An Introductionã€

ã®ã‚“ã³ã‚Šã—ã¦ã„ã‚‹ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ã®æ—¥è¨˜

ã‚½ãƒ•ãƒˆã‚¦ã‚§ã‚¢ãªã©ã®ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢çš„ãªä½•ã‹ã‚’æ›¸ãã¾ã™ã€‚

å¼·åŒ–å¦ç¿’

å¼·åŒ–å¦ç¿’ã«ãŠã‘ã‚‹è¦å›

Policy

Reward Function

Value function

model of the environment

å¼·åŒ–å¦ç¿’ã§è§£ã‘ã‚‹å•é¡Œ

å‚è€ƒæ–‡çŒ®

å¼·åŒ–å­¦ç¿’

å¼·åŒ–å­¦ç¿’ã«ãŠã‘ã‚‹è¦å›

Policy

Reward Function

Value function

model of the environment

å¼·åŒ–å­¦ç¿’ã§è§£ã‘ã‚‹å•é¡Œ

å‚è€ƒæ–‡çŒ®

å¼·åŒ–å¦ç¿’

å¼·åŒ–å¦ç¿’ã«ãŠã‘ã‚‹è¦å›

å¼·åŒ–å¦ç¿’ã§è§£ã‘ã‚‹å•é¡Œ

å‚è€ƒæ–‡çŒ®