æ·±å±¤å¼·åŒ–å¦ç¿’ã§ã‚·ã‚¹ãƒ†ãƒ ãƒˆãƒ¬ãƒ¼ãƒ‰ã‚’ã‚„ã‚‹æ™‚ã«å½¹ã«ç«‹ã¡ãã†ãªè³‡æ–™ã¾ã¨ã‚

Photo via Visual Hunt

å°‘ã—å‰ã®ã“ã¨ã§ã™ãŒã€AlphaGoã¨ã„ã†å›²ç¢ã®äººå·¥çŸ¥èƒ½ãƒ—ãƒã‚°ãƒ©ãƒ ãŒã‚¤ãƒ»ã‚»ãƒ‰ãƒ«ä¹æ®µã«å‹åˆ©ã—ãŸã“ã¨ã§è©±é¡Œã«ãªã‚Šã¾ã—ãŸã€‚*1

ã¾ãŸã€ä¸€éƒ¨ã®ã‚²ãƒ¼ãƒ ã«ãŠã„ã¦ã€ŒDQNï¼ˆDeep Q-networkï¼‰ã€ãŒäººé–“ã‚ˆã‚Šã‚‚ä¸Šæ‰‹ããƒ—ãƒ¬ã‚¤ã™ã‚‹ã‚ˆã†ã«ãªã£ãŸã¨ã„ã†ãƒ‹ãƒ¥ãƒ¼ã‚¹ã‚‚è©±é¡Œã«ãªã£ã¦ã„ã¾ã—ãŸãã€‚*2

ä»Šå›žã¯ã“ã‚Œã‚‰ã®äº‹ä¾‹ã§ä½¿ã‚ã‚Œã¦ã„ã‚‹ã€Œæ·±å±¤å¼·åŒ–å¦ç¿’ã€ã¨ã„ã†ä»•çµ„ã¿ã‚’ä½¿ã£ã¦ã€FXã®ã‚·ã‚¹ãƒ†ãƒ ãƒˆãƒ¬ãƒ¼ãƒ‰ãŒã§ããªã„ã‹ã¨æ€ã„ã€èª¿ã¹ã¦ã¿ã¾ã—ãŸã€‚
æ³¨æ„ï¼šå¼·åŒ–å¦ç¿’ã‚‚FXã‚‚å‹‰å¼·ã—å§‹ã‚ãŸã°ã‹ã‚Šãªã®ã§ã€è‰²ã€…é–“é•ã£ã¦ã„ã‚‹ç®‡æ‰€ãŒã‚ã‚‹ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚ã”æŒ‡æ‘˜ã„ãŸã ã‘ã‚‹ã¨å¹¸ã„ã§ã™ã€‚

ä»Šå›žã®å†…å®¹

ãã‚Œã§ã¯ã‚¹ã‚¿ãƒ¼ãƒˆ

1.å¼·åŒ–å¦ç¿’ã«ã¤ã„ã¦

1-1.å¼·åŒ–å¦ç¿’

å¼·åŒ–å¦ç¿’ã®æ•™ç§‘æ›¸ã¨ã„ãˆã°ã“ã®æœ¬ã®ã‚ˆã†ã§ã™ã€‚Â

å¼·åŒ–å¦ç¿’

ä½œè€…: Richard S.Sutton,Andrew G.Barto,ä¸‰ä¸Šè²žèŠ³,çš†å·é›…ç«
å‡ºç‰ˆç¤¾/ãƒ¡ãƒ¼ã‚«ãƒ¼: æ£®åŒ—å‡ºç‰ˆ
ç™ºå£²æ—¥: 2000/12/01
ãƒ¡ãƒ‡ã‚£ã‚¢: å˜è¡Œæœ¬ï¼ˆã‚½ãƒ•ãƒˆã‚«ãƒãƒ¼ï¼‰
è³¼å…¥: 5äºº ã‚¯ãƒªãƒƒã‚¯: 76å›ž
ã“ã®å•†å“ã‚’å«ã‚€ãƒ–ãƒã‚° (29ä»¶) ã‚’è¦‹ã‚‹

ã§ã™ãŒã€ã“ã®æœ¬ã®åŽŸè‘—ã¯ç„¡æ–™ã§å…¬é–‹ã•ã‚Œã¦ã„ã¾ã™ã€‚

ãã‚ŒãŒã“ã¡ã‚‰â¬‡ï¸Ž

1-2.Reinforcement Learning: An Introduction (2nd Edition)

ä¸Šã§æŒ™ã’ãŸæ›¸ç±ã®åŽŸè‘—ã§ã™ã€‚

2ndã‚¨ãƒ‡ã‚£ã‚·ãƒ§ãƒ³ã®è‰ç¨¿ã‚‚å…¬é–‹ã•ã‚Œã¦ãŠã‚Šã€ãã¡ã‚‰ã§ã¯æ·±å±¤å¼·åŒ–å¦ç¿’ã«ã¤ã„ã¦ã‚‚æ›¸ã‹ã‚Œã„ã‚‹ã‚ˆã†ã§ã™ã€‚è‹±èªžãŒèªã‚ã‚‹æ–¹ã¯ã“ã¡ã‚‰ã‚’èªã‚“ã ã»ã†ãŒè‰¯ã•ãã†ã§ã™ãã€‚

https://webdocs.cs.ualberta.ca/~sutton/book/bookdraft2016sep.pdf

1-3.UCL Course on RLÂ

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.htm

Googleã«è²·åŽã•ã‚ŒãŸDeepMindç¤¾ã®David Silverã•ã‚“ã®è¬›ç¾©è³‡æ–™ã§ã™ã€‚l

1-4.å¼·åŒ–å¦ç¿’ã«ã¤ã„ã¦å¦ã‚“ã§ã¿ãŸã€‚ï¼ˆã¾ã¨ã‚ï¼‰ - ã„ã‚‚ã®ã‚„ã¾ã€‚

å¼·åŒ–å¦ç¿’ã«ã¤ã„ã¦å¦ã‚“ã§ã¿ãŸã€‚ï¼ˆã¾ã¨ã‚ï¼‰ - ã„ã‚‚ã®ã‚„ã¾ã€‚

æ•™ç§‘æ›¸ã‚„è«–æ–‡ã¯ãƒãƒ¼ãƒ‰ãƒ«ãŒé«˜ã„ã¨ã„ã†äººï¼ˆï¼åƒ•ï¼‰ã«ã¨ã£ã¦ã¯æœ€é©ãªã®ãŒã“ã¡ã‚‰ã®ãƒ–ãƒã‚°ã€‚

éžå¸¸ã«ã‚ã‹ã‚Šã‚„ã™ãã¾ã¨ã‚ã‚‰ã‚Œã¦ã„ã¾ã™ã€‚

1-5.å…¨è„³ã‚¢ãƒ¼ã‚ãƒ†ã‚¯ãƒãƒ£è‹¥æ‰‹ã®ä¼š å¼·åŒ–å¦ç¿’

å…¨è„³ã‚¢ãƒ¼ã‚ãƒ†ã‚¯ãƒãƒ£è‹¥æ‰‹ã®ä¼š å¼·åŒ–å¦ç¿’

å…¨169æžšã‹ã‚‰ãªã‚‹ã‚¹ãƒ©ã‚¤ãƒ‰ã€‚è„³ã¨ã®é–¢é€£æ€§ã¾ã§è¿°ã¹ã‚‰ã‚Œã¦ã„ã¦é¢ç™½ã„ã§ã™ã€‚Â

2.å¼·åŒ–å¦ç¿’ã§FX

ã“ã“ã‹ã‚‰ã¯å¼·åŒ–å¦ç¿’ã§FXã«é–¢ã—ã¦èªã‚“ã æ–¹ãŒè‰¯ã•ãã†ãªè³‡æ–™ã‚’ã¾ã¨ã‚ã¾ã—ãŸã€‚Â

2-1.å¼·åŒ–å¦ç¿’ï¼‹ç‚ºæ›¿ãƒˆãƒ¬ãƒ¼ãƒ‰æˆ¦ç•¥

å¼·åŒ–å¦ç¿’ï¼‹ç‚ºæ›¿ãƒˆãƒ¬ãƒ¼ãƒ‰æˆ¦ç•¥ â€“ Momentum

å¼·åŒ–å¦ç¿’ï¼‹ç‚ºæ›¿ãƒˆãƒ¬ãƒ¼ãƒ‰æˆ¦ç•¥(ãã®2) â€“ Momentum

è©³ç´°ã¯è¦‹ã¦ã„ã¾ã›ã‚“ãŒã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã‚’å…¬é–‹ã•ã‚Œã¦ã„ã¦å‚è€ƒã«ãªã‚Šãã†ã§ã—ãŸã®ã§ãƒ¡ãƒ¢Â

2-2.ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ãƒˆãƒ¬ãƒ¼ãƒ‰ã®å¼·åŒ–å¦ç¿’ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã«ã¤ã„ã¦èª¿ã¹ã¦ã¿ãŸ - Qiita

ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ãƒˆãƒ¬ãƒ¼ãƒ‰ã®å¼·åŒ–å¦ç¿’ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã«ã¤ã„ã¦èª¿ã¹ã¦ã¿ãŸ - Qiita

ä¸Šã®è¨˜äº‹ã«è§¦ç™ºã•ã‚Œã¦ã‚„ã£ã¦ã¿ãŸã€€ã¨ã„ã†è¨˜äº‹ã€‚

Q-learningã¨ã¯åˆ¥ã®Direct RLã§ã‚„ã£ã¦ã„ã‚‹ã‚‰ã—ã„ã§ã™ã€‚ï¼ˆã¾ã ã‚ˆãã‚ã‹ã£ã¦ãªã„ã§ã™ï¼‰

2-3.Design of an FX trading system using Adaptive Reinforcement Learning

http://www.optirisk-systems.com/events/carisma2007_files/dayone3.pdf

ã‚ã¨ã§èªã‚€ã€‚

2-4.Algorithm Trading using Q-Learning and Recurrent Reinforcement Learning

http://cs229.stanford.edu/proj2009/LvDuZhai.pdf

ã‚ã¨ã§èªã‚€ã€‚

2-5.An Investigation into the Use of Reinforcement Learning Techniques within the Algorithmic Trading Domain

http://www.doc.ic.ac.uk/teaching/distinguished-projects/2015/j.cumming.pdf

Â ã‚ã¨ã§èªã‚€ã€‚

3.æ·±å±¤å¼·åŒ–å¦ç¿’ / DQNã«ã¤ã„ã¦

ã“ã“ã‹ã‚‰ã¯æ·±å±¤å¼·åŒ–å¦ç¿’ã«ã¤ã„ã¦ã‚‚è¿°ã¹ã¦ã‚ã‚‹è³‡æ–™ã‚’ã¾ã¨ã‚ã¾ã™ã€‚

3-1.ã‚¼ãƒã‹ã‚‰Deepã¾ã§å¦ã¶å¼·åŒ–å¦ç¿’

ã‚¼ãƒã‹ã‚‰Deepã¾ã§å¦ã¶å¼·åŒ–å¦ç¿’ - Qiita

æ·±å±¤å¼·åŒ–å¦ç¿’ã‚’èª¿ã¹ã¦ã„ã‚‹ã¨è‡³ã‚‹æ‰€ã§å‚è€ƒã«ã•ã‚Œã¦ã„ã‚‹è¨˜äº‹ã§ã™ã€‚

åƒ•ã¯ã¾ã é€”ä¸ã¾ã§ã—ã‹ç†è§£ã§ãã¦ã„ã¾ã›ã‚“ãŒã€å‚è€ƒã«ãªã‚‹è³‡æ–™ã¨ã—ã¦ã€‚

3-2.Pythonã§ã¯ã˜ã‚ã‚‹ OpenAI Gymãƒˆãƒ¬ãƒ¼ãƒ‹ãƒ³ã‚°

Pythonã§ã¯ã˜ã‚ã‚‹ OpenAI Gymãƒˆãƒ¬ãƒ¼ãƒ‹ãƒ³ã‚°

ä¸Šã®Qiitaè¨˜äº‹ã‚’æ›¸ã„ãŸæ–¹ã®ã‚¹ãƒ©ã‚¤ãƒ‰ã§ã™ã€‚
ãªãœå¼·åŒ–å¦ç¿’ãŒDeep Learningã¨èžåˆã—ãŸã®ã‹ãŒã‚ã‹ã‚Šã‚„ã™ãæ›¸ã‹ã‚Œã¦ã„ã¾ã™ã€‚

3-3.DQNã‚’Kerasã¨TensorFlowã¨OpenAI Gymã§å®Ÿè£…ã™ã‚‹

DQNã‚’Kerasã¨TensorFlowã¨OpenAI Gymã§å®Ÿè£…ã™ã‚‹

ãƒ‡ã‚£ãƒ¼ãƒ—ãƒ©ãƒ¼ãƒ‹ãƒ³ã‚°é–¢ä¿‚ã‚’èª¿ã¹ã¦ã„ã‚‹ã¨ã‚ˆãå‡ºã¦ãã‚‹Elixã•ã‚“ã®æŠ€è¡“ãƒ–ãƒã‚°ã€‚

ã‚¿ã‚¤ãƒˆãƒ«ã®é€šã‚Šã€OpenAI Gym ã‚’ä½¿ã£ã¦DQNã‚’å®Ÿè£…ã•ã‚Œã¦ã„ã¾ã™ã€‚ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã‚’å…¬é–‹ã•ã‚Œã¦ã„ã‚‹ã®ã§ã€ã™ã”ãå‚è€ƒã«ãªã‚Šã¾ã™ã€‚Â

3-4.æ·±å±¤å¼·åŒ–å¦ç¿’ï¼šãƒ”ã‚¯ã‚»ãƒ«ã‹ã‚‰ã€Žãƒãƒ³ã€

æ·±å±¤å¼·åŒ–å¦ç¿’ï¼šãƒ”ã‚¯ã‚»ãƒ«ã‹ã‚‰ã€Žãƒãƒ³ã€ â€“ å‰ç·¨ | ãƒ—ãƒã‚°ãƒ©ãƒŸãƒ³ã‚° | POSTD

æ·±å±¤å¼·åŒ–å¦ç¿’ï¼šãƒ”ã‚¯ã‚»ãƒ«ã‹ã‚‰ã€Žãƒãƒ³ã€ â€“ å¾Œç·¨ | ãƒ—ãƒã‚°ãƒ©ãƒŸãƒ³ã‚° | POSTDÂ

130è¡Œç¨‹åº¦ã¨ã„ã†å°‘ãªã•ã§ã€å¼·åŒ–å¦ç¿’ã®ä¸€ç¨®ï¼ˆæ–¹ç–å‹¾é…æ³•ï¼ˆPGæ³•ï¼‰ï¼‰ã§ATARIã¨ã„ã†ã‚²ãƒ¼ãƒ ã‚’å¦ç¿’ã•ã›ã‚‹ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ãŒå…¬é–‹ã•ã‚Œã¦ã„ã¾ã™ã€‚

Training a Neural Network ATARI Pong agent with Policy Gradients from raw pixels Â· GitHub

3-5.ä¸Šè¨˜ã®ãƒ”ã‚¯ã‚»ãƒ«ã‹ã‚‰ã€Œãƒãƒ³ã€ã§ç´¹ä»‹ã•ã‚Œã¦ã„ã‚‹å‹•ç”»

John Schulman 1: Deep Reinforcement Learning - YouTube

John Schulman 2: Deep Reinforcement Learning - YouTube

John Schulman 3: Deep Reinforcement Learning - YouTube

John Schulman 4: Deep Reinforcement Learning - YouTube

3-6.Kerasã§DQNã‚’å®Ÿè£…ã—ã¦FlappyBirdã‚’ãƒ—ãƒ¬ã‚¤ã™ã‚‹

Using Keras and Deep Q-Network to Play FlappyBird | Ben Lau

ä»–ã®ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã¯OpenAI Gymã‚’åˆ©ç”¨ã—ã¦ã„ã‚‹ã‚‚ã®ãŒå¤šã„ã®ã§ã™ãŒã€ã“ã¡ã‚‰ã®ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã¯ãã‚Œã‚’åˆ©ç”¨ã—ã¦ã„ãªã„ã‚ˆã†ã§ã™ã€‚

4.æ·±å±¤å¼·åŒ–å¦ç¿’ã§FX

æœ€å¾Œã«æ·±å±¤å¼·åŒ–å¦ç¿’ã¨FXé–¢é€£ã§ã™ã€‚ã¾ã æ·±å±¤å¼·åŒ–å¦ç¿’ã‚’å¿œç”¨ã—ãŸã¨ã„ã†æƒ…å ±ã¯å°‘ãªã„ã‚ˆã†ã§ã™ã€‚ï¼ˆåƒ•ã®æ¤œç´¢èƒ½åŠ›ãŒä½Žã„ã ã‘ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚ï¼‰

http://sigfin.org/?plugin=attach&refer=SIG-FIN-016-01&openfile=SIG-FIN-016-01.pdf

ã‚‚ã†å°‘ã—ç†è§£ã§ãã‚‹ã‚ˆã†ã«ãªã£ã¦ã‹ã‚‰èªã¿ç›´ã—ã¾ã™ã€‚

4-2.Deep Q-Learningã§FXã—ã¦ã¿ãŸ

5.ãŠã¾ã‘

Machine Learning for Trading

ä»Šå›žã®è¨˜äº‹ã¯ã€Œå¼·åŒ–å¦ç¿’ã€ã‚’ãƒ†ãƒ¼ãƒžã«ã¾ã¨ã‚ã¾ã—ãŸãŒã€ã‚·ã‚¹ãƒˆãƒ¬&æ©Ÿæ¢°å¦ç¿’ã¨ã—ã¦ã¯ã“ã®è¬›åº§ã‚‚è‰¯ã•ãã†ã§ã™ã€‚

Machine Learning for Trading | Udacity

ãƒ‹ã‚³ç”Ÿã§æ”¾é€ä¸ã«ç´¹ä»‹ã—ã¦ã„ãŸã ã„ãŸæœ¬

Python3ã§ã¯ã˜ã‚ã‚‹ã‚·ã‚¹ãƒ†ãƒ ãƒˆãƒ¬ãƒ¼ãƒ‰

ç›®æ¬¡ã‚’è¦‹ã‚‹é™ã‚Šã€Pythonã®åˆå¿ƒè€…ã‹ã¤ã‚·ã‚¹ãƒ†ãƒ ãƒˆãƒ¬ãƒ¼ãƒ‰ã®åˆå¿ƒè€…ã«ã¯å‘ã„ã¦ãã†ã§ã—ãŸã€‚

*2:Googleã®äººå·¥çŸ¥èƒ½ã€ŒDQNã€ãŒäººé–“ã‚ˆã‚Šä¸Šæ‰‹ã«ãƒ—ãƒ¬ã‚¤ã§ãã‚‹ã‚²ãƒ¼ãƒ ã¨ã§ããªã„ã‚²ãƒ¼ãƒ ã®å¢ƒç•Œç·š - GIGAZINE

ãƒ‹ãƒ¼ãƒˆã®è¨€è‘‰