サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
2024年ランキング
qiita.com/chachay
書きました https://t.co/m4YhZolDjD — mooopan (@mooopan) February 20, 2017 ということでChainerの強化学習版ChainerRLが公開されていました。 このところ手を広げすぎていて中々丁寧な仕事ができない中、 30分 x 2日でDouble DQNでライントレーサーできました。ライブラリ便利で助かる! 使用環境 Windows 10 - 64bit <諦めが悪い心の強さ…!> Python 3.6.0 |Anaconda 4.3.0 (64-bit) <プライドより実利!> ChainerRL 0.2 < Dependency緩くしてほしい> Chainer 1.19 <1.20でTheanoのお世話できてない!会社ではTheano動いたのに。>
%matplotlib inline import numpy as np import chainer import chainer.functions as F import chainer.links as L from chainer import report, training, Chain, datasets, iterators, optimizers from chainer.training import extensions from chainer.datasets import tuple_dataset import matplotlib.pyplot as plt class MLP(Chain): n_input = 1 n_output = 1 n_units = 5 def __init__(self): super(MLP, self).__init_
強化学習といえばDeep Q learningみたいなのりで、DQNがもてはやされていますが、AlphaGoとかロボットの機械学習では数年前くらいからActor-Criticに移行してきているように見えます。 その一方でパワーポイントに飼い慣らされた漫画お脳には論文なんて読んでも面白みがない感じの毎日なのに、一方に解説が出てくる気配が感じられません。ということで、鳩山イニシアチブが如く、恥を忍んで今の理解をざっくり紙芝居にします。 復習 強化学習 だいたい世の強化学習ってこんな絵で始まります。 これをロボット制御に使う場合は実際の出力は、動作指令値であって出力ではなく、こんな感じ。 神の設計というか、リワードの設計がいろいろ面倒で、OpenAIとかdeep mindとかからの共同論文にも言及ありましたね。 ここでAgentが獲得を目指すのはQ値で評価される値で長期的にみて報酬rの合計値が最
# -*- coding: utf-8 -*- import wx import wx.lib import wx.lib.plot as plot import math import random as rnd import numpy as np import copy # import pickle # Steps looking back STATE_NUM = 2 # State STATE_NUM = 2 NUM_EYES = 9 STATE_DIM = NUM_EYES * 3 * 2 class SState(object): def __init__(self): self.seq = np.ones((STATE_NUM, NUM_EYES*3), dtype=np.float32) def push_s(self, state): self.seq[1:STATE_
光センサがコースを検知したら左曲がりに進行、検知しなかったら右回りに進行、という味気ないやつ 青色 僕らの期待の新星DQN 入力:[[光センサの検知/不検知][前回とった行動]]を1セットに過去5個分 : 20次元 隠れ層:50ユニット x 2枚ほど <実は前の記事で隠れ層が1枚なのに2枚と勘違いしてました> 出力:左曲がり進行、直進、右曲がり進行 ご褒美:コースから5px以内 +1ポイント 10px以内 +0.5ポイント 壁際2px以内 -1ポイント そして、壁にぶつかったら張り付き続けてしまい学習時間に支障が出そうになるのでコース上に位置リセット。 現状の状況 いくら直近の過去のことを覚えていても自分の位置もわからない一つ目お化けじゃ迷子になる様子? せめて2つ以上センサーがあるようなライントレーサーにしたり、自分の位置を計算したりするなど何らかの手段で、自分とコースの位置関係を把握で
こんにちは 本業はプログラマじゃない人です。 テレビで「ディープラーニング」というキーワードがバズっているときに、 分散深層強化学習でロボット制御 | Preferred Researchを見て、 試してみたいことが出てきたので、いきなりクローンとは言わず、まず簡単なものから作った。 ⇒ 置き場:DeepQNetworkTest 狙い Pythonも初めて!Chainerも初めて! プログラミングの作法すら分からないのに周囲にソフト屋さんがいない! でも、自走機械に強化学習というのをやらせてみたい! ⇒ とりあえず公開すれば教えてくれる人が出てくるかもしれない 慣性とか持っている機械を動かして見せてる事例が本当に少ない(気がする) ⇒ 次のステップで入れてみよう やったこと ConvNetJS Deep Q Learning Reinforcement Learning with Neur
このページを最初にブックマークしてみませんか?
『@chachayのマイページ - Qiita』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く