エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
OpenAIがPPO(Proximal Policy Optimization)というアルゴリズムを同団体の標準アルゴリズムにするとの発... OpenAIがPPO(Proximal Policy Optimization)というアルゴリズムを同団体の標準アルゴリズムにするとの発表をしました。コードもリリースされているので早速試してみます。baselinesという強化学習パッケージに入っているようですね。 OSX 10.11.6, Python 3.5.1, TensorFlow 1.2.1 で試しました。 倒立振子を立ててみる(またか!) インストール手順は後述で、まずやってみます。ここのrun_atari.pyがサンプルですね。 なにやら走り出しましたが、手元のMacBook Proごときだとatari環境では時間がかかりそうなので、何か軽いものということで例によって倒立振子にしましょう。OpenAI gymのPendulmn-v0を使います。どんだけ倒立振子振り上げが好きなんだとか言われそうですが、簡単だけど達成感あるという