注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
皆さんこんにちは お元気ですか。私は元気です。 今日は強化学習の勉強がてらメモを書いてみました。 個... 皆さんこんにちは お元気ですか。私は元気です。 今日は強化学習の勉強がてらメモを書いてみました。 個人的には最近、注目している分野で、ゴールがあるような(クラス分類やRegression) 機械学習と異なり、汎用的に色々問題が解けそうだからというのが理由です。 (なんか色々語弊を生みそう) 間違っていれば教えて下さい。 強化学習 強化学習における要因 Policy Reward Function Value function model of the environment 強化学習で解ける問題 参考文献 強化学習 強化学習はある環境ないにおけるエージェントが、 現在の状態を観測し、取るべき行動を決定する問題を扱う 機械学習の一種 by wikipedia この中で登場するのは、「状態」と「行動を決定する」といったところでしょうか。 つまり、「ある状態の時に、どう行動をするか」といったこと
2016/06/01 リンク