注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
ある程度機械学習を知ってる人向けです。 わかりやすさ重視でざっくり書くので、詳しいことは本論文をあ... ある程度機械学習を知ってる人向けです。 わかりやすさ重視でざっくり書くので、詳しいことは本論文をあたって下さい。 ちなみに私は囲碁のルールは知りません。 元ネタはNature論文です。 http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html とても読みやすい論文だと思います。 オープンアクセス版もどっかに転がってたと思います。 構成要素 AlphaGOは主に、教師あり方策ネットワークp_\sigma, 強化学習方策ネットワークp_\rho, 状態評価関数ネットワークv(s), からなっており、これらをうまく組み合わせて、モンテカルロ法による指し手評価を効率的に行っているようです。 教師あり方策ネットワークp_\sigma 状態s(盤面の石配置など)を入力とし、次の手a(どこに石を置くか)を確率としてp(a|
2016/03/21 リンク