AlphaGo の論文をざっくり紹介 - technocrat

テクノロジーカテゴリーの変更を依頼記事元:

technocrat.hatenablog.com

31 usersがブックマークコメント

コメント

3

記事へのコメント3件

注目コメント
新着コメント

simizut22 こういうのもあるのか

CNN
alphago

2016/03/21 リンク

kimutansk 教師あり学習で作った初期データを基に互いに対戦させて強化させるとともに局面に対する評価関数を磨き、それをモンテカルロ探索でさすべき手を出す、と。

2016/03/16 リンク

T-norf 助かる良記事。とてもシンプルで、計算資源ぶっこんだとしても、これで最強というのが凄い。確かにCNNが何を学習してるか、どう改良するとどうなるとか気になる。逆に言うとまだまだ発展余地あるよね

MachineLearning

2016/03/15 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

{{ total_bookmarks_with_user_postfix }}{{ root_title }}

AlphaGo の論文をざっくり紹介 - technocrat

ある程度機械学習を知ってる人向けです。わかりやすさ重視でざっくり書くので、詳しいことは本論文をあ... ある程度機械学習を知ってる人向けです。わかりやすさ重視でざっくり書くので、詳しいことは本論文をあたって下さい。ちなみに私は囲碁のルールは知りません。元ネタはNature論文です。 http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html とても読みやすい論文だと思います。オープンアクセス版もどっかに転がってたと思います。構成要素 Alpha GOは主に、教師あり方策ネットワークp_\sigma, 強化学習方策ネットワークp_\rho, 状態評価関数ネットワークv(s), からなっており、これらをうまく組み合わせて、モンテカルロ法による指し手評価を効率的に行っているようです。教師あり方策ネットワークp_\sigma 状態s(盤面の石配置など)を入力とし、次の手a(どこに石を置くか)を確率としてp(a|

ブックマークしたユーザー

inch402016/06/23
amari32016/03/22
sandhillscouser2016/03/22
simizut222016/03/21
masawada2016/03/17
sanryuu2016/03/17
notae2016/03/16
nishitki2016/03/16
you219792016/03/16
p-baleine2016/03/16
hiroyukim2016/03/16
kimutansk2016/03/16
bxyxvzz2016/03/15
katz19552016/03/15
ayaniimi2132016/03/15
T-norf2016/03/15
iphoneapprec2016/03/14

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx