サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
今年の「#文学」
qhapaq.hatenablog.com
昨日の順位戦で嬉しいことがあったので評価関数を公開します。水匠5に対してQPDの教師データによる追加学習を施したものです(ので、この関数が強いのはほぼたややん氏のおかげです) ダウンロードはこちらから github.com 7zファイルへの直リンク 関数名はSuisho-Qhapaq-MixtureZ関数です。略してスク水(SQMZ)関数とでもお呼びください。飛車を振る確率が高い関数(pearl)と、レーティングを高くするために振り飛車率を下げた関数(dia)とがあります。 【強さ、振り飛車率】 最新のレーティングはこちらから。 pearlバージョンは30%程度の確率で飛車を振ってくれます。QPDとほぼ同等の強さ+振り飛車率が向上(20%→30%)ので実質的に強くなったと言えると思われます。diaバージョンは水匠5とほぼ同程度のレーティングでありながら5%〜10%程度の確率で飛車を振ってく
将棋ファンにとって将棋の布教は野望であり義務でもあります。しかし、観る将が普段楽しんでいるような将棋用語は、将棋を見ない人にはほぼ通じません。「この前の王将戦で軍曹が角換わりからの千日手をまたやったんだ」と嬉々として語ろうとも、聞き手の脳裏に千日手と言う単語が残れば良い方でしょう。私自身も将棋の面白さを友人に布教する上で幾度も悔しい思いをしてきました。 本稿で紹介するのは私自身が家族、友人、同僚、謎の留学生に将棋を布教し続けることで体得した将棋の布教術です。今回は布教の基本は人物伝ということで、話題にしやすい棋士をネットでおなじみの打線を組む形式で紹介していきます。私はswitchの聡太を未だに攻略しておらず、香川女流のコミケ本を持っていない末席観る将ではありますが、幾多ものプレゼンラップバトルを制してきた経験をここにぶつけてまいります。 それでは、「よろしくお願いします」 ※:本稿はネタ
「将棋はAIを使って研究する」 2000年頃にはありえないとさえ言われたAIによる人間超えは2010年代にかけて達成され、今となってはプロアマ問わずAIを使った将棋研究が当たり前になりつつあります。 AI以前の将棋研究は一つ一つの局面/変化を人間が時間をかけて検討しなければならなかったのに、今となってはAIを使えば数分で検討が出来てしまいます。その結果、丹精込めて作られた戦略も一度棋譜に残してしまえば一晩で対策されてしまうようになりました。 ポストAI時代の将棋研究については若手からベテランまで多くの記事を残しています。そして、多くのケースにおいて「AIにより将棋研究は加速した」と考えられています。 しかし、本当にAIの台頭で将棋研究は加速したのでしょうか。本稿ではデータからポストAI時代の将棋研究がどの程度早くなったのかを測定してみたいと思います。 【局面のユニークさから見る将棋の戦略の
Qhapaq アドベント将棋記事15日目 将棋における最初の勝負所は「先手を引くか後手を引くか」といえましょう。先手に戦型の選択権があり、後手のほうが苦労が多いのは人間でもコンピュータでも同じです。コンピュータ将棋では、先手の勝率は約6割あります。故に振り駒の時点で勝った側がガッツポーズをすることだってあります。 しかし、これはあくまでコンピュータの話です。コンピュータは人間に比べ戦型の好みが一つのものに偏りやすく、小さな違いが大きく評価される傾向にあるだけに過ぎません。実際、プロ棋士の将棋では先手の勝率は約52%であり、これは将棋の優れたゲームバランスを示唆するものでもあります。 と、思われてきました。が、違うと思います。本稿ではプロ棋士の後手勝率も実効的には4割ぐらいしかない45%弱である仮説をデータを駆使して紹介したいと思います。 2020.07.29、記事の誤っていた部分を修正+藤
Qhapaq アドベント将棋記事10日目 今の詰将棋アルゴリズムで最強と言われているハッシュテーブル+df-pn探索(depth first - proof number)による詰将棋アルゴリズムの完全理解を目指していきます。 参考文献: memo.sugyan.com 【proof numberとは】 proof numberとは平たく言えば詰将棋専用の盤面評価値みたいなものです。通常の盤面評価値と違って、詰み証明のための評価値(pn)と不詰証明のための評価値(dn)があります。pn、dnは「この局面の詰み(proof number)/不詰(disproof number)を証明する為に調べなければならない局面の数」であり、値が小さいほど詰み/不詰に近いという扱いになります。そして、詰み /不詰が証明された局面についてはpn、dnは0になります。局面のpn、dn(厳密には非0のpn、dn
Qhapaq アドベント将棋記事 4日目 棋力向上には詰将棋をやれ仮説に従って、現在、詰将棋を無限に作ってくれるエンジンを開発しています。将棋ソフトの棋譜をベースに問題を作れば、棋譜の版権問題に引っかからずに実戦的な詰将棋を生成できるのではないかと思い詰将棋エンジンの改造に勤しんではいるのですが、中々役に立つものを作るのは難しい.....という開発日記です。 【大雑把な作り方】 将棋ソフト同士の対局棋譜に対して、駒を増やしたり減らしたりしながらひたすら詰みチェックを行い、詰んだ局面を採用するという雑な設計思想になっています。昨今の詰将棋ソルバは十数手程度の詰み筋なら1秒もかけずに見つけることができるので、局面の質よりも数の暴力を優先し、作られた棋譜を何らかの形でスクリーニングするという戦略をとります。 詰将棋アルゴリズムとして近代のソフトに取り入れられているdf-pn法について知りたい方に
「将棋がどうやったら強くなるか」は将棋指しにとって長年の議題であると言えましょう。将棋が強くなる方法論にフォーカスした考察は詰め将棋や戦型の解説本に比べれば数は少ないものの、昭和から令和まで続く一大コンセプトになっています。 将棋の勉強方法として最も長く親しまれているのは詰め将棋でしょう。多くの詰め将棋本が棋力向上を謳っていますし、今最も熱い棋士である藤井聡太七段も詰将棋解答選手権を5連覇中であると同時に、詰め将棋に立脚した終盤の正確さに定評があります。 一方で、詰め将棋が棋力向上に本当に役に立つかについては、長らく懐疑的な意見もでています。最近の有名な記事でいえば若手強豪の一人である増田六段がマイナビのインタビューで挙げた「詰め将棋意味ない説」あたりが解りやすいです。 book.mynavi.jp 詰め将棋が意味があるのか、ないのか。はたまた、将棋は終盤勝負なのか、序盤や中盤の作戦勝負な
世界コンピュータ将棋選手権オンラインverを視聴してくださった皆様、ありがとうございました。我々のチームはQhapaq_from_NeoSaitama(チーム:オムラインダストリ将棋部)で参加し、4位となりました。 本大会はNNUEの発展やディープ勢の躍進など複数のメタゲームが入り乱れる大会となりましたが、Qhapaqチーム視点で見た感想を述べていきたいと思います。 【0.ディープを使えなかったことへのお詫び】 まず最初に皆様に謝らなければなりません。アピール文書ではdlshogiベースのエンジンを用意している、昨年準優勝ソフトと同じ程度の強さになったと書いていましたが、結局大会ではディープを使いませんでした。それには以下の理由があります。 1.dlshogiをforkして作った探索部が稀にクラッシュする問題を解決しきれなかった 2.計算資源の調達に失敗した 3.やねうら王ベースの評価関数
WCSCオンラインで使ったQhapaq from NeoSaitamaの評価関数を公開します。 github.com 本評価関数はhalfkpe9版となっております。halfkpe9に対応したやねうら王はtttakさんのgithubなどから取得できます。 今回のqhapaqの関数は平たく言えばorhqa-halfkpe9です。めきっと氏が開発したillqha-halfkpe9に対してillqha->orqhaで施した学習をした結果、長い持ち時間でやねうら系列に勝ち越すようになりました。 【強さ】 具体的には32スレ4秒(kristallweizen側で凡そ1手6000万ノード)+定跡オフの対局で 62-30 vs kristallweizen 60-32 vs illqha-halfkpe9 となる程度。halfkpe9系の評価関数は、総じて持ち時間が長いと強くなる傾向にあるようです。 大
歴代の名人と今の名人はどちらが強いのか。将棋が強くなる上で必要な力は何であるか。女流棋士は此処数年でどのぐらい強くなったのか。アマチュアトップとプロの実力差はどのぐらいなのか。 こうした問題の答えを得ることは、将棋AIに期待されている大きな仕事の1つです。人間であれば手の評価にブレが出てしまったり、そもそも巨大な棋譜のデータを読み切る事自体が困難であるという問題があります。しかし、コンピュータであれば大量のデータを均一な品質で評価することが可能です。しかも、幾つもの技術的な幸運により昨今の将棋AIは1秒未満の計算でもかなり正確な(ほぼ全ての人間に余裕で勝ち越せるレベルの)盤面評価を行うことが出来ます。 本シリーズでは令和時代の機械学習技術(?)を総動員してできるだけ少ない棋譜で正確に棋力を推定できるエンジンの開発を目指していきます。前編では先行研究の検証を通じてデータの可視化の重要さをお見
※ マニュアル自体にはネタバレ要素はありませんが、実践編はネタバレがあります。ご注意ください。 金田一少年の事件簿は累計一億部を超えたミステリー漫画の金字塔とも言える作品です。長編漫画だけでも50以上の事件に巻き込まれ、数百人規模の死体と50人以上の犯人の悲しいストーリーを目にしてきた金田一少年ですが、そのストーリーを俯瞰してみると犯人の人選に規則性があることが解ってきます。 本稿では小学生時代から金田一を読み続けてきた重度の金田一ヘッズである筆者が金田一の犯人あてをやる際につかうテクニックを、本編のネタバレを含まない形で紹介していきたいと思います。因みに筆者は下記のトリックで犯人当てクイズに十連勝中です。 トリック1.異変を発見したヤツが犯人 密室殺人や不可能殺人は登場人物の恐怖を煽る矛であると同時に犯人を守る盾でもあります。しかし、綿密なトリックの中には犯人自らが登場人物を誘導しなけれ
振り飛車は不利飛車である。きのこたけのこ戦争の煽り文句で出てきそうなこの文言は今や将棋界の暗黙の了解になりつつあります。 タイトルホルダーを居飛車に独占され、勝率の上でも居飛車に押され、プロ棋士にwebニュースで冬の時代到来と言われてしまうなど、振り飛車にとって厳しい時代が到来しています。 さて、人間にとって振り飛車が冬であるように、コンピュータにとっても振り飛車は冬の状態を迎えているのでしょうか。本稿では将棋ソフトの振り飛車の歴史を紐解いていきます。 【将棋ソフトの振り飛車の黎明期(1990〜2000年初頭)】 意外にも(?)、この頃の振り飛車は将棋ソフト界隈のエース戦法の一つでした。というのも、当時の将棋ソフトは水平線効果で序盤、中盤の挙動が怪しく、序盤で変な悪手を指させないためには「初手、3手目は76歩、66歩として角交換を避ける」などの特別な処理を人間が逐一組み込まなければならなか
半年ぐらい前にGigazineデビューした文章要約エンジンIMAKITAが遂にChrome拡張になって帰ってきました。 chrome.google.com 唐突ですが皆様は偉い人の長話に苛々したことはないでしょうか。言いたいことは短いのに枝葉をつけた長文を送られるのにウンザリしたことはないでしょうか。 そんな皆様の声(?)を受けて、半年前に長文を3行ぐらいで纏めてくれる(厳密には、文章全体の中で特に重要度の高い文を抽出してくれる)エンジン IMAKITAを作ってみました。 https://www.qhapaq.org/imakita/ IMAKITAは私の想像以上に好評であり、なんとGigazineにも掲載してもらえました。そして、多くのユーザから「ハイライト機能が欲しい」「逐一サイトにデータを貼り付けるのが大変だ」というアドバイスをいただきました。 そこで、IMAKITAをブラウザ用のア
第29回世界コンピュータ将棋選手権に参加された皆様、感染してくださった皆様、改めてお礼申し上げます。Qhapaq di molto(QDM)は5位入賞という結果を残すことが出来ました。 本大会でQDMはPreponderを使ったクラスタシステムを構築しました。Preponderは前年度優勝ソフトであるHefeweizenが採用したMultiponderを発展させたシステムです。本稿ではQDMの躍進の屋台骨となったPreponderについて解説していきます。 ソースコードは此方からどうぞ github.com 【システムの概要】 【Ponder】 コンピュータ将棋におけるPonderとは相手の手番中に先の展開を予想しておくことを意味します。人間の将棋でも予想外の手に慌てふためいたり、逆に自分の手を相手に読まれた結果、とっておきの一手が即指しで返されてしまったりすることがあると思いますが、コン
パンチカード時代の負の遺産として数値計算系を中心に今も生き続けている言語Fortran。本稿では仮に数値計算用途であってもFortranを使うべきでない理由を説明することで、悪しき文化の終幕を促進したいと思います。 因みに筆者は量子系を中心にした数値計算を生業としています。C++、Pythonがメインですが数値計算ライブラリの拡張などの用途でFortran77も90も触ったことがありますし、Fortran製のライブラリは頻繁に利用しています。 あくまで筆者の経験に基づいたものでありFortranを使っている技術者からすれば反論もあるものとおもいます。 【1.教材として不適切である】 Fortranの長所として計算向けに設計されているため、行列や複素数の計算が簡単であるという点がよく挙げられます。確かに、Fortranの計算はC++などに比べ直感的で簡単です。しかし、高度なプロダクトを開発す
まさかのGigazineデビューをしました。ありがとうございます!! gigazine.net 唐突ですが皆様は偉い人の長話に苛々したことはないでしょうか。言いたいことは短いのに枝葉をつけた長文を送られるのにウンザリしたことはないでしょうか。 そんな皆様の声(?)を受けて、長文を3行ぐらいで纏めてくれる(厳密には、文章全体の中で特に重要度の高い文を抽出してくれる)エンジン IMAKITAを作ってみました。 https://www.qhapaq.org/imakita/ 使い方: ・テキストボックスに文章を入れる(日本語は「。」/「!」/「?」、中国語は「。」区切り、英語、スペイン語、ドイツ語、フランス語、ポルトガル語、イタリア語は「.」区切り。日本語のみ改行も区切る機能を試験的に導入中) ・Squeezeボタンを押す ・結果を楽しむ 使用上の注意: ・無保証です ・文章が長すぎると落ちます
AlphaZeroの論文が出てきました。arxivに出してた論文はイケてなかったですが今回のはイケてます。 前回の論文に対しては今の御時世でWCSC27のelmoに勝ったぐらいで convincingly defeated a world champion program とか言わないでよとか、投了の基準が900点なの意味がわからんとか、定跡はどうしたのかとか、棋譜がないのはどういうことかとか散々な評価をした記憶があります。 が、なんと今回は棋譜があります。しかも羽生竜王に棋譜コメを貰ったようです。棋譜の公開に伴い、戦型の分布も明らかになりました。Zero言いながらちゃんと居飛車を指します。WCSC28でCrazyShogiも矢倉組んでたので驚くほどではないかも知れません。 そして、棋譜の公開と同じくらいイケてるのがaperypaq(Apery-Qhapaq関数、略してaperypaq。2
来週月曜日の技術書典5にQhapaq開発チームも参加します。 イベントのページ: https://techbookfest.org/event/tbf05 https://techbookfest.org/event/tbf05/circle/53170003 以下、頒布物について簡単に紹介をさせていただきます。 頒布物は全て電子書籍です。QRコード入りの紙を頒布する形式です 【科学するコンピュータ将棋LTS板(700円・85ページ)】 技術書典4で科学するコンピュータ将棋を購入された方は無料でアップデートできます 盤面の高精度評価や、高速な探索アルゴリズム、盤面評価関数の技術的進化やトレンドといった、コンピュータ将棋を支える技術に関する解説を行います。 Bonanza時代から、2018年のState of the ArtのNNUE関数まで幅広く扱った、コンピュータ将棋の教科書的な一品です
AlphaZeroの論文は世界に衝撃をもたらしました。曰く、ディープラーニングと強化学習で作られた評価関数は激烈に強く、囲碁だけでなく、チェス・将棋でも人間を超え最強のソフトを超えたと。 人間 vs コンピュータに終止符を打ち最後まで絶対的強さを魅せつけたPonanza、そのPonanzaをWCSC27で破ったelmo、そのelmoを90-2-8で破ったAlphaZero。elmoとのレート差は約400。コンピュータ将棋も終わった。 ......と思ったかも知れません。あの時は。 しかし、AlphaZeroの論文(2017年12月発表)から1年も経たないうちその神話は終焉を迎えました。 レーティングサイト(新/旧)のレーティング表からもお察しの通り、今の将棋ソフトのレーティングはelmo+400ぐらいの値が出ています。 orqha0926はorqhaの最新バージョン(公開版orqhaに対し
棋士ランキング(レーティング)のレーティング最下位は誰でしょう。 長きにわたってこの問の答えは「女流棋士」だったのですがそれも今は昔。2018年になってから女流棋士はそのレートを80超上げる急激な成長を遂げ、レーティング最下位の座を脱出しています。 確かに、女流棋士界で不動の王者である里見女流四冠の男性プロ棋士成績(巷でいう公式プロ棋戦)での勝率は3割弱であることを考えると、男女プロ棋士間に大きなレート差があることは間違いないでしょう。 とはいえ、同じ負けでも完敗と惜敗がありますし、年に数局しか組まれないカードだけで判断するのも早計というものではないでしょうか。そこで本稿では女流棋士の棋譜を将棋ソフトを用いて解析することで、女流棋士の近年の成長を見ていきたいと思います。 【悪手率は大差ない】 今回はQhapaqを使って里見女流四冠の棋譜を解析してみました。Qhapaqを用いて手が指された前
将棋星人が攻めてきたら地球代表を誰にするか。この問に「豊島棋聖」と答えると「こいつ将棋通だな」と思われることでしょう。というのも、豊島棋聖は非公式の棋士レーティングに於いて長らく頂点に君臨し続けているからです。 豊島棋聖は長きにわたって勝ち星を積み重ね続けていますが、その棋風は掴みどころが難しく、あえて言うなら「最後は勝ってしまう」(豊島の将棋 実戦と研究 (マイナビ将棋BOOKS)より)「序盤中盤隙がない」と評されるぐらいです。 そこで今回は次世代の将棋星人である豊島棋聖の強さの秘訣を将棋ソフトを使って解析してみます。 【評価方法】 評価値毎の悪手率(手を指す前の評価値と後の評価値の差から求められる悪い手を指す確率)を計算しています。粘り強さが重要となる劣勢局面での悪手率、研究の深さが重要となる互角局面での悪手率、詰めの腕が重要となる優勢局面での悪手率を比べることでプレイヤーの棋力を可視
update 18/06/03 12:00 NNUE評価関数とは将棋ソフトの思考エンジン(もとい、局面の良し悪しを評価するための関数)です。NNUE関数は今流行りのニューラルネット(ディープラーニングの小さいやつ)を盤面評価に取り入れており第28回コンピュータ将棋選手権で多くの既存評価関数ユーザをぶちのめしてきた新機軸評価関数です。 2018年6月時点で多くの開発者、有志がNNUE関数をイジって遊んでいます。公開されてから未だ日が浅いため、もしNNUE関数の学習で大当たりを引けば、次の電王の座を手に入れられるかも知れません。 というわけで、このゴールデンカムイに乗っかろうとする皆様のために、NNUE関数の成り立ちについて解説していきます。今回はネットワークの構造と、学習のルーチンの仕様について紹介していきます。 開発者による解説文書(正直結構難しい) tnk-のgithub (現在NNUE
2018.05.08に修正 第28回世界コンピュータ将棋選手権に妖怪惑星Qhapaqとして参加しました。悲願の決勝リーグ進出を達成し、最終的な順位は7位入賞となりました。応援してくれた方、大会を支えてくれた方、大会を楽しんでくれた方全てにお礼申し上げます。 本稿では御礼に変えて実況などでは出てきにくい、Qhapaqから見た舞台裏のうち技術と関係ない話(技術的な話はもう少し検証が必要なので)をしていきます。 Crazy shogi、マジでCrazy: 本大会の注目株の一つであったCrazy shogi。海外勢としては2人目なのですが、日本語を話せない参加者が来るのは本当に久々で英語対応に苦慮しました。基本的にYSSの山下さんが対応をしていましたが、山下さんが大会運営に出ているときは代わりに私が説明をしたりもしました(中継ブログの画像でやたらRémiさんと一緒に写ってるのはそれだ)。 開発者の
2022年11月の第3回世界将棋AI電竜戦本戦、及び、 第1回マイナビニュース杯電竜戦ハードウェア統一戦に参加したJust Stop 26歩の評価関数です。定跡無しで飛車を振る、水匠をはじめとした入賞ソフトの多くに振り飛車で倒す、いずれの大会も振り飛車ソフトとしては最高成績を上げる(6位、9位)と2023年2月時点でおそらく最強の振り飛車将棋ソフトであると思われます。ふかうら王(dlshogi)向けの評価関数(model.onnx)とやねうら王に搭載できるNNUE型の評価関数(nn.bin)からなります。ただしnn.binはsqmz関数と同じ中身となっております。 ダウンロードはこちらから github.com 深層学習モデルで特定の戦型を指すことを特徴とした評価関数については勝率測定が難しく(互角局面を使うと無意味なものになってしまうが、さりとて平手でやると同じ棋譜ばかりが作られる)強さ
藤井四段と羽生三冠のどちらが強いか、流行の人工知能に聞いてみましたの拡張版として、中学生棋士5人の棋力をAIに分析してもらいました。 本稿は4月22日の技術書典4で頒布する「科学するコンピュータ将棋」の一部分となっております。興味がありましたら、是非イベントにお越しください(本書の宣伝ページは此方)。 中学生棋士の棋力解析の全文は此方のページから閲覧可能です(このデータに加え、対局相手との比較などのデータがあります)。 【人間の強さは良く解らない】 「藤井六段は羽生竜王より強いか」 「最盛期が最も強かった中学生棋士は誰か」 これらは観る将であれば一度は考えたことだと思われます。藤井六段と羽生竜王の成績は非公式戦で1-1、公式戦では1-0です。現時点では藤井六段が勝ち越していますが、勝率を測定する上では全然足りていません。プロ棋士が年間に戦う数は精々50前後であり、この程度の数だと勝率には1
評価関数の学習をやっている人達における、バッチサイズや学習率に関する話は、 アラサー男子の健康トークのような立ち位置であると言えます。 どういう理屈かはさっぱりわからないですが、100万局面づつ更新しながら10セット学習するのと、1000万局面を1回学習するのとでは、何故か1000万局面を1回学習させるほうが強くなるようなんですよ。不思議ですね。— 桜丸@mEssiah_β1 (@sakuramaru7777) 2018年3月9日 私自身は、学習におけるパラメタ調整は落とし穴のようなものだと考えています。 微調整した所でそこまで強くはならないのですが、設定を誤ると学習を大失敗させる ポテンシャルはあるからです。 故に、どういうケースでどういう失敗をするのかを考えておくことは有意義と言えましょう。 【取り敢えず実験】 以下のコードを実行すると、バッチサイズ、学習率を変えながら1次元問題の最適
今や将棋研究のお供の定番である将棋ソフトですが、その裏で初心者の練習相手としても定番になりつつあるようです。駒の動かし方を覚えた人が次にやるべきなのが数練習をすることであり、数をこなす為のモチベーションを維持する際に、無限に遊んでくれてしかも負けてくれる将棋ソフトにニーズがあるようです。 どのぐらいニーズがあるかというと、絶対王者のponanzaさえも弱いソフトを作ることに一石投じる程度にはニーズがあるようです。 将棋ウォーズにある史上最強に弱いPonanzaの話|山本 一成@Ponanza|note 曰く、クッソ強いponanzaの評価値を反転すればクッソ弱いソフトが出来る。 成る程。ponanzaが全力で悪くなる局面を探してくれるなら、確かに弱くなりそうだ。しかし私はこの記事を見て「ソフト同士が負けることに全力を尽くした場合、果たしてどのくらいまで弱くなるのか」が気になりました。 ここ
皆様知っての通り、羽生三冠はとても強いです。将棋連盟のホームページによるとこの記事の執筆時点で通算成績は1379-552だそうです。長く現役を続け、かつ、タイトルに近づくほど相手が強くなる中でこの成績をキープするには並々ならぬ努力を続けていることと思われます。 通算100タイトル、永世七冠など将棋ファンなら羽生三冠がどこまで記録を打ち立てるかに目が離せないと思われますが、ふと、逆に、ここから羽生三冠が全力で将棋をサボった場合、果たしてどこまで成績を下げられるのかが気になりました。 勝率を5割に戻すためには、現時点で827連敗しなければいけないそうです、果たしてそんなことは可能なのでしょうか...... 注:以下、そんなに真面目に計算はしていません。興味を持たれた方は是非、ご自身で計算してみましょう(あと、結果教えて欲しいですw) 【愚直に連敗すると勝率5割になる前に引退してしまう】 一番愚
注:今回の記事は完全にプログラマ向けの解説記事です ソースコードの閲覧、ダウンロードは此方からどうぞ GitHub - qhapaq-49/tf_reinforcement: tensorflowを使った簡単(300行弱)なreinforcement learning 【今回作りたいもの】 囲碁やポーカーのAIで度々注目されているディープラーニングを使った強化学習。時代の先端を走るゲームAI開発者的には是非覚えておきたいスキルの一つです。といっても、強化学習の動作原理自体は下記の図のようにシンプルなものです。本稿では下記図の流れを一通り搭載したスタンドアロンで動く強化学習ルーチンを紹介します(上述のgithubのコードを見ながら読まれることをオススメします)。 【本稿で扱うゲームのルール】 本稿ではニューラルネットで動く競りゲームのAIを作ります。競りゲームとは ・初期所持金10のプレイヤ
次のページ
このページを最初にブックマークしてみませんか?
『コンピュータ将棋 Qhapaq』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く