並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 130件

新着順 人気順

強化学習の検索結果1 - 40 件 / 130件

強化学習に関するエントリは130件あります。 機械学習、 AI、 学習 などが関連タグです。 人気エントリには 『誰でもわかる強化学習』などがあります。
  • 誰でもわかる強化学習

    本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モ…

      誰でもわかる強化学習
    • 『学マス』AIによってリリース前にレッスンを10億回、人力なら1900年分の検証を実現。バランスブレイカーを効率的に見つけ出すAI学習とデッキ探索【CEDEC2024】 | ゲーム・エンタメ最新情報のファミ通.com

      ゲーム・エンタメ最新情報のファミ通.com取材・リポートモバイル・アプリ『学マス』AIによってリリース前にレッスンを10億回、人力なら1900年分の検証を実現。バランスブレイカーを効率的に見つけ出すAI学習とデッキ探索【CEDEC2024】

        『学マス』AIによってリリース前にレッスンを10億回、人力なら1900年分の検証を実現。バランスブレイカーを効率的に見つけ出すAI学習とデッキ探索【CEDEC2024】 | ゲーム・エンタメ最新情報のファミ通.com
      • 自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

        こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。 あくまでも私の経験 強化学習基礎系 [Qiita] DQN(Deep Q Network)を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [ブログ]強化学習 もう少し強化学習を詳しく知りたい系の人へ [書籍]速習 強化学

          自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
        • AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃

          AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃 2020.10.08 Updated by Ryo Shimizu on October 8, 2020, 11:13 am JST 「最近のAIがすごい」と言われてからもう6年ほどが経過した。 なかでも人目を引いたのは、なんといっても2016年のAlphaGoだろう。最難関ゲームの一つと言われる囲碁において、人間のトップ棋士に対しAIが圧勝したのである。 これは「深層強化学習」というAIだが、実際のところ、「深層強化学習」を実用的に利用した例はまだ少ない。 多くのAIベンチャーやAIベンダーが扱う「AI」技術は、古典的な統計解析か、時折ニューラルネットを使っているくらいで、「深層学習」ではあっても「深層強化学習」とは完全に別物である。ラジオもコンピュータも同じ電気で動くものだが別物であるのと同じだ。 深層強化学

            AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃
          • ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

            RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうものですが、そうしたRLHF用データの入力や管理を行ってくれるプラットフォームが「Argilla」です。 Bringing LLM Fine-Tuning and RLHF to Everyone https://argilla.io/blog/argilla-for-llms/ 大規模言語モデルを作成する時の手順を示したのが下の図です。まず大量のテキストを用いて事前学習を行います。こうして作成されたモデルが事前学習済みモデルで、GPTやPaLM、LLaMAなどのモデルがこのカテゴリに

              ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利
            • LLM時代の強化学習 - どこから見てもメンダコ

              強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策 マルチモーダルLLM as 確率方策 参考:GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに:VLM as 確率方策に期待 はじめに:実世界における強化学習の課題 レトロゲームで人間並みのパ

                LLM時代の強化学習 - どこから見てもメンダコ
              • サッカーを強化学習する - 思考の本棚

                はじめに この記事は強化学習苦手の会Advent Calenderの12日目の記事です。 私は11月末までKaggle上で開催されていたGoogle Research Football with Manchester City F.C.に参加していました。このコンペはGoogle Researchが用意したサッカーゲーム上でサッカーエージェント(プレイヤー)を作成し、その強さを競うというものです。 私はhigeponさんとチームを組ませていただき、強化学習アプローチでコンペ開催から終了まで取り組みました。そこでサッカーエージェントを強化学習で育成する際に工夫した点や苦労した点を共有できればと思います。 kaggle: Google Research Football competition www.kaggle.com GitHub: Google Research Football gi

                  サッカーを強化学習する - 思考の本棚
                • 強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)

                  東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です. 強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました. 主に以下のような強化学習の概念やアルゴリズムの紹介をしています. ・マルコフ決定過程 ・ベルマン方程式 ・モデルフリー強化学習 ・モデルベース強化学習 ・TD学習 ・Q学習 ・SARSA ・適格度トレース ・関数近似 ・方策勾配法 ・方策勾配定理 ・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN(Deep Q-Network) ・経験再生 ・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Nois

                    強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
                  • ChatGPT 人間のフィードバックから強化学習した対話AI

                    東京大学の研究室内で,今井がChatGPTの知見を共有するために使用したスライド資料です. 特に以下のような話題,技術について解説しています. ・ChatGPTの凄さ ・ChatGPTの技術 ・言語モデル ・プロンプト ・GPTとは ・InstructGPT ・言語モデルと強化学習Read less

                      ChatGPT 人間のフィードバックから強化学習した対話AI
                    • いろんなバンディットアルゴリズムを理解しよう - Qiita

                      Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 今回は、何も知らないところからバンディットアルゴリズムを学びました。 シンプルなバンディットアルゴリズムから、各ユーザーごとに最適化するContextual Bandit、順序を最適化するCascading Banditまで解説します。 学んでいて疑問に思ったことを解消しつつ記載しています。 ソースコード https://github.com/birdwatcherYT/bandit 対象読者 バンディットアルゴリズムを理解して実装したい人 ユーザーごとにカスタマイズしたバンディットを理解して実装したい人(Contextual Band

                        いろんなバンディットアルゴリズムを理解しよう - Qiita
                      • 強化学習の基礎まとめ - Qiita

                        こんにちは、すきにーです。 強化学習の基礎的な手法についてまとめました。 はじめに この記事では以下を説明しています 動的計画法 モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編 に載っているものを参考にしています。 参考記事 深層強化学習アルゴリズムまとめ ゼロからDeepまで学ぶ強化学習 これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ 今さら聞けない強化学習(1):状態価値関数とBellman方程式 全体図 動的計画法 動的計画法は、エージェントが置かれた環境のモデルがすでに分かっているとき最適な方策を見つけるアプローチです。 方策反復法と価値反復法があります。 環境のモデルが分かっていることは少ないので、あまり使われません。 モンテカルロ法 動的計画法では環境のモデルが完全にわかっている状態

                          強化学習の基礎まとめ - Qiita
                        • RLHF (人間のフィードバックからの強化学習) の図解|npaka

                          以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依存するため、定義することが困難です。 「良い」テキストを生成するための損失関数の設計は難しく、ほとんどの言語モデルは、まだ単純な次のトークン予測損失(クロスエントロピーなど)で学習しています。この損失自体の欠点を補うために、BLEUやROUGEなどの人間の好みをよりよく捉えるように設計された指標も定義されています。しかしこれらは、能力測定において損失関数より適してますが、生成されたテキストを単純なルールで参照比較するため、制限があり

                            RLHF (人間のフィードバックからの強化学習) の図解|npaka
                          • 東京大学、強化学習と統計的自然言語処理の講義資料が無料公開 サイバーエージェントの講師ら担当 | Ledge.ai

                            サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                              東京大学、強化学習と統計的自然言語処理の講義資料が無料公開 サイバーエージェントの講師ら担当 | Ledge.ai
                            • ChatGPTなどに使われる大規模言語モデルを従来のシステムよりも15倍高速・低コストで学習できる「DeepSpeed-Chat」をMicrosoftが公開

                              OpenAIが提供する「ChatGPT」などのチャットAIは要約やコーディング、翻訳などを人間の専門家以上の精度で実行できると報告されています。しかしチャットAIの訓練に必要な人間のフィードバックに基づいた強化学習(RLHF)を実行するエンドツーエンドなパイプラインが存在せず、最先端のチャットAIの訓練を行うことは困難でした。しかしMicrosoftが発表した「DeepSpeed-Chat」では誰でもChatGPTのようなモデルを作成可能です。 DeepSpeed/blogs/deepspeed-chat/japanese at master · microsoft/DeepSpeed · GitHub https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat/japanese これまでChatGPTのよ

                                ChatGPTなどに使われる大規模言語モデルを従来のシステムよりも15倍高速・低コストで学習できる「DeepSpeed-Chat」をMicrosoftが公開
                              • エクストリーム「人類最強ボードゲームAI」AlphaZeroアルゴリズム入門 - Qiita

                                はじめに 僕が、この本に出会ったのは、かれこれ1ヶ月前のことになる。 それまでは、自分は「AlphaZero」のAの字も知らない「AlphaZero童貞」だった。 AlphaZero 深層学習・強化学習・探索 人工知能プログラミング実践入門 この本にであって、気づいたらAlaphaZeroを自分で実装するところまでいけた! わかりやすい、大変オススメの本です。 (※この記事の図は、この本から引用しています。) この記事を読むことで、 「AlphaZeroのアルゴリズム概要はつかめた。」 というところまで、噛み砕いてエクストリームに説明できればと思います。(中田敦彦風) AlphaZeroのすごいところ まず、AlphaZeroをかいつまんで話すと ルールを与えるだけで、自分のコピーとひたすら対戦を繰り返し勝手に学習して、進化していく(強化学習と呼びます) いろんなゲームに転用可能 十分に学

                                  エクストリーム「人類最強ボードゲームAI」AlphaZeroアルゴリズム入門 - Qiita
                                • 【強化学習編】2022年に読むべき「機械学習/ディープラーニングの最新論文」30選 - Qiita

                                  はじめに 今回は強化学習編として、Transformer/BERTの発展モデルや新たな学習法・正則化方法の提案に関する内容などの最新論文を7本ご紹介します!著者実装が公開されているものは、その情報も併せてまとめました。論文は自動機械学習(AutoML)を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となってスキルアップAI講師陣にて厳選しました。ぜひ、今後の学びにご活用ください! CoBERL: Contrastive BERT for Reinforcement Learning 実装のURL:https://github.com/deepmind/dm_control 強化学習における新たなエージェント「Contrastive BERT for Reinforce

                                    【強化学習編】2022年に読むべき「機械学習/ディープラーニングの最新論文」30選 - Qiita
                                  • Control as Inference (強化学習とベイズ統計)

                                    The document discusses control as inference in Markov decision processes (MDPs) and partially observable MDPs (POMDPs). It introduces optimality variables that represent whether a state-action pair is optimal or not. It formulates the optimal action-value function Q* and optimal value function V* in terms of these optimality variables and the reward and transition distributions. Q* is defined as t

                                      Control as Inference (強化学習とベイズ統計)
                                    • 強化学習未経験者がテトリスの AI を作ってみた話

                                      はじめに この度、強化学習によるテトリスの AI を作成してみました。想像以上にうまくいき、最終的には半永久的にラインを消してくれる AI に成長してくれたので、今回はその記録として AI を作成した過程をここに記していきます! 今回の AI の概要 今回作成したテトリス AI の概要は以下の通りです。 特定のゲームの状態から可能な行動パターンを全てシミュレーションする 行動後の状態を入力情報として Neural Network に今後の報酬の期待値を推測させる 今後の報酬の期待値が一番高くなる行動を実際の行動として選択して遷移する (貪欲方策) Game Over になるまで 1 ~ 3 を繰り返す Tetris AI を可視化した図 何も知らない頃は『AI ってどうやって動いてるんだ?』と自分は思っていたんですが、動作原理は非常にシンプルです。強化学習とは、この今後の報酬の期待値を推測

                                        強化学習未経験者がテトリスの AI を作ってみた話
                                      • 【入門】強化学習 - Qiita

                                        強化学習をざっと勉強した際のまとめです。 入門者の参考となれば幸いです。 強化学習とは 強化学習の位置付けはこのようになります。 【用語】 - 教師あり学習 - 教師データとして入力とその出力がある - 回帰や分類問題 - 教師なし学習 - 教師データがない - データの特徴を抽出したり、表現変換 強化学習では何をしていくかというと、 「将来の価値を最大化するような行動を学習」 していきます。 強化学習のモデル 強化学習の基本的な仕組みは次のようになっています。 以下の$t$は任意のステップを示します エージェント(意思決定者): 意思決定と学習を行う主体 環境: エージェントが相互作用を行う対象 状態: 環境がエージェントの行動を反映した上で、エージェントに与える状況, $s_t$ 行動: $a_t$ 報酬: $r_t$ 方策: $π_t(s, a)$:確率分布で表される行動戦略。任意の

                                          【入門】強化学習 - Qiita
                                        • kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )

                                          概要 現在、kaggle に Connect X という強化学習の Getting Started コンペ があります。このコンペを通じて強化学習を少し勉強したので、その内容を記載したいと思います。 こちらの書籍をもとに強化学習について理解したことと、Connect Xコンペでの実装を解説した記事になります。間違いがあれば、コメントいただけたら嬉しいです。 bookclub.kodansha.co.jp 強化学習とは 強化学習とは、行動から報酬が得られる環境において、各状況で報酬に繋がるような行動を出力するように、モデルを作成すること。 教師あり学習との違いは連続した行動によって得られる報酬を最大化させるという点です。囲碁を考えた時、ある局面で悪手に見えた一手が、先々進めると実は良い手だった、といった場合のその一手を選択できるようにするのが強化学習になります。 Connect X と強化学

                                            kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )
                                          • Algorithms for Decision Making

                                            • 強化学習 - 2020論文までの道のり(Q学習中心~R2D3, Agent57) - Qiita

                                              強化学習の基礎から最近の論文までの道のりを繫ぎたいというモチベーションで,最初は強化学習の基礎の基礎の解説から,Q学習についてR2D3, Agent57あたりまで読んだ論文についてまとめてみました.Actor-Criticについては,Q学習との比較用にA3Cあたりを少しだけ書いています.あと,最後に軽くマルチエージェント強化学習(MARL)とオフライン強化学習(Offline RL)にも触れて紹介しています. 基礎の基礎 強化学習とは? 教師あり学習,教師無し学習に並ぶ,機械学習の一分野. 端的に言うと,エージェントと呼ばれる行動主体が,ある環境のなかで得られる報酬を最大化する最適化問題. ただし,報酬を得るためにどうしたらよいかというのは非自明な場合が多く,また,報酬のみではスパースで扱いにくいので,途中の過程ででてくる状態や,エージェントの行動に価値を付与し,その価値を最大化する問題に

                                                強化学習 - 2020論文までの道のり(Q学習中心~R2D3, Agent57) - Qiita
                                              • OpenAIとApollo Research、「o1」は自分の目的のために嘘をつくと報告

                                                米OpenAIとAI安全性の研究組織である米Apollo Researchは12月5日(現地時間)、OpenAIが同日公式版をリリースしたLLMの「o1」についての考察を発表した。いずれも、o1に関して幾つかの懸念事項を指摘している。 o1は、OpenAIが9月に発表したLLM。回答を生成する前に思考の連鎖を生み出すことで、複雑な推論タスクを実行できるというものだ。さまざまな戦略を試したり、間違いを認識したり、思考プロセスを洗練したりすることで、従来のモデルと比較して、より有用な回答を提供できるようになったとOpenAIは説明している。 だがApollo Researchは、o1が「scheming」(策略。開発者やユーザーの意図と異なる目的を密かに追求する能力)について評価したところ、o1が以下のような行動を示すことが明らかになったとしている。 開発者やユーザーではなく、o1自身の目標に

                                                  OpenAIとApollo Research、「o1」は自分の目的のために嘘をつくと報告
                                                • サマースクール’20:深層強化学習 | Deep Learning JP

                                                  本講座は、Deep Learningを用いた強化学習に特化した全6回の講義です。東京大学でDeep Learning基礎講座を公開してきた松尾研究室が、深層学習の基礎を習得済みの学生を対象として開講するものです。 深層学習を用いた強化学習の研究・社会実装のスタートラインに立てるレベルの知識・実装力の習得を目指します。離散制御や連続値制御、モデルベース学習などの強化学習の基礎的なアルゴリズムから、sim2real、模倣学習、Control as Inference、世界モデル、まで深層強化学習の種々のトピックをカバーします。講義のみでなく、実践的な演習を通して、効率的に強化学習について手を動かしながら技術を深く理解します。

                                                    サマースクール’20:深層強化学習 | Deep Learning JP
                                                  • 【NeurIPS2022】過去17年間の機械学習・AI研究のトレンドを調査してみた - ENGINEERING BLOG ドコモ開発者ブログ

                                                    こんにちは。dcm_chidaです。 ドコモ開発者ブログ初投稿です。よろしくお願いします。 はじめに みなさん「NeurIPS」と言う国際会議名を聞いたことがあるでしょうか? 機械学習・データ分析の分野では毎年たくさんの国際会議が開催されていますが、NeurIPSはその中でも歴史あるトップカンファレンスの一つです。世界中の研究機関や企業から最先端の論文が投稿されます。 NTTドコモR&DではKDDやNeurIPSといった国際会議の論文読み会を不定期に開催しております。「今年もNeurIPSの論文読み会やるかー」と思って、会議そのもの概要や最新の研究動向などを調べてみたので、ブログ記事にまとめようと思います。 論文そのものの解説記事ではないのでご注意ください。 1分で分かるNeurIPS2022の概要まとめ 会議名称 The Conference and Workshop on Neural

                                                      【NeurIPS2022】過去17年間の機械学習・AI研究のトレンドを調査してみた - ENGINEERING BLOG ドコモ開発者ブログ
                                                    • Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 - masato-ka's diary

                                                      この記事について 深層強化学習を利用してAI RC Carの走行を学習させるソフトウェアをGithub上で公開しています。learnign_racerと命名しました。2020年4月29日の時点でのバージョンはv1.0.0です。この記事ではこのソフトウェアについて紹介していきます。 github.com なお、NVIDIAのJetson Community Projectsのページでも紹介されています。 developer.nvidia.com learning_racerの概要 このソフトウェアは10分から15分程度の学習時間で、コースに沿って走行する方法を獲得することができます。従来のAI RC Carでは人間のお手本操作をDNNに覚えこませる手法が一般的です1。ですが、本手法は教師なし学習の手法である強化学習をベースとしているため、教師データとなる人間のお手本操作は必要ありません。さら

                                                        Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 - masato-ka's diary
                                                      • ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita

                                                        要点 マルチモーダル深層学習って何?Vision-Language Modelって何?という方向けに、 Google Colabで実際に学習済みモデルを動かしながら技術概要を理解していただけるチュートリアル記事です。 マルチモーダルの時代が到来 この10年、ディープラーニングの登場により、画像の分類や、文章読解(日本語等の自然言語によるQA)などが高い精度で自動化できるようになりましたね。 しかし、画像は画像、自然言語は自然言語・・・と、それぞれに特化した手法の開発が中心で、それらが混在したマルチメディア(マルチモーダル)の問題へのチャレンジは少ない状況に長らくありました。マルチモーダルの重要性は人間の様々な知的判断の場面を思い返せば分かりますね。実課題解決において重要なAI技術分野といえます。 シングルモーダルが中心だった潮目はこの1年くらいで変わり、昨今、マルチモーダルな深層学習モデル

                                                          ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita
                                                        • ï¼»CEDEC 2022]「桃鉄」と「パワサカ」に見る,強化学習AIの活用事例。ゲームデザイン分析とゲームバランス調整の実態を,実例を交えて紹介

                                                          [CEDEC 2022]「桃鉄」と「パワサカ」に見る,強化学習AIの活用事例。ゲームデザイン分析とゲームバランス調整の実態を,実例を交えて紹介 ライター:大陸新秩序 2022年8月24日,ゲーム開発者向けカンファレンス「CEDEC 2022」にて,「強化学習AIを活用してゲームデザインを!:『桃太郎電鉄〜昭和 平成 令和も定番!〜』『実況パワフルサッカー』」と題されたセッションが開催された。 本セッションには,コナミデジタルエンタテインメント 技術開発部主査の岩倉宏介氏と第三制作部プログラマーの池畑 望氏,技術開発部プログラマーの宗政俊一氏の3名が登壇。ゲームデザイン分析および運営型ゲームのバランス調整に強化学習AIを活用した事例の紹介が行われたので,その内容を紹介しよう。 本セッションにおける強化学習とは まずセッションの冒頭では,AIの強化学習の解説が行われた。強化学習では,AIがゲー

                                                            [CEDEC 2022]「桃鉄」と「パワサカ」に見る,強化学習AIの活用事例。ゲームデザイン分析とゲームバランス調整の実態を,実例を交えて紹介
                                                          • 制御工学者のための強化学習入門

                                                            Online ISSN : 1883-8170 Print ISSN : 0453-4662 ISSN-L : 0453-4662

                                                            • 深層強化学習AI時代の”人間”の仕事

                                                              深層強化学習AI時代の"人間"の仕事 2022.01.21 Updated by Ryo Shimizu on January 21, 2022, 07:18 am JST 2022年は、AIはあまりニュースの話題にのぼらないだろうと思う。 なぜならば、もはやAIを用いることは当たり前になってきているからだ。 バズワードとしてのAIは2021年で終わった感がある。 一方で、AIの仕事は、うまくいけばいくほど地下に潜る性質がある。 すなわち、競争相手にどうやっているかを探られないように巧妙に隠す必要があるからだ。 次にニュースになるものがあるとすれば、AIがコンシューマ製品に搭載された時だが、たとえば「スマホにAI」は既に入っているのでニュース性がない。「ゲーム機にAI」が入っているのは当たり前であり、「テレビにAI」ももはや新鮮味がない。 アカデミズムの世界では、少し前までは、「ディープラ

                                                                深層強化学習AI時代の”人間”の仕事
                                                              • 人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される

                                                                大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。「AlpacaFarm」は「人間がどんな評価を返すのか」をシミュレートすることで安価&高速にRLHFを進めることができるツールです。 Stanford CRFM https://crfm.stanford.edu/2023/05/22/alpaca-farm.html (PDF)AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback https://tatsu

                                                                  人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される
                                                                • AI素人エンジニアが一週間で自動運転ラジコンカーを作ってみた - TECH PLAY Magazine

                                                                  マイクロソフトとアクセンチュアのジョイントベンチャー、アバナードの開発部隊が開発事例を紹介する「Avanade tech talk」第三弾。今回はAI素人のエンジニアメンバーが、業務の合間の1週間という短期間で開発した「AI自動運転ラジコンカー」について紹介する。 AI自動運転ラジコンカー「Bonsai Car」開発プロジェクト立ち上げの舞台裏 AI自動運転ラジコンカー「Bonsai Car」は、アバナードで年1回開催されている社内メイカソン「!nnovate (イノベート)」で作成されたもの。Bonsai Carという名称の由来は、マイクロソフトのAI「Project Bonsai」からきている。 Bonsai Carチームは7人のメンバーで構成されており、今回登壇したのはチームリードの小林直樹氏、AI部分の開発を担当した寺岡優氏、IoTエッジ側、Raspberry Piの搭載側を担当し

                                                                    AI素人エンジニアが一週間で自動運転ラジコンカーを作ってみた - TECH PLAY Magazine
                                                                  • ゼロから作るDeep Learning ❹

                                                                    人気シリーズの第4弾。今回のテーマは強化学習です。実際のコードを提示し動かしながら学ぶという本シリーズのスタイルを踏襲し、外部ライブラリに頼らず、強化学習を支える基本的な技術やアイデアをゼロから実装しながら学びます。本書では読者が強化学習独特の理論を確実にマスターできるように、強化学習という難解なテーマの構成要素の一つひとつを「理論」と「実践」の双方から丁寧に解説します。数式だけで説明する理論書とは異なり、読者はコードを通してハッとする気づきを数多く得られるでしょう。 関連ファイル サンプルコード 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷版、刷り年月日をご確認の上、ご

                                                                      ゼロから作るDeep Learning ❹
                                                                    • StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka

                                                                      以下の記事が面白かったので、簡単にまとめました。 ・StackLLaMA: A hands-on guide to train LLaMA with RLHF 1. はじめにこの記事では、「SFT」「RM」「RLHF」の組み合わせで、「Stack Exchange」の質問に答える「StackLLaMA」の学習の全ステップを紹介します。 ・SFT (Supervised Fine-tuning) : 教師ありファインチューニング ・RM (Reward / preference modeling) : 報酬 / 嗜好モデリング ・RLHF (Reinforcement Learning from Human Feedback) : ヒューマンフィードバックからの強化学習 「StackLLaMA」は、以下でデモを試すことができます。 ベースモデルとして「LLaMA 7B」、データセットとして「

                                                                        StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka
                                                                      • Google傘下のDeepMindがゲームのルールを教えられなくても勝ち方を勝手に学習していくAI「MuZero」を発表

                                                                        人工知能企業の「DeepMind」が、新たに「ルールの知識がゼロでも囲碁・将棋・チェス・Atariの勝ち方を自分で学んでいくことができるAI」を発表しました。「MuZero」と名付けられたAIは、「自分で考えるAI」への大きな一歩だとみられています。 Mastering Atari, Go, chess and shogi by planning with a learned model | Nature https://www.nature.com/articles/s41586-020-03051-4 MuZero: Mastering Go, chess, shogi and Atari without rules | DeepMind https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atar

                                                                          Google傘下のDeepMindがゲームのルールを教えられなくても勝ち方を勝手に学習していくAI「MuZero」を発表
                                                                        • 強化学習100é¡Œ

                                                                          Web site created using create-react-app

                                                                            強化学習100題
                                                                          • ぼくのかんがえたさいきょうの強化学習アルゴリズム(古典強化学習編) - Qiita

                                                                            この記事は自作している強化学習フレームワークの解説記事です。 はじめに 今までフレームワークを通じて様々な強化学習アルゴリズムを実装してきました。 今回その知識を生かしてオリジナルなアルゴリズムを考えてみたので記事にまとめてみます。 このアルゴリズムは以下の状況でかなりの精度を誇ります。 マルコフ決定過程なモデル 状態が離散で現実的な数 行動が離散で現実的な数 ※"現実的な数"というのは数に上限があり、その上限がそれほど大きくない場合を指します 基本アイデア 基本的なアイデアは探索(Exploration)と活用(Exploitation)の分離です。 強化学習では一般的に「探索と活用のトレードオフの問題」1があり、探索を優先すると報酬が少なくなり、活用を優先すると局所解に陥る可能性が高くなる問題があります。 私が過去に記事で取り上げた手法では、どれも探索と活用のバランスをとり学習を進めて

                                                                              ぼくのかんがえたさいきょうの強化学習アルゴリズム(古典強化学習編) - Qiita
                                                                            • 機械学習の「Q学習」にベイズ推定を取り入れると一体何が起こるのか?

                                                                              機械学習における強化学習の一種である「Q学習」は、行動主体となるエージェントが現在の状況と未来の状況、そして得られる報酬から最適な答えを学習する手法です。そんなQ学習にベイズ推定の要素を取り込む研究が機械学習エンジニアのBrandon Da Silva氏によって行われています。 brandinho.github.io/bayesian-perspective-q-learning/ https://brandinho.github.io/bayesian-perspective-q-learning/ Q学習の基本的な考え方は「ある状態の価値(Q値)は、得られる報酬と次の時点の状態の価値から決まる」というもので、以下の式で表されます。「q(s, a)」は現在の状態からある行動を取った時の価値、「r」は得られる報酬、「q(s', a')」は次の地点での状態からある行動を取った時の価値を表して

                                                                                機械学習の「Q学習」にベイズ推定を取り入れると一体何が起こるのか?
                                                                              • 強化学習とは | 機械学習との違い・深層強化学習・活用事例やその未来まで徹底解説 | Ledge.ai

                                                                                サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                                                                  強化学習とは | 機械学習との違い・深層強化学習・活用事例やその未来まで徹底解説 | Ledge.ai
                                                                                • Offline Reinforcement Learning

                                                                                  チュートリアル @ 強化学習若手の会 https://young-reinforcement.github.io/ 解説記事(Qiita) https://qiita.com/aiueola/items/90f635200d808f904daf

                                                                                    Offline Reinforcement Learning

                                                                                  新着記事