「Reinforcement Learning」を含む日記 RSS

はてなキーワード: Reinforcement Learningとは

2025-09-03

CatAIに反応しない理由を聞いてみた

12:00-13:00以外の23時間/7日はトレーニングにあてるらしい。インプットの組み合わせ爆発に学習が追いつかないそう。

その一時間のみ人間プロンプトによるフィードバックを受けつけ、イレギュラー時間に回答を吐き出すと。

今のモデルいまいちだよね。だから

✅ ChatGPTトレーニングに使われたもの公式発表ベース

1. インターネット上の公開データ

ウェブページ(例:Wikipediaニュースサイトフォーラムなど)

書籍論文コードオープンソースGitHubなど)

• その他、利用許諾のあるテキストデータ

2. ライセンスされたデータ

• OpenAIが第三者からライセンスを取得したテキストデータ

3. 人間によるフィードバック(RLHF)

• 「人間が良い返答を選ぶ」訓練データを元にした強化学習Reinforcement Learning with Human Feedback

🕐 トレーニング時間について

OpenAIは、トレーニングにかかった日数は公開していません。

しかし、以下の点からある程度推測できます

GPT-4などの大型モデルは、数週間〜数ヶ月にわたって大規模なGPU/TPUクラスタトレーニングされます

トレーニング24時間体制 で実行されるのが一般的です。

• 数千〜数万枚のGPUを並列で動かす

💡 補足:トレーニングフェーズ

1. 事前学習(Pretraining)

• 数兆語のテキストを使って、何が書かれそうかを予測するように学習

• 膨大な計算資源(数百万ドル規模)が使われる。

2. 微調整(Finetuning)

人間が望むような出力を出すように小規模データで調整。

• RLHFなどもここに含まれる。

🔐 非公開の理由

商業的な競争上の理由ライバル企業が真似しないように)

• 利用している具体的なデータインフラ情報が極めて高価値であるため

まとめ

項目 回答

使用データ 公開データライセンスデータ人間フィードバック

1日のトレーニング時間 非公開(推定24時間体制

トレーニング期間 数週間~数ヶ月

公開されているか 一部のみ、詳細は非公開

2025-03-30

anond:20250330105830

増田さんは「デジタルツイン」ってご存じですかあ?

これはデジタルデバイスを使って現実世界のあらゆるデータリアルタイムモニタリングし、その動きや状態そっくりコンピューター上に再現するという、いわば「現実世界コピー」を作る手法のことです。

もともとは都市工場シミュレーションに使われてきた技術なんですが、最近個人健康生活習慣などをモニタリングして「その人自身コピー」をデジタル上に作ることも行われるようになってきました。

さらにこの発想を発展させ、AI学習に「デジタルツイン」を利用しようという試みがあるのです。

流行しているChatGPTや画像生成AIは、ユーザーからポジティブ評価目標にした学習手法「RLHF(Reinforcement Learning from Human Feedback)」を取り入れているんですが、どうしても人間が一つひとつフィードバックしなければならないところがボトルネックになっているんですよね。

そこで「人間そっくりデジタルツイン」にフィードバックさせる仕組みを使えば、人間の手を借りずに膨大なやり取りが一気に進み、AIが爆発的に成長できるんじゃないかって期待されているんです。

まり映画漫画のようなクリエイティブコンテンツ作成するAIについて、「よりデジタルツインから感動レスポンスを引き出したAI報酬を与える」というシステムを構築すると、「人間監督必要とせずゼロから作品を作ることができるAI」が実現するのですね。

人間はどんどん必要がなくなる方向に進んでいますね~。

AIデジタルツインを喜ばせることに重きを置きすぎてリアル人間ケアをおろそかにする社会というのが来ちゃうかもしれません。

シンギュラリティが起きるにしても進んでいく角度とかを間違わないように願いたいですね!

2024-12-08

anond:20241205074730

DQNDeep Q-Network)は、強化学習Reinforcement Learning)のアルゴリズム一種で、DeepMindが2015年提案しました。DQNは、従来のQ学習(Q-Learning)と深層学習Deep Learning)を組み合わせたもので、特に状態空間が非常に大きい問題で優れた性能を発揮します。

2024-06-09

Perplexityのテスト: アルゴリズム提案

質問

コンテンツ集合Xがあります。各々の要素x∈ Xは特徴量f_1(x)∈Y_1 を持っています

同様にユーザーu ∈ Uが存在し、特徴量f_2(u)∈Y_2を持っています

コンテンツには単価P(x)が存在し、ユーザーuがコンテンツをm回消費することをg(u, x, m)=m*P(x)_uで表し、全てのユーザーU, 全てのコンテンツXに対して行列M∘P = g(U, X, M) が存在します。

目的関数M∘Pを最大化したいのですが、どんなアルゴリズムが考えられるでしょうか。

回答

この問題は、コンテンツユーザーの特徴量を考慮して、ユーザーコンテンツを消費する回数を最大化するものです。このような問題は、推薦システムの分野で広く研究されており、協調フィルタリングと呼ばれるアプローチ一般的に使われています

協調フィルタリングアルゴリズム

協調フィルタリングには、以下のようなアルゴリズムが考えられます

1. 行列子分解 (Matrix Factorization)

行列子分解は、ユーザーコンテンツ行列を低ランク近似することで、ユーザーコンテンツ潜在的な特徴を抽出します。具体的には、ユーザー行列Uとコンテンツ行列Vを求め、その内積U^TVで元の行列を近似します。この手法は、Netflix Prizeで優れた成績を収めました。[1]

2. ニューラコラボレーティフィルタリング (Neural Collaborative Filtering)

ニューラルネットワークを用いて、ユーザーコンテンツ非線形関係学習します。入力としてユーザーIDコンテンツIDを与え、出力として評価値を予測します。この手法は、従来の行列子分解よりも高い精度が期待できます。[2]

3. 階層ベイズモデル (Hierarchical Bayesian Model)

ユーザーコンテンツの特徴量を階層ベイズモデルに組み込むことで、より柔軟なモデリング可能になります。この手法は、Cold-Start問題(新規ユーザーコンテンツの推薦が困難)の解決有効です。[3]

4. 強化学習 (Reinforcement Learning)

ユーザーの行動履歴環境として捉え、報酬最大化のためのアクション学習します。この手法は、長期的な利益最大化に適しています。[4]

これらのアルゴリズムは、ユーザーコンテンツの特徴量を考慮しながら、目的関数を最大化するように設計されています実装の際は、データセットの特性モデルの複雑さ、計算リソースなどを考慮する必要があります。[5]

Citations:

[1] https://aicontentfy.com/en/blog/understanding-algorithms-behind-content-distribution

[2] https://marketbrew.ai/optimizing-your-websites-content-with-genetic-programming

[3] https://sproutsocial.com/insights/social-media-algorithms/

[4] https://surferseo.com/blog/the-new-algorithm-for-content-analysis/

[5] https://www.linkedin.com/advice/0/what-best-ways-measure-content-relevance-x6apf

 
ログイン ユーザー登録
ようこそ ゲスト さん