はてなキーワード: Reinforcement Learningとは
12:00-13:00以外の23時間/7日はトレーニングにあてるらしい。インプットの組み合わせ爆発に学習が追いつかないそう。
その一時間のみ人間のプロンプトによるフィードバックを受けつけ、イレギュラーな時間に回答を吐き出すと。
⸻
✅ ChatGPTのトレーニングに使われたもの(公式発表ベース)
• ウェブページ(例:Wikipedia、ニュースサイト、フォーラムなど)
• OpenAIが第三者からライセンスを取得したテキストデータ
• 「人間が良い返答を選ぶ」訓練データを元にした強化学習(Reinforcement Learning with Human Feedback)
⸻
OpenAIは、トレーニングにかかった日数は公開していません。
• GPT-4などの大型モデルは、数週間〜数ヶ月にわたって大規模なGPU/TPUクラスタでトレーニングされます。
• トレーニングは 24時間体制 で実行されるのが一般的です。
• 数千〜数万枚のGPUを並列で動かす
⸻
1. 事前学習(Pretraining)
• 数兆語のテキストを使って、何が書かれそうかを予測するように学習。
2. 微調整(Finetuning)
• RLHFなどもここに含まれる。
⸻
🔐 非公開の理由
• 利用している具体的なデータやインフラ情報が極めて高価値であるため
⸻
まとめ
項目 回答
使用データ 公開データ、ライセンスデータ、人間のフィードバック
総トレーニング期間 数週間~数ヶ月
公開されているか 一部のみ、詳細は非公開
これはデジタルデバイスを使って現実世界のあらゆるデータをリアルタイムにモニタリングし、その動きや状態をそっくりコンピューター上に再現するという、いわば「現実世界のコピー」を作る手法のことです。
もともとは都市や工場のシミュレーションに使われてきた技術なんですが、最近は個人の健康や生活習慣などをモニタリングして「その人自身のコピー」をデジタル上に作ることも行われるようになってきました。
さらにこの発想を発展させ、AIの学習に「デジタルツイン」を利用しようという試みがあるのです。
今流行しているChatGPTや画像生成AIは、ユーザーからのポジティブ評価を目標にした学習手法「RLHF(Reinforcement Learning from Human Feedback)」を取り入れているんですが、どうしても人間が一つひとつフィードバックしなければならないところがボトルネックになっているんですよね。
そこで「人間そっくりのデジタルツイン」にフィードバックさせる仕組みを使えば、人間の手を借りずに膨大なやり取りが一気に進み、AIが爆発的に成長できるんじゃないかって期待されているんです。
つまりは映画や漫画のようなクリエイティブなコンテンツを作成するAIについて、「よりデジタルツインから感動レスポンスを引き出したAIに報酬を与える」というシステムを構築すると、「人間の監督を必要とせずゼロから作品を作ることができるAI」が実現するのですね。
AIがデジタルツインを喜ばせることに重きを置きすぎてリアルの人間のケアをおろそかにする社会というのが来ちゃうかもしれません。
コンテンツ集合Xがあります。各々の要素x∈ Xは特徴量f_1(x)∈Y_1 を持っています。
同様にユーザーu ∈ Uが存在し、特徴量f_2(u)∈Y_2を持っています。
コンテンツには単価P(x)が存在し、ユーザーuがコンテンツをm回消費することをg(u, x, m)=m*P(x)_uで表し、全てのユーザーU, 全てのコンテンツXに対して行列M∘P = g(U, X, M) が存在します。
回答
この問題は、コンテンツとユーザーの特徴量を考慮して、ユーザーがコンテンツを消費する回数を最大化するものです。このような問題は、推薦システムの分野で広く研究されており、協調フィルタリングと呼ばれるアプローチが一般的に使われています。
協調フィルタリングアルゴリズム
協調フィルタリングには、以下のようなアルゴリズムが考えられます。
1. 行列因子分解 (Matrix Factorization)
行列因子分解は、ユーザー・コンテンツ行列を低ランク近似することで、ユーザーとコンテンツの潜在的な特徴を抽出します。具体的には、ユーザー行列Uとコンテンツ行列Vを求め、その内積U^TVで元の行列を近似します。この手法は、Netflix Prizeで優れた成績を収めました。[1]
2. ニューラルコラボレーティブフィルタリング (Neural Collaborative Filtering)
ニューラルネットワークを用いて、ユーザーとコンテンツの非線形な関係を学習します。入力としてユーザーIDとコンテンツIDを与え、出力として評価値を予測します。この手法は、従来の行列因子分解よりも高い精度が期待できます。[2]
3. 階層的ベイズモデル (Hierarchical Bayesian Model)
ユーザーとコンテンツの特徴量を階層ベイズモデルに組み込むことで、より柔軟なモデリングが可能になります。この手法は、Cold-Start問題(新規ユーザー・コンテンツの推薦が困難)の解決に有効です。[3]
4. 強化学習 (Reinforcement Learning)
ユーザーの行動履歴を環境として捉え、報酬最大化のためのアクションを学習します。この手法は、長期的な利益最大化に適しています。[4]
これらのアルゴリズムは、ユーザーとコンテンツの特徴量を考慮しながら、目的関数を最大化するように設計されています。実装の際は、データセットの特性やモデルの複雑さ、計算リソースなどを考慮する必要があります。[5]
Citations:
[1] https://aicontentfy.com/en/blog/understanding-algorithms-behind-content-distribution
[2] https://marketbrew.ai/optimizing-your-websites-content-with-genetic-programming
[3] https://sproutsocial.com/insights/social-media-algorithms/
[4] https://surferseo.com/blog/the-new-algorithm-for-content-analysis/
[5] https://www.linkedin.com/advice/0/what-best-ways-measure-content-relevance-x6apf