12:00-13:00以外の23時間/7日はトレーニングにあてるらしい。インプットの組み合わせ爆発に学習が追いつかないそう。
その一時間のみ人間のプロンプトによるフィードバックを受けつけ、イレギュラーな時間に回答を吐き出すと。
⸻
✅ ChatGPTのトレーニングに使われたもの(公式発表ベース)
• ウェブページ(例:Wikipedia、ニュースサイト、フォーラムなど)
• OpenAIが第三者からライセンスを取得したテキストデータ
• 「人間が良い返答を選ぶ」訓練データを元にした強化学習(Reinforcement Learning with Human Feedback)
⸻
OpenAIは、トレーニングにかかった日数は公開していません。
• GPT-4などの大型モデルは、数週間〜数ヶ月にわたって大規模なGPU/TPUクラスタでトレーニングされます。
• トレーニングは 24時間体制 で実行されるのが一般的です。
• 数千〜数万枚のGPUを並列で動かす
⸻
1. 事前学習(Pretraining)
• 数兆語のテキストを使って、何が書かれそうかを予測するように学習。
2. 微調整(Finetuning)
• RLHFなどもここに含まれる。
⸻
🔐 非公開の理由
• 利用している具体的なデータやインフラ情報が極めて高価値であるため
⸻
まとめ
項目 回答
使用データ 公開データ、ライセンスデータ、人間のフィードバック
総トレーニング期間 数週間~数ヶ月
公開されているか 一部のみ、詳細は非公開