DPO による Llama 2 のファインチューニング｜npaka

暮らしカテゴリーの変更を依頼記事元:

note.com/npaka

13 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

deejayroka “既存の手法で使用されているRLベースの目標を、単純なバイナリクロスエントロピー損失を介して直接最適化できる目標に切り替えることを提案”

AI

2023/08/14 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

{{ total_bookmarks_with_user_postfix }}{{ root_title }}

DPO による Llama 2 のファインチューニング｜npaka

以下の記事が面白かったので、かるくまとめました。・Fine-tune Llama 2 with DPO 1. はじめに「RLHF」... 以下の記事が面白かったので、かるくまとめました。・Fine-tune Llama 2 with DPO 1. はじめに「RLHF」は「GPT-4」「Claude」などのLLMの事実上の最後の学習ステップとなっており、LLM出力の饒舌さや安全さが人間の期待と一致していることを確認します。ただし、RLの複雑さが持ち込まれます。適切な報酬関数を設定し、状態を推定するようにモデルを学習する必要があります。同時に、元のモデルから離れすぎないよう注意する必要があります。このようなプロセスは非常に複雑で、正しく行うのは容易ではありません。 Rafailov、Sharma、Mitchellらによる最近の論文「Direct Preference Optimization」では、既存の手法で使用されているRLベースの目標を、単純なバイナリクロスエントロピー損失を介して直接最適化できる目標に切り替えることを提

ブックマークしたユーザー

snjx2023/09/13
tkos-rg2023/08/15
deejayroka2023/08/14
macro15972023/08/13
yuiseki2023/08/13
tworks2023/08/13
warud2023/08/13

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - 暮らし

いま人気の記事 - 暮らしをもっと読む

新着記事 - 暮らし

新着記事 - 暮らしをもっと読む

設定を変更しましたx