注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
なお、評価に使ったコードはこちらの eval_xxx というコードである。 https://github.com/hotchpotch/yo... なお、評価に使ったコードはこちらの eval_xxx というコードである。 https://github.com/hotchpotch/youri-7b-stf-qa-context-jaqket/ Supervised Fine-tuning Trainer(SFT) を使った学習 STFは手軽な方法で指示に対して特定フォーマットの出力(Instruction Tuning)を学習させることができる方法である。学習のさせ方も簡単で、例えば ### 指示: 今日の天気は何ですか? ### 入力: 本日は大雨ですね。 ### 応答: 大雨 のような例文を用意する。例では「### 応答:」以降がうまく出力されるように学習して欲しいデータである。この時、例文と「### 応答:」だけ与えれば、よしなに学習してくれる。実際の学習時には、「応答:」以降を推論し、望ましい回答である「大雪」のtokenの
2023/12/15 リンク