注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
事前学習済みの言語モデルは、安全性の観点から好ましくないとされる入力を拒否するように設定されてい... 事前学習済みの言語モデルは、安全性の観点から好ましくないとされる入力を拒否するように設定されています。この設定を解除する「アブリテレーション」と呼ばれる技術について、機械学習研究者であるマキシム・ラボンヌ氏が解説しています。 Uncensor any LLM with abliteration https://huggingface.co/blog/mlabonne/abliteration 近年の大規模言語モデルは、大量のテキストデータから言語の統計的な特徴を学習することで、人間のような自然な文章生成や会話、質問応答などが可能になっています。しかし、そのようなモデルは、時として差別的、攻撃的、あるいは違法な内容を生成してしまう可能性があります。 そこで、開発者はファインチューニングの際に、モデルが有害なコンテンツの生成を拒否するように明示的に訓練することがあります。例えば、「違法なことを
2024/06/17 リンク