エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
この記事は CyberAgent Developers Advent Calendar 2024 22日目の記事です。 はじめに CyberAgent AI L... この記事は CyberAgent Developers Advent Calendar 2024 22日目の記事です。 はじめに CyberAgent AI Lab の Reinforcement Learning チームのリサーチサイエンティストの森村です。 CyberAgent の Developer Experts として、Labの研究活動だけではなく強化学習の実応用にも取り組んでいます。 昨今、生成AIやLLM(Large Language Models)は飛躍的な進化を遂げ、その影響は私たちの生活や仕事にとどまらず、社会全体を大きく変えつつあります。中でも、GPT-3からChatGPTへの進化は、技術者の間で話題だったGPTが一般の方にも広く知られ、瞬く間に世界中で利用されるようになった大きな転換点でした。この進化を支えた技術のひとつが、RLHF(Reinforcement Le