エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
はじめに 業務で生成AIを使用する機会が多く、評価を目検で行っていました。それ以外の方法について個人... はじめに 業務で生成AIを使用する機会が多く、評価を目検で行っていました。それ以外の方法について個人的に調査したので、内容をまとめました。 文章生成AIにおける評価方法について 文章生成AIにおける評価方法は、主に2つあります。1つは自動評価で、もう1つは人間評価です。 自動評価 テストセットや検証セットを使用して、モデルの性能を測定します。 人間評価 人間が生成された文章を読み、その文章が"求めている結果であるかどうか"を判断します。 自動評価の評価手法について 自動評価には、様々な手法があります。例えば、BLEU、ROUGE、METEOR、CIDErなどの指標があります。これらの指標は、自動評価によって生成されたテキストと参照テキストの類似度を測定することで、生成されたテキストの品質を評価します。(あくまでもテキストの品質です) 以下の表は3つの自動評価指標についてそれぞれの指標がどの