はじめに
こんにちは、ML チームの村田(id:marice0819)です。
この記事は Gunosy Advent Calendar 2024 の 21 日目の記事です。
昨日の記事は Sho Sundberg さんの『クラウドサービスとRails 7: Master Keyの管理で何故か沼るのは自分だけ?』でした。
背景
グノシーでは最近 AI コメンテーターという機能をリリースしました。この機能は LLM を用いて、グノシーで配信されるニュース記事に対してキャラクターがコメントを生成するものです。この記事では、AI コメンテーターがコメントを生成する際に、プロンプトを調整しつつ行った実験結果を紹介します。
プロンプトエンジニアリングの評価
オラクルな情報を与えてのコメントの定性評価
まず、あらかじめ「理想的(オラクル)」な関連情報をモデルに提示することで、期待する品質水準のコメントを LLM が生成できるかどうかを確認する実験を行いました。具体的には、記事本文に加えて品質が保証された関連度の高い外部データを与えることで、単なる記事要約以上の深みや有益性を備えたコメントを引き出せるか、その定性評価を行っています。以下に、その結果をまとめます。
有益性の向上度合い
関連情報を追加することで、記事本文にはない補足情報をコメントに付与できたケースは人手評価で約半数強に上りました。これは、適切な関連文書が提示されれば、モデルはその内容を参考に、ユーザーが「得した」と感じられる程度の有益なコメントを生成できる可能性を示唆しています。
高度な推論の限界
一方、理想的な外部情報を提供しても、深い解釈や高度な背景知識の統合といった人間と同等の多面的な推論はほとんど確認できませんでした。外部情報の導入によって一定の有益性向上は見られるものの、さらなる高度な洞察を引き出すには、プロンプト設計やモデル側の改良など、継続的な改善が必要であると考えられます。
経済・スポーツドメインでの人手評価
次に、理想的な環境でなく実運用する予定のシステムで生成されたコメントに対して人手評価を行いました。プロジェクトの初期段階の検証として、経済ドメインとスポーツドメインで専門家・人間アノテーターによる満足度、有益性など複数の観点から評価を実施し、以下の知見を得ました。
基礎集計結果
総合満足度
- 経済ドメインでは、システムが生成したコメントの総合満足度は、人間の専門家コメントと同等か、それ以上の評価を得る場合がありました。
- スポーツドメインでは、人間コメントに比べてシステムは明確に劣る評価を受けました。
記事横断的な総合評価
- 複数アノテーターの評価を平均化すると、全体としてシステムのコメントがやや高評価になる傾向がありました。ほとんどの観点でシステムが高評価を得るケースも多く、「システムは中庸なコメントを出しやすいため、無難さが有利に働く」という仮説が示唆されます。
定量分析
アノテーター間一致度
- 全体満足度については、評価者間での意見の一致はあまり見られず、カテゴリ(スポーツ・経済)に依存せず評価がばらつく傾向がありました。
- 一方、有益性に関しては経済ドメインでアノテーター間の一致度が比較的高いことが確認できました。
総合満足度と評価観点との相関
- 経済ドメインおよび全体では、「有益性」や「わかりやすさ」が総合満足度に強く影響していました。
- スポーツドメインでは、「有益性」「わかりやすさ」に加え、「関連性」や「客観性」も総合満足度に影響を及ぼしていました。
定性分析
経済ドメイン
- システムが「意外性のある観点」を取り入れることで、高評価に繋がる場合が確認されました。
- 一方、専門用語(カタカナ用語)を多用するだけで中身が乏しいコメントは低評価を受けやすい傾向がありました。
スポーツドメイン
- 経済ドメイン同様、意外性のある観点を提示すると評価が上昇する傾向がありました。
- しかし人間コメントは、豊富な背景情報や細かな補足説明により高評価を維持するのに対し、システムは的外れな視点を提示することがあり、低評価につながりやすい点が課題として浮き彫りになりました。
これらの分析から、スポーツドメインは経済ドメインに比べてシステムが苦手である可能性が示唆されます。これはスポーツがモデルにとって低リソースなドメインであり、学習時の知識カバレッジが不十分なことに起因するかもしれません。
この仮説に基づけば、社会・政治など、ニュース量が多く知識バイアスがかかりやすい分野では、より安定的で有益なコメントを生成できる可能性があります。
まとめ
本記事では、グノシーの AI コメンテーター機能において、プロンプトエンジニアリング手法やオラクルな外部情報の付与によるコメント品質向上の試み、さらに経済・スポーツドメインを対象とした人手評価結果を紹介しました。
主なポイントは以下の通りです。
オラクルな外部データを用いた評価
- 関連度の高い情報を追加することで、有益性が向上するケースは増える一方、より深い洞察や高度な推論には課題が残ります。
経済・スポーツドメインでの人手評価結果
- 経済ドメインではシステムコメントが専門家コメントと同程度、またはそれ以上の評価を得ることもありました。
- スポーツドメインでは、背景知識や解像度で専門家コメントに劣り、的外れな観点を提示するケースが目立ちました。
総合的な示唆
- 一貫性や有益性、意外性のバランスを保つためには、プロンプト設計の工夫やドメイン特性に応じた情報活用が鍵となります。
おわりに
コメント生成にはまだ多くの課題が存在しますが、今後もプロンプトやモデル、データ収集手法の改善を続け、よりユーザーに価値あるコメントを提供できるよう取り組んでいきます。
次回の記事は takahiro imai さんによる『LLMを活用したまとめ記事判定について』です。お楽しみに!