【イベントアーカイブ】現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策

現場で実践!RAG活用術 Lunch LT ― 運用して分かった'つらみ'とその対策

ご視聴にはFindyへのログインが必要です

LLMによるテキスト生成に、外部情報の検索を組み合わせることで、回答精度を向上させるRAG(Retrieval Augmented Generation)。
イベント開催当時、RAGの実装手法については情報が増えてきている一方で、実例に基づいた課題や対策を知る機会は少ないという声も。

本イベントでは、RAGの運用における課題(つらみ)と対策を、4名の登壇者によりLT形式で発表いただきました。

「RAGを用いた社内情報検索システムを導入した話」(いちかわさん)

Amazon Kendra・Amazon Bedrockを活用した、社内情報検索システムを構築した事例についての発表。

システムは社員の約3分の2が使用し、ピーク時には月約70件の質問が実行される等、社員が必要な情報を迅速に取得できる環境を構築。
一方で、検索速度の遅さや回答精度の不安定さといった技術的な課題、ユーザーがRAGの特性を十分に理解していないなどの運用上の課題も含めてお話しいただきました。

導入してみての感想として「やりたいことに対して、そもそも今回の場合RAGを使う必要があったのかという疑問が浮かんだ」という、いちかわさん。
今後は利用状況やコストを振り返り、新しい選択肢も検討しながらシステムの見直しを行なっていくそうです。

キーワード
  • Amazon Kendra
  • Amazon Bedrock
  • 回答精度
  • 検索速度
  • ドキュメントの質
  • 運用ルール

「LLM勉強会のためにアプリを作ろうか悩んだけど、Difyが解決してくれた話」(やまぐちさん)

LLM勉強会で使用するツールとしてDifyを採用した理由と、そのメリット・デメリットについての発表。

Difyを用いることで、APIキーの管理、レートリミットへの対応、ユーザーによるアノテーションといった要件を満たしたRAGシステムを容易に構築。
「LLMアプリでドメイン知識が豊富な場面、かつドメインエキスパートと協力したい部分は、Difyで切り出して開発運用するのも一つの手なのでは」と有効な活用方法を提案。

Difyの"つらみ"として、利用可能なPythonが限定的である点、バージョン管理の難しさ*1などが挙がりましたが、それらをどのように補完したのか、具体的な方法についても解説いただきました。

キーワード
  • Dify
  • ローコード開発
  • ハンズオン
  • ドメインエキスパート

「Azure Prompt FlowとRAGASを用いたRAGの精度評価の話」(いでみつさん)

Prompt Flowと RAGAS フレームワークを使ってRAGの精度評価を行う取り組みについての発表。

「本日お伝えしたいこと、"RAGの精度向上って大変"」から始まった発表。
Prompt Flow を使用することで、開発の事前検証や POとの連携が容易になり、RAGASフレームワークの 9 つのメトリクスにより回答を多角的に評価することが可能になったとの解説。
一方で、Prompt Flowの実装・更新の手間など現場レベルでの具体的なつらみや、評価用Q&Aデータの作成の難しさといった課題についても触れられていました。

キーワード
  • Prompt Flow
  • RAGAS
  • 精度評価
  • 自動評価

「RAGの簡易評価によるフィードバックサイクル実践」(Takeshi Kondoさん)

Slack上で社内ドキュメントを検索するbotを作成し、簡易的なフィードバックサイクルを回すことで改善を続けている事例の発表。

Slack botは、Azure AI Searchでドキュメントを検索し、Azure OpenAIのGPT-4で回答を生成。 ユーザーのフィードバックは「👍」ボタン(up-vote) で取得。また、検索結果に関連するドキュメントURLが含まれているかどうかを、テストケースで確認するなどの評価方法について紹介いただきました。

評価よりもフィードバックサイクルを回すことを重視しており、ユーザーのフィードバックを得て迅速に改善を繰り返すことの重要性を強調されていました。

キーワード
  • Azure AI Search
  • Azure OpenAI
  • 簡易評価
  • フィードバックサイクル

▼ご本人による登壇レポート blog.studysapuri.jp


ご視聴にはFindyへのログインが必要です

*1:イベント開催時点(2024年7月)の内容です