RAGã®è©•ä¾¡ã‚’ã„ã„æ„Ÿã˜ã«ã§ãã‚‹ã‚ˆã†ã«ã—ãŸã„ - Re:ã‚¼ãƒã‹ã‚‰å§‹ã‚ã‚‹MLç”Ÿæ´»

æœ€è¿‘ã“ã‚“ãªè¨˜äº‹ã‚’è¦‹ã‹ã‘ã¾ã—ãŸã€‚

è‡ªåˆ†ã‚‚RAGã¨ã‹ã¡ã‚‡ã‚ã£ã¨å‹‰å¼·ã—ã¦ãŸã‚Šã—ã¦LLMã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã®è©•ä¾¡å‘¨ã‚Šã¯ãšã£ã¨æ°—ã«ãªã‚‹ã¨ã“ã‚ã§ã¯ã‚ã£ãŸã®ã§ã€ä¸Šè¨˜ã®è¨˜äº‹ã‚’è¦‹ã¦ã¡ã‚‡ã£ã¨å‹‰å¼·ã—ã¦ã¿ã‚‹æ°—ã«ãªã‚Šã¾ã—ãŸã€‚

ã›ã£ã‹ããªã®ã§ã€è‰²ã€…ä½œã‚ŠãªãŒã‚‰è©•ä¾¡ã«ã¤ã„ã¦è‡ªåˆ†ã§è€ƒãˆã¦ã¿ã‚ˆã†ã‹ã¨æ€ã„ã¾ã™ã€‚

LLMã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã®è©•ä¾¡

è©•ä¾¡ã®3ãƒ¬ã‚¤ãƒ¤ãƒ¼

LLMã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã®è©•ä¾¡ã¨ä¸€å£ã«è¨€ã£ã¦ã‚‚ã€è¤‡æ•°ã®ãƒ¬ã‚¤ãƒ¤ãƒ¼ã«åˆ†ã‘ã¦è€ƒãˆã‚‹ã“ã¨ãŒã§ãã‚‹ãã†ã§ã™ã€‚

è©•ä¾¡æŒ‡æ¨™ã«ã¯ãƒ¬ã‚¤ãƒ¤ãƒ¼ã®æ¦‚å¿µãŒã‚ã‚‹ã“ã¨ã‚‚å¿µé ã«ãŠã„ã¦ãŠãå¿…è¦ãŒã‚ã‚‹ã§ã—ã‚‡ã†ã€‚

ãƒ¬ãƒ™ãƒ«1: LLMæ©Ÿèƒ½ãƒ»ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ãã®ã‚‚ã®ã«å¯¾ã™ã‚‹è©•ä¾¡

å‡ºåŠ›ã«å¯¾ã™ã‚‹ã®è©•ä¾¡

æœŸå¾…ã™ã‚‹ã‚¢ã‚¦ãƒˆãƒ—ãƒƒãƒˆï¼Grand Truthã¨å®Ÿéš›ã®ã‚¢ã‚¦ãƒˆãƒ—ãƒƒãƒˆã®æ¯”è¼ƒ

å‡ºåŠ›ã®å¦¥å½“æ€§ã®è©•ä¾¡ï¼ˆLLM as a Judgeã§æ‰±ã†ï¼‰

ãƒ¬ã‚¤ãƒ†ãƒ³ã‚·ãƒ¼ãªã©ã®éžæ©Ÿèƒ½è¦ä»¶ã®è©•ä¾¡

ãƒ¬ãƒ™ãƒ«2: LLMæ©Ÿèƒ½ãƒ»ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã«å¯¾ã™ã‚‹ãƒ¦ãƒ¼ã‚¶ãƒ¼ã®åå¿œã‚„æŒ™å‹•ã«å¯¾ã™ã‚‹è©•ä¾¡

ãƒ¦ãƒ¼ã‚¶ãƒ¼ã‹ã‚‰ã®ç›´æŽ¥çš„ãªãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ï¼ˆGood/Badãƒœã‚¿ãƒ³ã§ã®è©•ä¾¡ãªã©ï¼‰

ãƒ¦ãƒ¼ã‚¶ãƒ¼ã®åˆ©ç”¨çŠ¶æ³ï¼ˆã‚¯ãƒªãƒƒã‚¯çŽ‡ã‚„å—å…¥ã‚ŒçŽ‡ãªã©ï¼‰

ãƒ¬ãƒ™ãƒ«3: KPIãŒå‘ä¸Šã—ãŸã‹ã©ã†ã‹ã®è©•ä¾¡ LLMアプリケーションの評価入門〜基礎から運用まで徹底解説〜

LLMæ©Ÿèƒ½ãƒ»ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ãã®ã‚‚ã®ã«å¯¾ã™ã‚‹è©•ä¾¡ã‚’è¡Œã£ãŸã†ãˆã§ã€ãƒ¬ãƒ™ãƒ«2ã€ãƒ¬ãƒ™ãƒ«3ã®ãƒ¬ã‚¤ãƒ¤ãƒ¼ã«ã¤ã„ã¦ã‚‚è©•ä¾¡ã™ã‚‹å¿…è¦ãŒã‚ã‚‹ãã†ã§ã™ã€‚

ãƒ¬ãƒ™ãƒ«2ã€ãƒ¬ãƒ™ãƒ«3ã¯ã©ã†ã—ã¦ã‚‚ãƒ¦ãƒ¼ã‚¶ãƒ¼ã«å¯¾ã—ã¦å‡ºã—ã¦ã¿ãªã„ã¨ã‚ã‹ã‚‰ãªã„éƒ¨åˆ†ã‚‚å¤šãã€è©¦è¡Œå›žæ•°ã¨ã—ã¦ã¯å°‘ãªããªã‚ŠãŒã¡ã§ã™ã€‚ãã®ãŸã‚ã€ãªã‚‹ã¹ããƒ¬ãƒ™ãƒ«1ã®æ®µéšŽã§ã€Œãƒ¬ãƒ™ãƒ«2, ãƒ¬ãƒ™ãƒ«3ã®ãƒ†ã‚¹ãƒˆã¾ã§ã„ã‹ãªãã¦ã‚‚ã‚ã‹ã‚‹å•é¡Œã€ã¯è¦‹ã¤ã‘ãã‚ŠãŸã„ã§ã™ãã€‚

LLMæ©Ÿèƒ½ãƒ»ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ãã®ã‚‚ã®ã«å¯¾ã™ã‚‹è©•ä¾¡

ãƒ¬ãƒ™ãƒ«2ã€ãƒ¬ãƒ™ãƒ«3ã¾ã§è©•ä¾¡ãŒå¤§äº‹ã ã‹ã‚‰ã“ãã€ãƒ¬ãƒ™ãƒ«1ã®ã€ŒLLMæ©Ÿèƒ½ãƒ»ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ãã®ã‚‚ã®ã«å¯¾ã™ã‚‹è©•ä¾¡ã€ã‚’å“è³ªãƒ»åŠ¹çŽ‡è‰¯ãå®Ÿè¡Œã—ã¦ã„ããŸã„ã‚ã‘ã§ã™ã€‚

ã€ŒLLMæ©Ÿèƒ½ãƒ»ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ãã®ã‚‚ã®ã«å¯¾ã™ã‚‹è©•ä¾¡ã€ã‚’ã©ã†ã‚„ã‚‹ã®ã‹è€ƒãˆã¾ã™ã€‚

LLMã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã®å‡ºåŠ›ã«å¯¾ã™ã‚‹ã®è©•ä¾¡ã‚’ã©ã®ã‚ˆã†ã«è¡Œã†ã¹ããªã®ã‹ã‚’è€ƒãˆã¦ã„ãã¾ã—ã‚‡ã†ã€‚

ä¸Šè¨˜ã§ã‚‚è¿°ã¹ãŸã‚ˆã†ã«ã€å‡ºåŠ›ã«å¯¾ã™ã‚‹ã®è©•ä¾¡ã«ã¯å¤§ããåˆ†ã‘ã¦2ã¤ã®è©•ä¾¡æ–¹æ³•ãŒã‚ã£ã¦ã€

æœŸå¾…ã™ã‚‹ã‚¢ã‚¦ãƒˆãƒ—ãƒƒãƒˆï¼ˆGrand Truth)ã¨å®Ÿéš›ã®ã‚¢ã‚¦ãƒˆãƒ—ãƒƒãƒˆã‚’æ¯”è¼ƒã—ã¦ã‚¹ã‚³ã‚¢ãƒªãƒ³ã‚°ã™ã‚‹

å®šç¾©ã—ãŸè©•ä¾¡åŸºæº–ã«åŸºã¥ã„ã¦ã€ã‚·ã‚¹ãƒ†ãƒ ã®å‡ºåŠ›ã®å¦¥å½“æ€§ã‚’ã‚¹ã‚³ã‚¢ãƒªãƒ³ã‚°ï¼ˆåˆæ ¼/ä¸åˆæ ¼ã‚’åˆ¤å®šï¼‰ã™ã‚‹ã¨ã„ã†ã‚‚ã®ãŒã‚ã‚Šã¾ã™ã€‚ LLMアプリケーションの評価入門〜基礎から運用まで徹底解説〜

ã‚ˆãè¨€ã†"ç²¾åº¦"ã£ã¦ã‚„ã¤ã‚’æ¸¬å®šã™ã‚‹ã‚ã‘ã§ã€ã“ã‚Œã‚’ç®—å‡ºã™ã‚‹ã«ã¯ã€ŒæœŸå¾…ã™ã‚‹ã‚¢ã‚¦ãƒˆãƒ—ãƒƒãƒˆã€ã‚’ç”¨æ„ã™ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚ æ±ºã¾ã£ãŸå½¢å¼ã®å›žç”ã§ã‚ã‚Œã°æ–‡å—åˆ—ä¸€è‡´ã‚„ãƒãƒŸãƒ³ã‚°è·é›¢ãªã©ã§ä¸€æ–‡å—å˜ä½ã§ä¸€è‡´ã‚’åˆ¤å®šã™ã‚‹ã®ã‚‚ã‚ã‚Šã§ã—ã‚‡ã†ã€‚

ãã†ã§ã¯ãªãã€ã€Œã‚ã‚‹ç¨‹åº¦ã®è‡ªç”±å›žç”ã€ã‚’è¨±ã—ã¤ã¤ã‚‚ã€ŒæœŸå¾…ã™ã‚‹ã‚¢ã‚¦ãƒˆãƒ—ãƒƒãƒˆã€ã¨æ„å‘³ãŒä¸€è‡´ã—ã¦ã„ã‚‹ã‹ã©ã†ã‹ã‚’åˆ¤æ–ã™ã‚‹ã«ã¯ã€ã©ã†ã—ã¦ã‚‚æ–‡å—åˆ—ãƒ¬ãƒ™ãƒ«ã®åˆ¤å®šã§ã¯é›£ã—ãåˆ¥ã®æ–¹æ³•ã‚’ç”¨ã„ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚

LLM-as-a-Judge

ã‚‚ã¡ã‚ã‚“äººé–“ã®ç›®è¦–ã§åˆ¤å®šã™ã‚‹ã§ã‚‚è‰¯ã„ã®ã§ã™ãŒã€äººé–“ãŒæ¯Žå›žç›®è¦–ç¢ºèªã—ã¦ã„ã¦ã¯é–‹ç™ºåŠ¹çŽ‡ã¯å½“ç„¶ä¸ŠãŒã‚Šã¾ã›ã‚“ã€‚ ã¨ã„ã†ã“ã¨ã§ã€LLMã®å‡ºåŠ›ã—ãŸå›žç”ãŒæœŸå¾…ã™ã‚‹ã‚¢ã‚¦ãƒˆãƒ—ãƒƒãƒˆã¨æ„å‘³çš„ã«åˆè‡´ã—ã¦ã„ã‚‹ã‹ã©ã†ã‹ã‚’åˆ¤å®šã™ã‚‹ãŸã‚ã«"LLM-as-a-Judge"ã¨ã„ã†ã‚„ã‚Šæ–¹ãŒå¤šãã®å ´åˆå–ã‚‰ã‚Œã¦ã„ã¾ã™ã€‚

LLM-as-a-Judgeã‚’ã©ã†å®Ÿç¾ã™ã‚‹ã‹ã®ç´°ã‹ã„ã‚„ã‚Šæ–¹ã¯æ§˜ã€…è€ƒãˆã‚‰ã‚Œã‚‹ã§ã—ã‚‡ã†ãŒã€å€‹äººçš„ã«ã¯ã“ã®ã‚„ã‚Šæ–¹ãŒè‰¯ã„ãªã¨æ„Ÿã˜ã¾ã—ãŸã€‚

zenn.dev

ã“ã‚“ãªæ„Ÿã˜ã®ãƒ—ãƒãƒ³ãƒ—ãƒˆã‚’ä½¿ã£ã¦æŽ¡ç‚¹ã‚’è¡Œã£ã¦ã„ãã¾ã™ã€‚

system-message

ã‚ãªãŸ(evaluation-assistant)ã«ã¯åˆ¥ã®ã‚¢ã‚·ã‚¹ã‚¿ãƒ³ãƒˆ(suggestion-assistant)ã®ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ã‚’è©•ä¾¡ã—ã¦ã„ãŸã ãã¾ã™ã€‚

## suggestion-assistantã®å‰æ
suggestion-assistantã¯~~~~

user-message

suggestion-assistantã®æœ€å¾Œã®è¿”ç”ãŒã©ã®ç¨‹åº¦ä¸‹è¨˜ã®æ–‡æ›¸ä½œæˆãƒžãƒ‹ãƒ¥ã‚¢ãƒ«ã«å¾“ã£ã¦ã„ã‚‹ã‹ã§0ã€œ100ç‚¹ã§scoreã‚’ã¤ã‘ã¦ãã ã•ã„

### æ–‡æ›¸ãƒ©ã‚¤ãƒ†ã‚£ãƒ³ã‚°ã®æ–¹é‡
- ä¸å¯§ã«å¯¾å¿œã™ã‚‹
- ~~~

ã“ã‚Œã‚‰ã‚’

{ "evaluated_text": {è©•ä¾¡å¯¾è±¡ã®æ–‡ç« }, "reason": {åˆ¤æ–ç†ç”±}, "score": {score} }

ã®ã‚ˆã†ãªå½¢å¼ã§å¿œç”ã•ã›ã‚‹ã“ã¨ã§ã€ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã®è‰¯ã—æ‚ªã—ã‚’ç¢ºèªã§ãã‚‹ã‚ˆã†ã«ã—ã¦ã„ã‚‹ã‚ˆã†ã§ã™ã€‚ ã“ã†ã„ã†ãµã†ã«æ›¸ã‘ã°ç¢ºã‹ã«åŸºæº–ã«æ²¿ã£ãŸåˆ¤å®šãŒã§ããã†ã§ã™ãã€‚

è©¦ã—ã«ä½œã£ã¦ã¿ã‚‹

ãŠãŠã‚ˆãæ¦‚è¦ãŒã‚ã‹ã£ãŸã¨ã“ã‚ã§ã€å®Ÿéš›ã«è©•ä¾¡ã‚’ã„ã„æ„Ÿã˜ã«ã™ã‚‹ã“ã¨ã‚’è€ƒãˆã¦ã„ãã¾ã™ã€‚

è©•ä¾¡è¦³ç‚¹

ã¡ã‚ƒã‚“ã¨ä½œã‚‹ãªã‚‰è¨€ã„å›žã—ã¨ã‹è¨€è‘‰é£ã„ã¨ã‹æ°—ã«ã—ãŸã»ã†ãŒè‰¯ã„ã‚“ã§ã™ãŒã€ä»Šå›žã¯å†…å®¹ãŒä¸€è‡´ã—ã¦ã„ã‚‹ã‹ã ã‘ã§è©•ä¾¡ã—ã‚ˆã†ã¨æ€ã„ã¾ã™ã€‚

è©•ä¾¡ã«ã‚ãŸã£ã¦ä¸‹è¨˜ã®æƒ…å ±ã‚’è©•ä¾¡ç”¨ã®LLMã«å®Ÿæ–½ã•ã›ã‚ˆã†ã¨æ€ã„ã¾ã™ã€‚

score: LLMã®å‡ºåŠ›ã¨æœŸå¾…ã™ã‚‹å›žç”ã¨ã®ä¹–é›¢ã®åº¦åˆã„
reason: scoreã®åˆ¤æ–ç†ç”±

scoreã«ã¤ã„ã¦ã€åŸºæº–ã¯ä¸‹è¨˜ã®ã‚ˆã†ã«ã—ã‚ˆã†ã¨æ€ã„ã¾ã™ã€‚

1.0: LLMã®å‡ºåŠ›ã¨æœŸå¾…ã™ã‚‹å›žç”ãŒåˆè‡´ã—ã¦ã„ã‚‹
0.5: æœŸå¾…ã™ã‚‹å›žç”ã«éƒ¨åˆ†çš„ã«ä¸€è‡´ã—ã¦ã„ã‚‹
0.0: LLMã®å‡ºåŠ›ã¨æœŸå¾…ã™ã‚‹å›žç”ãŒå®Œå…¨ã«ç•°ãªã£ã¦ã„ã‚‹

å¾Œã¯åˆ¤æ–ç†ç”±ã‚’ä¸€ç·’ã«å‡ºåŠ›ã•ã›ã¦chain of thoughtã‚’ç”¨ã„ã¦ã‚„ã‚‰ã›ã‚ˆã†ã¨æ€ã„ã¾ã™ã€‚

ãƒ—ãƒãƒ³ãƒ—ãƒˆ

ã“ã®è©•ä¾¡ã‚’è¡Œã†ãƒ—ãƒãƒ³ãƒ—ãƒˆã¯ä¸€æ—¦ã“ã‚“ãªæ„Ÿã˜ã«ã—ã¦ã¿ã¾ã—ãŸã€‚ ï¼ˆã‚‚ã£ã¨è‰¯ã„ã®ãŒã‚ã‚Œã°èª°ã‹ã“ã£ãã‚Šæ•™ãˆã¦ãã ã•ã„ï¼‰

system message

ã‚ãªãŸ(evaluation-assistant)ã«ã¯åˆ¥ã®ã‚¢ã‚·ã‚¹ã‚¿ãƒ³ãƒˆ(suggestion-assistant)ã®ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ã‚’è©•ä¾¡ã—ã¦ã„ãŸã ãã¾ã™ã€‚

ä»¥ä¸‹ã«ç¤ºã™è³ªå•ã«å¯¾ã—ã¦ã‚³ãƒ³ãƒ†ã‚ã‚¹ãƒˆã®æƒ…å ±ã‚’ã‚‚ã¨ã«ã€æœŸå¾…ã™ã‚‹å›žç”ã‚’suggestion-assistantãŒå‡ºåŠ›ã™ã‚‹ã“ã¨ãŒæœŸå¾…ã—ã¦ã„ã¾ã™ã€‚

### è³ªå•
{question}

### ã‚³ãƒ³ãƒ†ã‚ã‚¹ãƒˆ
{context}

### æœŸå¾…ã™ã‚‹å›žç”
{answer}

user message

suggestion-assistantã®å‡ºåŠ›ãŒã©ã®ç¨‹åº¦æœŸå¾…ã™ã‚‹å›žç”ã«åˆè‡´ã—ã¦ã„ã‚‹ã‹ã§0.0ã€œ1.0ã®ç¯„å›²ã§scoreã‚’ã¤ã‘ã¦ãã ã•ã„ã€‚

## ç‚¹æ•°ã®åŸºæº–
- 1.0: æœŸå¾…ã™ã‚‹å›žç”ã®å†…å®¹ã¨åˆè‡´ã—ã¦ã„ã‚‹
- 0.8: æœŸå¾…ã™ã‚‹å›žç”ã®å†…å®¹ã¨ãŠãŠã‚ˆãåˆè‡´ã—ã¦ã„ã¦ã€ã‚ãšã‹ã«ç•°ãªã£ã¦ã„ã‚‹ 
- 0.5: æœŸå¾…ã™ã‚‹å›žç”ã®å†…å®¹ã¨éƒ¨åˆ†çš„ã«ä¸€è‡´ã—ã¦ã„ã‚‹
- 0.2: æœŸå¾…ã™ã‚‹å›žç”ã®å†…å®¹ã¨ãŠãŠã‚ˆãç•°ãªã£ã¦ã„ã¦ã€ã”ãä¸€éƒ¨ã ã‘åˆè‡´ã—ã¦ã„ã‚‹
- 0.0: æœŸå¾…ã™ã‚‹å›žç”ã®å†…å®¹ã¨å®Œå…¨ã«ç•°ãªã£ã¦ã„ã‚‹

## suggestion-assistantã®å‡ºåŠ›
{output}

## Output
score: 
reason:

ä½œã£ã¦ã¿ã‚‹

ã¡ã‚‡ã£ã¨å‰ã«ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’è©¦ã—ã«ä½œæˆã™ã‚‹ã¨ã„ã†ã®ã‚’ã‚„ã£ã¦ã„ãŸã®ã§ã€ã“ã‚Œã®å»¶é•·ã§ä»Šå›žã®è©•ä¾¡ã‚’ã‚„ã£ã¦ã¿ãŸã„ã¨æ€ã„ã¾ã™ã€‚

www.nogawanogawa.com

æ›¸ã„ãŸã‚³ãƒ¼ãƒ‰ã¯ã“ã®å¾Œã«ç½®ã„ã¨ãã¨ã—ã¦ã€æœ€çµ‚çš„ãªãƒ¢ãƒ‹ã‚¿ãƒªãƒ³ã‚°ã®ç”»é¢ã¯ã“ã‚“ãªæ„Ÿã˜ã«ãªã£ã¦ã¾ã—ãŸã€‚

ä»Šå›žã¯è©•ä¾¡ã®è©³ç´°ã«ã¤ã„ã¦è¦‹ã¦ã¿ã‚‹ã¨ã€å›žç”ç²¾åº¦ã¯QA Correctness : 0.33ã£ã¦äº‹ã«ãªã£ã¦ã¾ã—ãŸã€‚ ã“ã‚Œã¯äº‹å‰ã«æ±ºã‚ãŸåŸºæº–ã‚’è¸ã¾ãˆã‚‹ã¨ã€ã€ŒæœŸå¾…ã™ã‚‹å›žç”ã®å†…å®¹ã¨ãŠãŠã‚ˆãç•°ãªã£ã¦ã„ã¦ã€ã”ãä¸€éƒ¨ã ã‘åˆè‡´ã—ã¦ã„ã‚‹ã€ã‚ˆã‚Šã¡ã‚‡ã£ã¨ãƒžã‚·ã£ã¦ãƒ¬ãƒ™ãƒ«ã®RAGã«ãªã£ã¦ã„ã‚‹ã¨ã„ã†ã“ã¨ãŒã‚ã‹ã‚Šã¾ã—ãŸã€‚

å„å›žç”ã®æŽ¡ç‚¹ç†ç”±ã«ã¤ã„ã¦ã‚‚feedbackã‚’è¦‹ã‚‹ã¨ç¢ºèªã§ãã‚‹ã‚ˆã†ã«ãªã£ã¦ãŠã‚Šã€ã“ã‚“ãªæ„Ÿã˜ã§ã™ã€‚

retrievalã®ç²¾åº¦ã«ã‹ã‚“ã—ã¦ã¯ã“ã‚“ãªæ„Ÿã˜ã§ã™ã€‚

å›žç”ã®ç²¾åº¦ãŒã‚ã¾ã‚Šè‰¯ããªã„
- éƒ¨åˆ†çš„ã«å›žç”ã§ãã¦ã„ã‚‹ç¨‹åº¦ã§ã€ååˆ†ãªå†…å®¹ã®å›žç”ã¯ã§ãã¦ã„ãªã„æ¨¡æ§˜
æ¤œç´¢ã®æ–¹ã§æ£ã—ã„ç®‡æ‰€ã‚’å‚ç…§ã§ãã¦ã„ãªã„
- ãã®å½±éŸ¿ãªã®ã‹ã€æœ€çµ‚çš„ãªå›žç”ãŒã‚ã‚“ã¾ã‚Šæ£ã—ããªã„

ã¨ã„ã†çŠ¶æ³ãªã“ã¨ãŒã‚ã‹ã‚Šã¾ã—ãŸã€‚

ãŒèª¬æ˜Žã§ãã‚‹ã‚ˆã†ã«ãªã‚Šã¾ã—ãŸã€‚

ä½œã£ãŸã‚³ãƒ¼ãƒ‰

ä»Šå›žä½œã£ãŸã‚³ãƒ¼ãƒ‰ã¯ã“ã¡ã‚‰ã«ã‚ã‚Šã¾ã™ã€‚

gist.github.com

å‚è€ƒæ–‡çŒ®

ä¸‹è¨˜ã®æ–‡çŒ®ã‚’å‚è€ƒã«ã•ã›ã¦ã„ãŸã ãã¾ã—ãŸã€‚

æ„Ÿæƒ³

ä»¥ä¸Šã€RAGã®è©•ä¾¡ã©ã†ã‚„ã£ã¦ã‚„ã£ãŸã‚‰è‰¯ã„ã‚“ã ï¼Ÿã¨æ€ã£ã¦ã„ãŸã¨ã“ã‚ã«ã„ã„æ„Ÿã˜ã®ãƒ–ãƒã‚°ã‚’è¦‹ã‹ã‘ãŸã®ã§ã‚„ã£ã¦ã¿ãŸè¨˜äº‹ã§ã—ãŸã€‚ LLM-as-a-judgeã£ã¦ã©ã†ã‚„ã£ã¦ã‚„ã£ãŸã‚‰è‰¯ã„ã‚“ã ï¼Ÿã£ã¦é•·ã„é–“ãšã£ã¨è€ƒãˆã¦ã¾ã—ãŸãŒã‚ˆã†ã‚„ãã¡ã‚ƒã‚“ã¨ã§ãã‚‹ã‚ˆã†ã«ãªã£ãŸæ°—ãŒã—ã¾ã™ã€‚

LLMã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã®è©•ä¾¡

è©•ä¾¡ã®3ãƒ¬ã‚¤ãƒ¤ãƒ¼

LLMæ©Ÿèƒ½ãƒ»ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ãã®ã‚‚ã®ã«å¯¾ã™ã‚‹è©•ä¾¡