2024-12-26

NeurIPS2024 ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®å‹•å‘

NeurIPS2024ã§ã¯"Multi-Agent"ãŒé¡Œåã«å…¥ã£ã¦ã„ã‚‹ç ”ç©¶ãŒ34ä»¶ã‚ã‚Šã¾ã—ãŸã€‚
ãã‚Œã‚‰ã®ã„ãã¤ã‹ã‚’ãƒˆãƒ”ãƒƒã‚¯ã”ã¨ã«ç´¹ä»‹ã—ã¾ã™ã€‚

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’

è¨“ç·´æ–¹æ³•/æœ€é©åŒ–æ‰‹æ³•ã«ã¤ã„ã¦ã®ææ¡ˆãƒ»æ”¹å–„

Li et al.ã®ç ”ç©¶ã§ã¯ã€ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿å…±æœ‰ã«ã‚ˆã£ã¦ãƒãƒªã‚·ãƒ¼ãŒå‡è³ªåŒ–ã—ã¦ã—ã¾ã†ã“ã¨ã‚’é˜²ãæ–°ã—ã„ã‚¢ãƒ—ãƒãƒ¼ãƒã‚’ææ¡ˆã—ã¦ã„ã¾ã™ã€‚ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿å…±æœ‰ã«ã‚ˆã‚‹è¨“ç·´ã®åŠ¹çŽ‡åŒ–ã‚’ç¶æŒã—ãªãŒã‚‰ãƒãƒªã‚·ãƒ¼ã®å¤šæ§˜æ€§ã‚’ä¿ƒé€²ã§ãã¾ã™ã€‚
ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆå¼·åŒ–å¦ç¿’ã‚’æ¨¡å€£å¦ç¿’ã«å¿œç”¨ã—ãŸç ”ç©¶ãŒäºŒã¤ã‚ã£ãŸã®ã‚‚èˆˆå‘³æ·±ã„ã§ã™ï¼ˆBui et al.ã¨Tang et al.)ã€‚äººé–“ã®è¡Œå‹•å±¥æ´ã‚’ã‚¨ã‚ã‚¹ãƒ‘ãƒ¼ãƒˆãƒ‡ãƒ¼ã‚¿ã¨ã—ã¦å¦ç¿’ã—ã€äººé–“ãŒæ€ã„ã¤ã‹ãªã„ã‚ˆã†ãªãƒãƒ¼ãƒ ãƒ—ãƒ¬ãƒ¼ã‚’å‰µå‡ºã™ã‚‹ã®ãŒç›®çš„ã§ã™ã€‚
Hu et al.ã§ã¯ã€å¤§ããªãƒ¢ãƒ‡ãƒ«ã‚’ã„ã‹ã«åŠ¹çŽ‡ã‚ˆãå¦ç¿’ã•ã›ã‚‹ã‹ã¨ã—ã¦ã€Dynamic Sparse Training (DST)ã®ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã¸ã®æ‹¡å¼µã‚’ææ¡ˆã—ã¦ã„ã¾ã™ã€‚DSTã¨ã¯æœ€é©ãªã€Œç–Žãªã€ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’è¦‹ã¤ã‘ã‚‹ãƒ†ã‚¯ãƒ‹ãƒƒã‚¯ã®ã“ã¨ã§ã™ã€‚
Heterogeneousãªã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆç¾¤ã«ã¤ã„ã¦ã®å¦ç¿’æ‰‹æ³•ã«ã¤ã„ã¦ã‚‚ç ”ç©¶ãŒã‚ã‚Šã¾ã™ã€‚Heterogeneousè¨å®šã§ã¯ã€ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®æ–¹ç–ã‚’ä¸€å€‹ãšã¤é€æ¬¡çš„ã«æ›´æ–°ã—ã¦ã„ãã¾ã™ã€‚ä¸€å€‹å‰ã¾ã§ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®æ–¹ç–ã‚’è¦‹ã¦æ›´æ–°ã—ã¦ã„ãã¾ã™ãŒã€ã“ã‚Œã§ã¯ä¸€å€‹å‰ã¾ã§ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®æ–¹ç–ã«è‡ªåˆ†ã®æ–¹ç–ã®æ›´æ–°ãŒå¼·ãä¾å˜ã—ã¦ã—ã¾ã„ã¾ã™ã€‚ã“ã®å•é¡Œã‚’é˜²ããŸã‚ã«é©åˆ‡ã«ã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼é …ã‚’è¨è¨ˆã—ã€ã‚ˆã‚Šå¹…åºƒãæŽ¢ç´¢ã•ã›ã‚‹ã“ã¨ã‚’æ„å›³ã—ãŸç ”ç©¶ãŒã‚ã‚Šã¾ã™ï¼ˆDou et al.ï¼‰ã€‚
æ‹¡æ•£ãƒ¢ãƒ‡ãƒ«ã‚’ç”¨ã„ãŸæ‰‹æ³•ã‚‚å‡ºå§‹ã‚ã¦ã„ã¾ã™ã€‚Zhu et al.ã§ã¯ã€æ‹¡æ•£ãƒ¢ãƒ‡ãƒ«ã«ã‚ˆã£ã¦ã‚ªãƒ•ãƒ©ã‚¤ãƒ³ãƒ‡ãƒ¼ã‚¿ã«ã¯ãªã„ã‚ˆã†ãªtrajectoryã‚’ç”Ÿæˆã—ã€ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®å¦ç¿’ã‚’åŠ¹çŽ‡åŒ–ã•ã›ã¦ã„ã¾ã™ã€‚
McClellan et al.ã§ã¯ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆç’°å¢ƒãŒæ™‚ã«å¯¾è±¡æ€§ã‚’æŒã¤ã“ã¨ã«ç€ç›®ã—ã¾ã™ï¼ˆä¸‹å›³å‚ç…§ã€‚æœ¬æ–‡ã‚ˆã‚Šå¼•ç”¨ï¼‰å¯¾ç§°æ€§ã¨ã„ãˆã°Graph Neural Networkã§ã™ãŒã€æœ¬è«–æ–‡ã§ã¯GNNãŒãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’ã®å¦ç¿’ã‚’åŠ©ã‘ã‚‹ã“ã¨ã‚’ç´¹ä»‹ã—ã¦ã„ã¾ã™ã€‚
ä»–ã«ã‚‚ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’ã®ãŸã‚ã®ãƒ‰ãƒ¡ã‚¤ãƒ³é©å¿œã‚’è¡Œã†ç ”ç©¶ï¼ˆJiang et al.ï¼‰ã‚„å®‰å…¨æ€§ã‚’æ‹…ä¿ã™ã‚‹ç ”ç©¶(https://nips.cc/virtual/2024/poster/93564)ã‚‚ã‚ã‚Šã¾ã™ã€‚

æ–°ãƒ¢ãƒ‡ãƒ«ã®ææ¡ˆ

D. Lee et al.ã¯å‹•ç‰©ã®èªçŸ¥ãƒ—ãƒã‚»ã‚¹ã‹ã‚‰ç€æƒ³ã‚’å¾—ã¦ã€å„ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒã‚ã‚‹ã‚ãƒ£ãƒ©ã‚¯ã‚¿ãƒ¼ï¼ˆç‰¹æ€§ã®ã‚ˆã†ãªã‚‚ã®ï¼‰ã‚’å¸¯ã³ã¦ã„ã‚‹ã¨è€ƒãˆã¾ã™ã€‚ãã—ã¦ã€ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŸã¡ã¯ä»–ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è¦³æ¸¬ã¨è¡Œå‹•ã®ãƒšã‚¢ã‹ã‚‰ãã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®ã‚ãƒ£ãƒ©ã‚¯ã‚¿ãƒ¼ã‚’æŽ¨æ¸¬ã—ã€ä»Šå¾Œã®è¡Œå‹•ã‚’äºˆæ¸¬ã—ã¾ã™ã€‚
éšŽå±¤åž‹ã®ãƒãƒ¼ãƒ ã®ç ”ç©¶ã¨ã—ã¦ã€Ding et al.ãŒã‚ã‚Šã¾ã™ã€‚ã“ã®è«–æ–‡ã§ã¯ã€ä¸Šä½ãƒ¬ãƒ™ãƒ«ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã¯ä¸‹ä½ãƒ¬ãƒ™ãƒ«ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚ˆã‚Šã‚‚å…ˆã«æ„æ€æ±ºå®šã‚’è¡Œã„ã€ä¸Šä½ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒãã®è¡Œå‹•ã‚’ä¸‹ä½ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã«ä¼é”ã—ã¾ã™ã€‚ã“ã†ã™ã‚‹ã“ã¨ã§ã€ãƒãƒ¼ãƒ ãƒ—ãƒ¬ãƒ¼ã®å®Ÿç¾ã‚’ã‚¹ãƒ ãƒ¼ã‚ºã«ã—ã¦ã„ã¾ã™ã€‚ç†è«–çš„ã«ã¯ã€SeqCommã«ã‚ˆã£ã¦å¦ç¿’ã•ã‚ŒãŸãƒãƒªã‚·ãƒ¼ã¯ã€å˜èª¿ã«æ”¹å–„ã•ã‚Œã€åŽæŸã™ã‚‹ã“ã¨ãŒä¿è¨¼ã•ã‚Œã¦ã„ã‚‹ã“ã¨ã‚’è¨¼æ˜Žã—ã¦ã„ã¾ã™

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆÃ—LLM

æœ€è¿‘ã®ç ”ç©¶ã§ã¯ã€LLMã«RLHF (Reinforcement Learning from Human Feedback)ãŒåŠ¹æžœçš„ã¨ã„ã‚ã‚Œã¦ã„ã¾ã™ã€‚ç‰¹ã«PPOã‚’ä½¿ç”¨ã—ãŸä¸€èˆ¬çš„ãªRLHFã¯ä¸‹ã®3ã¤ã®å›³ã§èª¬æ˜Žã§ãã¾ã™ã€‚
ã¾ãšã€äº‹å‰å¦ç¿’æ™‚ã«ã¯ãªã‹ã£ãŸæƒ…å ±ã‚’Pretrained modelã«æ•™ãˆè¾¼ã¾ã›ã‚‹Supervised Fine Tuning (SFT)ã‚’è¡Œã„ã¾ã™ã€‚ãã®æ¬¡ã«ã€ã‚ã‚‹ãƒ—ãƒãƒ³ãƒ—ãƒˆã«å¯¾ã™ã‚‹ã‚ã‚‹å›žç”ãŒã©ã‚Œãã‚‰ã„è‰¯ã„ã‹ã‚’è©•ä¾¡ã™ã‚‹å ±é…¬ãƒ¢ãƒ‡ãƒ«ã‚’è¨“ç·´ã—ã¾ã™ã€‚ã“ã‚Œã¯äººé–“ãŒè¤‡æ•°ã®å›žç”å€™è£œã‚’ãƒ©ãƒ³ã‚¯ä»˜ã‘ã—ãŸã‚‚ã®ã‚’æ•™å¸«ãƒ‡ãƒ¼ã‚¿ã¨ã—ã¾ã™ã€‚ã“ã‚ŒãŒHuman Feedbackã¨è¨€ã‚ã‚Œã‚‹ç†ç”±ã§ã™ã€‚æœ€å¾Œã«SFTã«ã‚ˆã£ã¦è¨“ç·´ã•ã‚ŒãŸè¨€èªžãƒ¢ãƒ‡ãƒ«ã‚’æ–¹ç–ãƒ¢ãƒ‡ãƒ«ã¨ã—ã¦ã€å ±é…¬ãƒ¢ãƒ‡ãƒ«ã¨åˆã‚ã›ã¦å¼·åŒ–å¦ç¿’ã®æœ€é©åŒ–ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§ã‚ã‚‹PPOã«ã‚ˆã£ã¦ãã‚Œã‚‰ã‚’è¨“ç·´ã—ã¾ã™ã€‚ Ma et al.ã§ã¯ã“ã®Fine Tuningä½œæ¥ã‚’è¤‡æ•°ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã§è¡Œã†ã“ã¨ã§ç²¾åº¦ã®å‘ä¸Šã‚’ã¯ã‹ã£ã¦ã„ã¾ã™ã€‚
SFTã®æ¦‚è¦

å ±é…¬ãƒ¢ãƒ‡ãƒ«ã®è¨“ç·´ã®æ¦‚è¦

PPOã®æ¦‚è¦
- ã¾ãŸã€"Language Grounded Multi-Agent"ï¼ˆè¨€èªžã«åŸºã¥ããƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆï¼‰ã®ç ”ç©¶ã‚‚ç››ã‚“ã«è¡Œã‚ã‚Œã¦ã„ã¾ã™ã€‚ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã©ã†ã—ãŒäººé–“ã«ã¯è§£èªã§ããªã„é€šä¿¡ãƒ—ãƒãƒˆã‚³ãƒ«ã§ã‚³ãƒŸãƒ¥ãƒ‹ã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã‚’å–ã£ã¦ã»ã—ããªã„çŠ¶æ³ã‚‚ã—ã°ã—ã°ã‚ã‚Šã¾ã™ã€‚ãŸã¨ãˆã°ã€ãƒãƒœãƒƒãƒˆã¨äººé–“ã®å…±åŒä½œæ¥ãªã©ã§ã™ã€‚Li et al.ã®ç ”ç©¶ã§ã¯ãƒãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ã«å¤§äº‹ãªæŠ½è±¡çš„ãªã‚³ãƒŸãƒ¥ãƒ‹ã‚±ãƒ¼ã‚·ãƒ§ãƒ³ç©ºé–“ã¨è‡ªç„¶è¨€èªžã®åŸ‹ã‚è¾¼ã¿ç©ºé–“ã‚’ã†ã¾ãæ•´åˆã•ã›ã‚‹ã“ã¨ã§ã€æ–°ã—ã„ã‚¿ã‚¹ã‚¯ã«ã‚‚ãƒãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ãŒã§ãã‚‹ã‚ˆã†ã«ã—ã¦ã„ã¾ã™ã€‚
ã»ã‹ã«ã‚‚é‡‘èžåˆ†é‡Žã¸ã®å¿œç”¨ï¼ˆYu et al.ï¼‰ã‚„Githubã®issueè§£æ±ºã¸ã®å¿œç”¨ï¼ˆTao et al.ï¼‰ã‚‚ã‚ã‚Šã¾ã™ã€‚

ãã®ä»–ã®å¿œç”¨ç ”ç©¶

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®å¿œç”¨ç ”ç©¶ã‚‚è¤‡æ•°ã‚ã‚Šã¾ã™ã€‚è¤‡æ•°ã®é¢¨åŠ›ç™ºé›»æ©Ÿã®å”èª¿åˆ¶å¾¡ã‚’æ‰±ã£ãŸMonroc et al.ã‚„è‡ªå‹•é‹è»¢ã‚’æ‰±ã£ãŸLiu et al.ã‚„Wu et al.ã€æ•°å¦ã®å•é¡Œã‚’è§£ããŸã‚ã®LLMãƒ—ãƒãƒ³ãƒ—ãƒˆæŠ€è¡“ã®ææ¡ˆã—ãŸLei et al.ãªã©ãŒã‚ã‚Šã¾ã™ã€‚

ãƒ©ã‚¤ãƒ–ãƒ©ãƒª/ãƒ™ãƒ³ãƒãƒžãƒ¼ã‚¯

ã‚ªãƒ¼ãƒ—ãƒ³ã‚½ãƒ¼ã‚¹ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚„ãƒ™ãƒ³ãƒãƒžãƒ¼ã‚¯ç’°å¢ƒã®ç™ºè¡¨ã‚‚ç›®ã«ã¤ãã¾ã—ãŸã€‚ Rutherfordã‚‰ã®JAXã«ã‚ˆã‚‹ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’ãƒ©ã‚¤ãƒ–ãƒ©ãƒª(JAXMARL)ã‚„ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆç ”ç©¶ã®ãŸã‚ã®ãƒ™ãƒ³ãƒãƒžãƒ¼ã‚¯ãƒ„ãƒ¼ãƒ«ï¼ˆBenchMARLï¼‰ãªã©ãŒã‚ã‚Šã¾ã™ã€‚

ã“ã®ãƒ–ãƒã‚°ã¯æ ªå¼ä¼šç¤¾EfficiNet Xã®ãƒ†ãƒƒã‚¯ãƒ–ãƒã‚°ã§ã™ã€‚ efficinetx.co.jp

2024-12-26

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆAIç‰¹é›†â‘¡ (1/N) Theory of Mind for Multi-Agent Collaboration via LLM

ã“ã®è¨˜äº‹ã§ã¯LLMãŒãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚·ã‚¹ãƒ†ãƒ ã§ã©ã®ã‚ˆã†ã«å¿œç”¨ã•ã‚Œã†ã‚‹ã‹ã‚’ææ¡ˆã—ãŸè«–æ–‡ã‚’ç´¹ä»‹ã—ã¾ã™ã€‚

å¿ƒã®ç†è«–ï¼ˆTheory of Mindsï¼‰

äººé–“ã¯ãƒãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ã‚’ã™ã‚‹ã¨ãã€ãƒãƒ¼ãƒ ãƒ¡ãƒ¼ãƒˆãŒã©ã®ã‚ˆã†ãªçŠ¶æ³ã§ã©ã‚“ãªè¡Œå‹•ã‚’ã©ã®ã‚ˆã†ãªæ„å›³ã§è¡Œã†ã‹ã‚’æŽ¨æ¸¬ã—ã¾ã™ã€‚ä¾‹ãˆã°ã€ã‚µãƒƒã‚«ãƒ¼é¸æ‰‹ã¯è¦‹æ–¹ãŒã©ã®ã‚ˆã†ãªæ„å›³ã§èµ°ã£ãŸã‚Šã€ãƒ‰ãƒªãƒ–ãƒ«ã‚’ã—ã¦ã„ã‚‹ã‹ã‚’å¯ŸçŸ¥ã—ã¦ã„ã‚‹ã¯ãšã§ã™ã€‚å‘³æ–¹ã®æ„å›³ã«åˆã‚ã›ã¦è‡ªåˆ†ã®è¡Œå‹•ï¼ˆã‚¹ãƒšãƒ¼ã‚¹ã«èµ°ã£ãŸã‚Šã€ãƒœãƒ¼ãƒ«ã‚’è¦æ±‚ã—ãŸã‚Šï¼‰ã‚’æ±ºã‚ã¾ã™ã€‚é€†ã«ãƒ‘ã‚¹ãŒã¤ãªãŒã‚‰ãªã‹ã£ãŸã¨ãã¯äº’ã„ã®æ„å›³ã‚’æŽ¨æ¸¬ã™ã‚‹ã®ã«å¤±æ•—ã—ãŸã¨ã„ã†ã“ã¨ã§ã™ã€‚ã€Œä»–è€…ãŒä½•ã‚’è€ƒãˆã¦ã„ã‚‹ã‹ã€ã‚’ç ”ç©¶ã™ã‚‹ã®ã¯ç™ºé”å¿ƒç†å¦ãªã©ã§ã‚‚ç ”ç©¶ã•ã‚Œã¦ããŸã“ã¨ã§ã‚ã‚Šï¼ˆä¾‹ï¼šã€Œã‚µãƒªãƒ¼ã¨ã‚¢ãƒ³èª²é¡Œã€ï¼‰ã€AIã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚‚äººé–“ã®ã‚ˆã†ã«ä»–è€…ã®æ€è€ƒã‚’ã†ã¾ãæŽ¨æ¸¬ã§ãã‚‹ã‹ã¯éžå¸¸ã«é¢ç™½ã„ãƒˆãƒ”ãƒƒã‚¯ã§ã‚ã‚Šã€å¿œç”¨ã¯å¤šå²ã«ã‚ãŸã‚Šã¾ã™ã€‚
ä»Šå›žã¯ã€ä»–è€…ã®å¿ƒã®çŠ¶æ…‹ã€ç›®çš„ã€æ„å›³ã€çŸ¥è˜ã€ä¿¡å¿µã€å¿—å‘ã€ç–‘å¿µã€æŽ¨æ¸¬ãªã©ã‚’æŽ¨æ¸¬ã™ã‚‹ç›´è¦³ã«ã‚ˆã‚‹å¿ƒã®æ©Ÿèƒ½ã§ã‚ã‚‹ã€Œå¿ƒã®ç†è«–ã€ã‚’LLMã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒç²å¾—ã§ãã‚‹ã‹ã«ã¤ã„ã¦ç ”ç©¶ã—ãŸä»¥ä¸‹ã®è«–æ–‡ã‚’ç´¹ä»‹ã—ã¾ã™ã€‚

aclanthology.org

ä¿¡å¿µçŠ¶æ…‹

å¿ƒã®ç†è«–ã§ã¯ã€ã‚ã‚‹ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒè€ƒãˆã¦ã„ã‚‹ã“ã¨ã‚’ã€Œä¿¡å¿µçŠ¶æ…‹ã€ã¨ã„ã„ã¾ã™ã€‚ãŸã¨ãˆã°ã€ã‚µãƒƒã‚«ãƒ¼ã®ä¾‹ã ã¨ã€ã€Œã“ã®ã‚¹ãƒšãƒ¼ã‚¹ã«å‘ã‹ã£ã¦ãƒ‰ãƒªãƒ–ãƒ«ã™ã‚Œã°ãƒãƒ£ãƒ³ã‚¹ã«ãªã‚‹ã€ã¨ã‹ã€Œãƒãƒƒã‚¯ãƒ‘ã‚¹ã‚’ã—ãŸæ–¹ãŒç›¸æ‰‹ãŒå‰ãŒã‹ã‚Šã«ãªã£ã¦ã‚¹ãƒšãƒ¼ã‚¹ãŒã†ã¾ã‚Œã‚„ã™ã„ã€ãªã©ã§ã™ã€‚ã‚µãƒƒã‚«ãƒ¼ã«é™ã‚‰ãšäººé–“ã¯ä½•ã‚’ã‚„ã‚‹ã«ã—ã¦ã‚‚ä½•ã‹ã—ã‚‰ã®æ„å›³ã‚„äºˆæ¸¬ã‚’ã—ã¦è¡Œå‹•ã‚’æ±ºå®šã—ã¦ã„ã¾ã™*1ã€‚
è¨€ã†ã¾ã§ã‚‚ãªãã€ãƒãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ã‚’ã™ã‚‹ã¨ãã¯ç›¸æ‰‹ã®ä¿¡å¿µçŠ¶æ…‹ã‚’ã†ã¾ãäºˆæ¸¬ã—ãªã‘ã‚Œã°ã„ã‘ã¾ã›ã‚“ã€‚ ã•ã¦ã€LLMã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã«ãƒãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ã‚’ã•ã›ã‚‹ã«ã¯ã©ã†ã™ã‚Œã°ã‚ˆã„ã§ã—ã‚‡ã†ã‹ã€‚æœ¬è«–æ–‡ã§ã¯ä»¥ä¸‹ã®3ç‚¹ã«ç€ç›®ã—ã¦ã„ã¾ã™ã€‚

0æ¬¡ToM (Theory of Mind) æŽ¨è«–LLMã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒè‡ªèº«ã®ä¿¡å¿µçŠ¶æ…‹ã‚’æ˜Žç¢ºã«è¡¨ç¾ã§ãã‚‹èƒ½åŠ›ãŒã‚ã‚‹ã‹
1æ¬¡ToM ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒä»–è€…ã®ä¿¡å¿µçŠ¶æ…‹ã‚’æŽ¨å®šã§ãã‚‹ã‹ã©ã†ã‹
2æ¬¡ToM ä»–è€…ãŒè‡ªèº«ã®ä¿¡å¿µçŠ¶æ…‹ã«ã¤ã„ã¦ä½•ã‚’è€ƒãˆã¦ã„ã‚‹ã‹ã‚’æŽ¨è«–ã§ãã‚‹ã‹ã©ã†ã‹

å®Ÿé¨“è¨å®š

æœ¬è«–æ–‡ã§æ‰±ã£ã¦ã„ã‚‹å•é¡Œè¨å®šã‚’å°‘ã—èª¬æ˜Žã—ã¾ã™ã€‚èªã¿é£›ã°ã—ã¦å¤§ä¸ˆå¤«ã§ã™ã€‚é›°å›²æ°—ã¨ã—ã¦ã¯ã€ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒ3äººã„ã¦ã€ãã‚Œã‚‰ãŒçˆ†å¼¾å‡¦ç†ã‚’ã—ã¾ã™ã€‚ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã©ã†ã—ã¯çˆ†å¼¾ãŒã‚ã¨ã©ã‚Œãã‚‰ã„ã§çˆ†ç™ºã—ãã†ã§ã‚ã‚‹ã‹ã‚„ã€ãã®çˆ†å¼¾ã®ãƒ¯ã‚¤ãƒ¤ãƒ¼ã‚’åˆ‡ã‚‹ã‹ãªã©ä½•ã‹ã—ã‚‰ã®è¡Œå‹•ã‚’ã—ã¾ã™ã€‚

ç´°ã‹ã„å•é¡Œè¨å®š

3äººã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆï¼ˆAlphaã€Bravoã€Charlieï¼‰ãŒæœªçŸ¥ã®ç’°å¢ƒã«åˆ†æ•£ã—ã¦ã„ã¾ã™ã€‚è‰²ã¤ãã®çˆ†å¼¾ã®ä½ç½®ã‚’ç‰¹å®šã—ã€å®‰å…¨ã«è§£é™¤ã™ã‚‹ã“ã¨ã‚’ç›®çš„ã¨ã—ãŸãƒãƒ¼ãƒ ã§ã™ã€‚å„çˆ†å¼¾ã¯3è‰²ã®ã„ãšã‚Œã‹ã§ã€ãã‚Œãžã‚Œã®è‰²ã¯çˆ†å¼¾ã®ãƒ•ã‚§ãƒ¼ã‚ºã‚’è¡¨ã—ã¾ã™ã€‚è§£é™¤ã«ã¯æ£ã—ã„é †åºã®ãƒ¯ã‚¤ãƒ¤ãƒ¼ã‚«ãƒƒã‚¿ãƒ¼ãŒå¿…è¦ã§ã™ã€‚ ãƒãƒ¼ãƒ ãƒ¡ãƒ³ãƒãƒ¼ã¯ãã‚Œãžã‚Œç•°ãªã‚‹è‰²ã®ã‚«ãƒƒã‚¿ãƒ¼ã‚’æŒã£ã¦ã‚²ãƒ¼ãƒ ã‚’å§‹ã‚ã¾ã™ã€‚ ç’°å¢ƒã¯é€£çµã‚°ãƒ©ãƒ•ã¨ã—ã¦æ¦‚å¿µåŒ–ã•ã‚Œã€5å€‹ã®ãƒŽãƒ¼ãƒ‰ã¯å»Šä¸‹ï¼ˆã‚¨ãƒƒã‚¸ï¼‰ã§ã¤ãªãŒã£ãŸ5å€‹ã®éƒ¨å±‹ã‚’è¡¨ã—ã¾ã™ã€‚å„ãƒ©ã‚¦ãƒ³ãƒ‰ã«ãŠã„ã¦ã€ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã¯ä»¥ä¸‹ã®3ã¤ã®è¡Œå‹•ã‹ã‚‰ä¸€å€‹é¸æŠžã—ã¾ã™ã€‚ - 5å€‹ã®éƒ¨å±‹ã®ã†ã¡ã®1ã¤ã«ç§»å‹•ã™ã‚‹ - ç¾åœ¨ã®éƒ¨å±‹ã«ã‚ã‚‹çˆ†å¼¾ã®ãƒ•ã‚§ãƒ¼ã‚ºã‚’æ¤œæŸ»ã™ã‚‹ - 3å€‹ã®ãƒ¯ã‚¤ãƒ¤ãƒ¼ã‚«ãƒƒã‚¿ãƒ¼ã®ã†ã¡ã®1ã¤ã‚’ä½¿ç”¨ã™ã‚‹

ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è¦³æ¸¬ã¯ã€ç¾åœ¨ã®éƒ¨å±‹ã®ä¸èº«ã¨ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®ã‚¹ãƒ†ãƒ¼ã‚¿ã‚¹ã«é™å®šã•ã‚Œã¾ã™ã€‚ãƒãƒ¼ãƒ ã®ã‚¹ã‚³ã‚¢ã€ç¾åœ¨ã®éƒ¨å±‹ã®ä¸èº«ã€ãƒãƒ¼ãƒ ãƒ¡ã‚¤ãƒˆã®ä½ç½®ã€åˆ©ç”¨å¯èƒ½ãªãƒ„ãƒ¼ãƒ«ã«ã¤ã„ã¦ã¯ã€å®šæœŸçš„ã«æ›´æ–°ã•ã‚Œã¾ã™ã€‚ $x$ æ®µéšŽã®çˆ†å¼¾ãŒè§£é™¤ã•ã‚Œã‚‹ã¨ã€ãƒãƒ¼ãƒ ã«ã¯ $10 x$ ãƒã‚¤ãƒ³ãƒˆãŒä¸Žãˆã‚‰ã‚Œã¾ã™ã€‚

å•é¡Œè¨å®šã®æ¦‚è¦ï¼ˆè«–æ–‡ã®å›³ã‚’å¼•ç”¨ã—ã¦ã„ã¾ã™ã€‚ï¼‰

LLM ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆ

æœ¬è«–æ–‡ã§ã¯ã€ãƒãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ã‚’è¡Œã†ã«ã‚ãŸã£ã¦ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒä¿¡å¿µçŠ¶æ…‹ã‚’æ˜Žç¤ºçš„ã«ä¿æŒã™ã‚‹ã®ãŒæœ›ã¾ã—ã„ã¨ã„ã£ã¦ã„ã¾ã™ã€‚å›³ï¼‘ã®ä¾‹ã§ã¯ã€AlphaãŒCommunication Messageã¨ã—ã¦Bravoã‹ã‚‰å—ã‘å–ã£ãŸãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ã‚’ã‚‚ã¨ã«è‡ªåˆ†ã®ä¿¡å¿µã‚’æ›´æ–°ã—ã¦ã„ã¾ã™ã€‚ã“ã“ã§ä¿¡å¿µã¨ã¯ç’°å¢ƒã«ã¤ã„ã¦ã®æƒ…å ±ã¨è¨€ã£ã¦ã„ã„ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚ ã‚²ãƒ¼ãƒ ã®å¾—ç‚¹ã¯LLMã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒä¿¡å¿µï¼ˆBeliefï¼‰çŠ¶æ…‹ã‚’æ˜Žç¤ºçš„ã«ä¿æŒã—ã¦ã„ã‚‹å ´åˆã®æ–¹ãŒé«˜ã„ã§ã™ã€‚ ã¡ãªã¿ã«MAPPOã¯ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’ã®æœ‰åãªæ‰‹æ³•ã§ã™ã€‚

å‰µç™ºç¾è±¡ãŠã‚ˆã³0, 1, 2æ¬¡ToM

ãƒãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ãŒå¿…è¦ãªä»Šå›žã®çˆ†å¼¾å‡¦ç†ã‚¿ã‚¹ã‚¯ã§ã™ãŒã€å‰µç™ºç¾è±¡ã¨ã‚‚ã¨ã‚Œã‚‹ç¾è±¡ãŒç¢ºèªã•ã‚Œã¦ã„ã¾ã™ã€‚å…·ä½“çš„ã«ã¯ã€ã‚ã‚‹ä¸€äººã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒãƒªãƒ¼ãƒ€ãƒ¼ã¨ãªã‚Šã€ä»–ã®äºŒäººã«æŒ‡ç¤ºã‚’é€ã‚Šã¾ã™ã€‚ä¸‹ã®å›³ä¸Šéƒ¨ã§ã¯ã€AlphaãŒBravoã¨Charlieã«æŒ‡ç¤ºã‚’é€ã‚Š, äºŒäººãŒæŒ‡ç¤ºé€šã‚Šã«è¡Œå‹•ã—ã¦ã„ã‚‹ã®ãŒåˆ†ã‹ã‚Šã¾ã™ã€‚ ã¾ãŸä¸‹ã®å›³ä¸‹éƒ¨ã‚’è¦‹ã‚‹ã¨ã€LLMã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆ(+ä¿¡å¿µçŠ¶æ…‹)ã¯0, 1, 2æ¬¡ToMã‚’ä¿æŒã—ã¦ã„ã‚‹ã¨ã„ãˆãã†ã§ã™ã€‚

æ¬¡å›žäºˆå‘Š

æ¬¡å›žã¯ã‚ªãƒ¼ãƒ—ãƒ³ã‚½ãƒ¼ã‚¹ã®Llama3.2 3B-Instractã‚’ç”¨ã„ã¦å”èª¿è¡Œå‹•ãŒã§ãã‚‹ã‹ã‚’æ¤œè¨¼ã—ã¦ã¿ã¾ã™ã€‚

ã“ã®ãƒ–ãƒã‚°ã¯æ ªå¼ä¼šç¤¾EfficiNet Xã®ãƒ†ãƒƒã‚¯ãƒ–ãƒã‚°ã§ã™ã€‚

efficinetx.co.jp

*1:éƒ¨åˆ†è¦³æ¸¬ãƒžãƒ«ã‚³ãƒ•æ±ºå®šéŽç¨‹ã§ã¯ã€ã€Œä¿¡å¿µçŠ¶æ…‹ã¯å®Ÿéš›ã®(çœŸã®)çŠ¶æ…‹ã«ä»Šã©ã®ãã‚‰ã„ã„ã‚‹ã‹ã‚’è¡¨ã™ç¢ºçŽ‡ã€ã®ã“ã¨ã§ã™ã€‚

2024-12-26

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆAIç‰¹é›†â‘ COMAã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ

ã“ã®è¨˜äº‹ã§ã¯ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¦ç¿’ã®åˆæœŸã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§ã‚ã‚‹COMAã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’ç´¹ä»‹ã—ã¾ã™ã€‚ å…ƒã®è«–æ–‡ã¯Foerster et al. Counterfactual Multi-Agent Policy Gradients. AAAI, 2018.ã§ã™ã€‚

å°Žå…¥

TDæ³•ã¨æ–¹ç–å‹¾é…æ³•ã«ã¤ã„ã¦å¾©ç¿’ã—ã¾ã™ã€‚

TDæ³•

å¼·åŒ–å¦ç¿’ã§é »ç¹ã«ãƒžãƒ«ã‚³ãƒ•éŽç¨‹ã¯ä»®å®šã—ã¾ã™ã€‚ã¨ãªã‚Œã°, ã‚ã‚‹çŠ¶æ…‹ $s$ ã®ä¾¡å€¤é–¢æ•° $V(s)$ ã‚’çŸ¥ã‚ŠãŸã„. å„episodeã§trajectory (å±¥æ´)ã¨ã—ã¦ $$ \{ (s_0, a_0, r_0), (s_1, a_1, r_1), \ldots, (s_{T - 1}, a_{T - 1}, r_{T - 1}) \} $$ ãŒå¾—ã‚‰ã‚Œã‚‹ã®ã§ã€ã“ã‚Œã‚‰ã‚’ä½¿ã£ã¦ä¾¡å€¤é–¢æ•°ã‚’å¦ç¿’ã•ã›ã¦ã„ãã¾ã™ã€‚

æ–¹ç–å‹¾é…æ³•

æ–¹ç–å‹¾é…æ³•ã¯ä¸»ã«actor-criticãƒ™ãƒ¼ã‚¹ã®æ‰‹æ³•ã§ä½¿ã‚ã‚Œã¾ã™ã€‚actorãŒpolicy(æ–¹ç–) ${\pi}_{{\theta}}( {a} | {s})$ã‚’å¸ã‚Šã€ã‚ã‚‹çŠ¶æ…‹ $s$ ã§ã©ã®ã‚ˆã†ãªè¡Œå‹•$a$ã‚’ã™ã‚‹ã‹ã‚’å‡ºåŠ›ã™ã‚‹. criticã¯ä¾¡å€¤é–¢æ•°$V(s)$ã‚„è¡Œå‹•ä¾¡å€¤é–¢$Q({s}, {a})$ã‚’æŽ¨å®šã™ã‚‹. é‡è¦ãªå®šç†ã¨ã—ã¦, ä»¥ä¸‹ã®æ–¹ç–å‹¾é…å®šç†ãŒã‚ã‚‹.

æ–¹ç–å‹¾é…å®šç†(informal)
æ–¹ç–$\pi_{\theta}(a|s)$ã®ä¸‹ã§ã®ç´¯ç©å ±é…¬ã®æœŸå¾…å€¤ã‚’$J(\theta)$ã¨ã™ã‚‹. ä»¥ä¸‹ãŒæˆã‚Šç«‹ã¤. $$ \nabla_{\theta}J(\theta) = \mathbb{E}_{\pi_{\theta}} \left[ \sum_{t = 1}^{T} \nabla_{\theta} \log (\pi_{\theta}(a_{t} | s_{t}) (Q^{\pi_{\theta}}(s, a) - b(s)) \right]. $$

è©³ã—ã„è§£èª¬ãªã©ã¯ã€Œå¼·åŒ–å¦ç¿’ã€ï¼ˆæ£®æ‘å“²éƒŽè‘—, è¬›è«‡ç¤¾ï¼‰ã«è¼‰ã£ã¦ã„ã¾ã™ã€‚ ã“ã“ã§, $b(s)$ã¯çŠ¶æ…‹$s$ã«ã®ã¿ä¾å˜ã™ã‚‹ãƒ™ãƒ¼ã‚¹ãƒ©ã‚¤ãƒ³é–¢æ•°ã¨å‘¼ã°ã‚Œã‚‹ã‚‚ã®ã§ã™ã€‚ãƒ™ãƒ¼ã‚¹ãƒ©ã‚¤ãƒ³é–¢æ•°ã®é¸ã³æ–¹ã§åˆ†æ•£ã®å¤§ãã•ãŒæ±ºã¾ã£ã¦ãã‚‹. æ§˜ã€…ãªãƒ™ãƒ¼ã‚¹ãƒ©ã‚¤ãƒ³é–¢æ•°ãŒç ”ç©¶ã•ã‚Œã¦ã„ã‚‹.

æ–¹ç–å‹¾é…æ³•ã‚’ç”¨ã„ãŸã‚‚ã®ã«, REINFORCEæ³•(Williams, 2019)ãŒã‚ã‚‹. å„ã‚¨ãƒ”ã‚½ãƒ¼ãƒ‰ã®å±¥æ´$(s_0, a_0, r_0), (s_1, a_1, r_1), \ldots, (s_{T - 1}, a_{T - 1}, r_{T - 1})$ã‚’å¾—ã‚‹ãŸã³ã«, $$ c_{t} := \sum_{l = t}^{T - 1}r_{l}, \quad \forall t \in { 0, 1, \ldots, T - 1 } $$ ã¨è¨ˆç®—ã—ã¦, ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’ä»¥ä¸‹ã®ã‚ˆã†ã«æ›´æ–°ã™ã‚‹: $$ \theta \leftarrow \theta + \alpha \frac{1}{T} \sum_{t = 0}^{T - 1} (c - b(s_{t}))\nabla \log \pi_{\theta}(s_{t}, a_{t}) $$ æ³¨æ„ã™ã‚‹ã¹ãç‚¹ã¯ã€ãƒ¢ãƒ³ãƒ†ã‚«ãƒ«ãƒã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã«ã‚ˆã£ã¦$Q$ã‚’æŽ¨å®šã—ã¦ã„ã‚‹ã“ã¨ã‹ã‚‰, REINFORCEã¯actor-criticã§ã¯ãªãã€criticãªã—ã®æ–¹ç–å‹¾é…æ³•ã¨ã„ã†ã“ã¨ã§ã™ã€‚

actor-criticãƒ¡ã‚½ãƒƒãƒ‰ã®å ´åˆã¯, $b(s) = V(s)$ã¨ã—ã¦, ã‚¢ãƒ‰ãƒãƒ³ãƒ†ãƒ¼ã‚¸é–¢æ•° $ A(a_{t}, s_{t}) = r_{t} + V(s_{t + 1}) - V(s_{t}) $ã‚’ç”¨ã„ã¦, ä»¥ä¸‹ã®ã‚ˆã†ã«ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’æ›´æ–°ã™ã‚‹. $$ \theta \leftarrow \theta + \frac{1}{T} \sum_{t = 0}^{T - 1} \nabla_{\theta}\log \pi_{\theta}(a_{t}|s_{t}) A(a_{t}, s_{t}) $$

ã“ã“ã§ä½¿ã‚ã‚Œã‚‹$V(s)$ã¯criticãŒæŽ¨å®šã—ãŸã‚‚ã®ã‚’ä½¿ã†ã®ã§ã‚ã‚‹. (off-policyã®å ´åˆã¯ã‚¢ãƒ‰ãƒãƒ³ãƒ†ãƒ¼ã‚¸é–¢æ•°ã¨ã—ã¦, $A(a_{t}, s_{t}) = r_{t} + \max_{a \in \mathcal{A}} Q^{\pi_{\theta}}(s_{t + }, a)$ã¨ã™ã‚‹.)

æœ¬é¡Œ

Nä½“ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã«ã¤ã„ã¦è€ƒãˆã‚‹. ç´ æœ´ãªæ–¹æ³•ã¨ã—ã¦å„$i\in \{ 1, \ldots, N \}$ç•ªç›®ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®æ–¹ç–å‹¾é…ã‚’ä¸€å¾‹ $$ G = \nabla_{\theta}\log \pi_{\theta}(a_{t} | s^{i}_t) \left( Q(s_{t}, a_{t}) - V\left( s_t \right) \right) $$ ã¨å®šã‚ãŸã¨ã—ã¾ã™ã€‚ã“ã“ã§, $s_{t}$ã¨$a_t$ã¯ãã‚Œãžã‚Œå…¨ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®joint stateã¨joint actionã§ã‚ã‚Š, $r_t$ã¯å…¨ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆå…±é€šã®rewardã§ã™ã€‚ã“ã‚Œã ã¨ãã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è¡Œå‹•ãŒã©ã‚Œãã‚‰ã„å…¨ä½“ã®å ±é…¬ã«è²¢çŒ®ã—ãŸã‹ã†ã¾ãæŽ¨è«–ã—ã¥ã‚‰ã„ ("Credit Assignment Problem")ãŒç™ºç”Ÿã—ã¾ã™ã€‚ä»–ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒã†ã¾ã„æ–¹ç–ã‚’æŽ¢ç´¢ã—ã¦ã„ã‚‹æœ€ä¸ã ã¨, $G$ã¯ãƒŽã‚¤ã‚¸ãƒ¼ã«ãªã‚Š, è‡ªåˆ†ã®æ–¹ç–ã‚’ã†ã¾ãæ”¹å–„ã§ããªã„å ´åˆãŒã‚ã‚Šã¾ã™ã€‚

ææ¡ˆæ‰‹æ³•

å¦ç¿’ã‚’å®‰å®šã•ã›ã‚‹ãŸã‚ã«ã‚¢ãƒ‰ãƒãƒ³ãƒ†ãƒ¼ã‚¸é–¢æ•°ã‚’å·¥å¤«ã—ãªã‘ã‚Œã°ã„ã‘ãªã„ã¨ã„ã†ã®ãŒå‡ºç™ºç‚¹ã§ã™ã€‚ãƒ™ãƒ¼ã‚¹ãƒ©ã‚¤ãƒ³é–¢æ•°ã‚’å¤‰æ›´ã—ã¾ã™ã€‚ç›´è¦³çš„ã«ã¯, ã€Œã»ã‹ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒãã®ã¾ã¾ã®è¡Œå‹•ã‚’å–ã£ãŸæ™‚ã«è‡ªåˆ†ï¼ˆã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆ$i$ï¼‰ã®ä»Šã®æ–¹ç–ã¯ã©ã‚Œãã‚‰ã„è‰¯ã„ã‹ã€ãŒçŸ¥ã‚ŠãŸã„ã§ã™ã€‚COMAã¯ã“ã®ç›´è¦³ã‚’ä»¥ä¸‹ã®ã‚¢ãƒ‰ãƒãƒ³ãƒ†ãƒ¼ã‚¸é–¢æ•°ã‚’æ§‹ç¯‰ã™ã‚‹ã“ã¨ã§çŸ¥ã‚ã†ã¨ã—ã¾ã™ã€‚ $$ A^{i}(s, a) = Q(s, a) - \sum_{u_{i} \in \mathcal{A}} \pi_{\theta} (u_{i}, H_{i} ) Q(s, (\mathbf{u}^{- i}, u_{i})) $$ ã“ã“ã§$u_{i}$ã¯ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆ$i$ã®è¡Œå‹•, $\mathbf{u}^{-i}$ã¯ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆ$i$ä»¥å¤–ã®è¡Œå‹•ã‚’å›ºå®šã—ãŸæ™‚ã®è¡Œå‹•ãƒ™ã‚¯ãƒˆãƒ«, $H_{i}$ã¯ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆ$i$ã®è¡Œå‹•ãƒ»è¦³æ¸¬å±¥æ´ã§ã™ã€‚

å®Ÿé¨“

æœ€å¾Œã«COMAã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’å‹•ã‹ã—ã¦ã¿ãŸã„ã¨æ€ã„ã¾ã™ã€‚ã‚³ãƒ¼ãƒ‰ã¯ã“ã¡ã‚‰ã«ã‚ã‚Šã¾ã™ã€‚

å®Ÿé¨“ç’°å¢ƒ

è€ƒãˆã‚‹ç’°å¢ƒã¯ä»¥ä¸‹ã®é€šã‚Šã§ã™ã€‚ å›³ã®ã‚ˆã†ã«ã€4ã¤ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆï¼ˆç´«ã€é’ã€ç·‘ã€ã‚ªãƒ¬ãƒ³ã‚¸ï¼‰ãŒãã‚Œãžã‚Œè‡ªåˆ†ã®è‰²ã¨åŒã˜è‰²ã§å¡—ã‚‰ã‚Œã¦ã„ã‚‹ãƒžã‚¹ã«ç§»å‹•ã—ãŸã„ã¨ã—ã¾ã™ã€‚ å…·ä½“çš„ã«ã¯ã€ç´«ã€é’ã€ç·‘ã€ã‚ªãƒ¬ãƒ³ã‚¸ã¯ãã‚Œãžã‚Œåº§æ¨™(0, 0)ã€(0, 5), (6, 0), (5, 6)ã‚’å‡ºç™ºã—ã¦ã€ãã‚Œãžã‚Œã®å¯¾è§’ç·šä¸Šã§ã‚ã‚‹åº§æ¨™ï¼ˆ5, 6ï¼‰, (5,. 0), (0, 6), (0, 0)ã«ç§»å‹•ã—ãŸã„ã¨ã„ã†çŠ¶æ³ã§ã™ã€‚

ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŸã¡ã¯å„æ™‚é–“ã‚¹ãƒ†ãƒƒãƒ—ã§ãã®ãƒžã‚¹ã«ã¨ã©ã¾ã‚‹ã‹ã€å·¦å³ä¸Šä¸‹ã®ãƒžã‚¹ã«ç§»å‹•ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚ é»’ãå¡—ã‚‰ã‚Œã¦ã„ã‚‹ãƒžã‚¹ã«ã¯ç§»å‹•ã§ãã¾ã›ã‚“ã€‚ã‚¢ã‚¯ã‚·ãƒ§ãƒ³ã¯1ã ã¨ä¸Šã€2ã ã¨å³ã«ã€ï¼“ã ã¨ä¸‹ã«ã€ï¼”ã ã¨å·¦ã«ã€ï¼ã ã¨ãã®å ´ã«ã¨ã©ã¾ã‚‹ã€ã¨ã„ã†å…·åˆã§ã™ã€‚ å„æ™‚é–“ã‚¹ãƒ†ãƒƒãƒ—ã®å ±é…¬ã¯ä»¥ä¸‹ã®ã‚ˆã†ã«ã€ã‚´ãƒ¼ãƒ«ã¾ã§ã®ãƒ¦ãƒ¼ã‚¯ãƒªãƒƒãƒ‰è·é›¢ã¨ã—ã¾ã™ã€‚ã¤ã¾ã‚Šã€ $$ \sum_{i = 1}^{4} ( x_{i} - x^{goal}_{i} ) ^2 + (y_{i} - y^{goal}_{i}) ^{2} $$ ã§ã™ã€‚

ãƒ¢ãƒ‡ãƒ«

Actor: äºŒæ¬¡å…ƒã®åº§æ¨™ã‚’å…¥åŠ›ã¨ã—ã¦ã€5ã‚¹ãƒ†ãƒƒãƒ—ã¾ã§ã‚’è¨˜æ†¶ã—ã¦ã€GRUã§è¡Œå‹•ã‚’å‡ºåŠ›ã™ã‚‹
Critic: å…¥åŠ›ã¯ç›¤é¢å…¨ä½“ã‚’9ãƒãƒ£ãƒãƒ«ã®ç”»åƒã¨ã—ã¦è¦‹ã¾ã™. 1~4ãƒãƒ£ãƒãƒ«ãŒå„ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®ä½ç½®ã‚’ã€5~10ãƒãƒ£ãƒãƒ«ãŒè¡Œå‹•ã‚’å„ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è¡Œå‹•ã‚’è¡¨ã—ã¾ã™. ã“ã®å…¥åŠ›ã‚’CNNã§è¡Œå‹•ä¾¡å€¤é–¢æ•°ã®å€¤ã‚’å‡ºåŠ›ã—ã¾ã™.

çµæžœ

çµè«–ã‹ã‚‰è¨€ã†ã¨çµæžœã¯å¾®å¦™ã§ã™ã€‚ã¾ãšã‚µãƒ³ãƒ—ãƒ«åŠ¹çŽ‡æ€§ãŒè‰¯ããªã„ã—, ãƒˆãƒ¬ãƒ¼ãƒ‹ãƒ³ã‚°ä¸ã®åˆ†æ•£ã‚‚å¤§ãã„ã§ã™ã€‚

ä»¥ä¸‹ã®ã‚ˆã†ã«ã€ä¸Šæ‰‹ãã„ãã¨ï¼”äººã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒã†ã¾ããã‚Œãžã‚Œã®ã‚´ãƒ¼ãƒ«ã«åˆ°é”ã™ã‚‹å ´åˆãŒã‚ã‚Šã¾ã™ãŒï¼ˆä¸‹å›³å‚ç…§ï¼‰, å¤§åŠã®å ´åˆã¯ã“ã†ã¯ãªã‚‰ãšã€èª°ã‹ã—ã‚‰ãŒåŒã˜å ´æ‰€ã«ã¨ã©ã¾ã£ã¦ã—ã¾ã£ãŸã‚Šã—ã¾ã™.

æ„Ÿæƒ³

COMAã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¯ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’ã®åˆ†é‡Žã§ã¯æœ€å…ˆç«¯ã®æŠ€è¡“ã¨ã¯è¨€ãˆã¾ã›ã‚“. ã—ã‹ã—, "Counterfactual"ã¨ã„ã†ã‚¢ã‚¤ãƒ‡ã‚¢ã¯é¢ç™½ã„ã§ã™. äººé–“ã‚‚ã€Œè‡ªåˆ†ãŒã‚‚ã—ä»®ã«ä»–ã®è¡Œå‹•ã‚’ã—ã¦ã„ãŸã‚‰ã€ãƒãƒ¼ãƒ å…¨ä½“ã®ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ã¯ã©ã†ãªã£ã¦ã„ãŸã ã‚ã†ã€ã¨è€ƒãˆã‚‹ã“ã¨ã¯ã‚ˆãã‚ã‚‹ã¨æ€ã„ã¾ã™ã€‚

ã“ã®ãƒ–ãƒã‚°ã¯æ ªå¼ä¼šç¤¾EfficiNet Xã®ãƒ†ãƒƒã‚¯ãƒ–ãƒã‚°ã§ã™ã€‚

efficinetx.co.jp

2024-12-26

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’

ã“ã“ã§ã¯ã–ã£ãã‚Šãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆAIã«ã¤ã„ã¦ç´¹ä»‹ã—ãŸã„ã¨æ€ã„ã¾ã™ã€‚

å°Žå…¥

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚·ã‚¹ãƒ†ãƒ

ã¾ãšãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚·ã‚¹ãƒ†ãƒ ã«ã¤ã„ã¦ç´¹ä»‹ã—ã¾ã™ã€‚

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚·ã‚¹ãƒ†ãƒ ã¨ã¯è¤‡æ•°ã®ãƒãƒœãƒƒãƒˆï¼ˆã‚ã‚‹ã„ã¯äººï¼‰ãŒãã‚Œãžã‚Œè‡ªå¾‹çš„ã«æ„æ€æ±ºå®šã—ã€ç›¸äº’ã«å½±éŸ¿ã‚’åŠã¼ã—åˆã†ã‚ˆã†ãªã‚·ã‚¹ãƒ†ãƒ ã®ã“ã¨ã§ã™ã€‚ãƒãƒœãƒƒãƒˆï¼ˆã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆï¼‰ãŒè¤‡æ•°ï¼ˆmultipleï¼‰ã„ã‚‹ã‹ã‚‰ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã¨ã„ã†åå‰ãŒã¤ã„ã¦ã„ã¾ã™ã€‚ ä¾‹ãˆã°ã€ã‚µãƒƒã‚«ãƒ¼ã¯11ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆvs11ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®ã‚¹ãƒãƒ¼ãƒ„ã¨è¨€ãˆã¾ã™ã€‚äººé–“ã¯ãƒˆãƒ¬ãƒ¼ãƒ‹ãƒ³ã‚°ã‚’ç©ã‚“ã§ã„ãã¨ã€ãƒãƒ¼ãƒ ãƒ¡ãƒ¼ãƒˆã®å‹•ãã‚’è¦‹ã¦è‡ªåˆ†ãŒã©ã†å‹•ã‘ã°ã„ã„ã‹ã‚’è‡ªå¾‹çš„ã«åˆ¤æ–ã§ãã‚‹ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚ä¾‹ãˆã°ã€ã©ã“ã‚‰è¾ºã®ãƒã‚¸ã‚·ãƒ§ãƒ³ã‚’å–ã‚Œã°ã„ã„ã®ã‹ã€èª°ã«ãƒ‘ã‚¹ã‚’å‡ºã›ã°ã‚ˆã„ã®ã‹ã€ãªã©ã§ã™ã€‚

ã¾ãŸã€æ ªå¼å¸‚å ´ã‚‚ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚·ã‚¹ãƒ†ãƒ ã¨ã„ãˆã¾ã™ã€‚å„æŠ•è³‡å®¶ãŒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã«ã‚ãŸã‚Šã€ãã‚Œãžã‚Œè‡ªåˆ†ã®åˆ©ç›Šã ã‘ã‚’æœ€å¤§åŒ–ã—ã‚ˆã†ã¨ã—ã¾ã™ã€‚

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚·ã‚¹ãƒ†ãƒ ã¸ã®æœŸå¾…

ã“ã®ã‚ˆã†ã«ã€ãƒãƒ¼ãƒ ã§å”åŠ›ã—ãŸã‚Šã€ã¾ã‚ã‚Šã¨ç«¶ã„åˆã£ã¦è‡ªå·±ã®åˆ©ç›Šã‚’è¿½æ±‚ã™ã‚‹ç¾è±¡ã¯æ—¥å¸¸ç”Ÿæ´»ã«ã‚ãµã‚Œã¦ã„ã¾ã™ã€‚ ã“ã‚Œã‚’ãƒãƒœãƒƒãƒˆã«ã‚‚ã‚„ã‚‰ã›ã¦ã¿ã‚ˆã†ã€ã¨ã„ã†ã®ãŒãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚·ã‚¹ãƒ†ãƒ ç ”ç©¶ã®å‡ºç™ºç‚¹ã§ã™ã€‚ã¤ã¾ã‚Šã€ãƒãƒœãƒƒãƒˆãŒå”åŠ›ã—åˆã£ã¦ã‚¿ã‚¹ã‚¯ã‚’è§£ã„ãŸã‚Šã€ç¾¤è¡†ã®ãªã‹ã§ä¸Šæ‰‹ãä»–è€…ã‚’å‡ºã—æŠœã„ã¦ç”Ÿãæ®‹ã£ãŸã‚Šã™ã‚‹ã“ã¨ã‚’ã•ã›ã¦ãŸã„ã€ã¨ã„ã†ã“ã¨ã§ã™ã€‚

ä»¥ä¸‹ã§ã¯ã€ã€Œæ©Ÿæ¢°å¦ç¿’Ã—ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚·ã‚¹ãƒ†ãƒ ã€ã«ã¤ã„ã¦è°è«–ã—ã¾ã™ã€‚ãã®ä¸ã§ã‚‚ç‰¹ã«ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã©ã†ã—ãŒå”åŠ›ã—åˆã£ã¦å…±é€šã®èª²é¡Œã‚’è§£ãCooperative Settingã«ã¤ã„ã¦è¦‹ã¦ã„ãã¾ã™ã€‚

é›£ã—ã•ã¨ãã®é¢ç™½ã•

ãƒãƒœãƒƒãƒˆã«ãƒãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ã‚’æ•™ãˆã“ã‚€ã¨ãªã‚‹ã¨ã€ä»¥ä¸‹ã®ã‚ˆã†é›£ã—ã•ï¼ˆé¢ç™½ã•ï¼‰ãŒã‚ã‚Šã¾ã™ã€‚

è¨ˆç®—æ™‚é–“ã‚’æŠ‘ãˆã‚‹ãŸã‚ã«å„ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®æ„æ€æ±ºå®šæ–¹æ³•ï¼ˆå¼·åŒ–å¦ç¿’ã§ã„ã†æ–¹ç–ï¼‰ã‚’åŒæ™‚ã«æ›´æ–°ã—ãŸå ´åˆã€ãƒãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ã®ãƒãƒ©ãƒ³ã‚¹ãŒå´©ã‚ŒãŸã‚Šã—ãªã„ã‹ï¼Ÿã‚µãƒƒã‚«ãƒ¼ã§ã„ã†ã¨ã€ãƒœãƒ¼ãƒ«ãƒ›ãƒ«ãƒ€ãƒ¼ã¯ãƒ‘ã‚¹ã‚’é¸æŠžã—ãŸãŒã€å‘¨ã‚Šã®å‘³æ–¹ã¯ãƒ‰ãƒªãƒ–ãƒ«ã‚’é–‹å§‹ã™ã‚‹ã¨æ€ã£ã¦åå¿œã§ããªã‹ã£ãŸã€ãªã©ãŒãã®ä¾‹ã€‚

ç ”ç©¶åˆ†é‡Ž

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’

æ·±å±¤å¦ç¿’ã‚’ä½¿ã£ã¦AIãŒè‡ªå¾‹çš„ã«è³¢ããªã‚‹ã“ã¨ã‚’ç ”ç©¶ã™ã‚‹æ·±å±¤å¼·åŒ–å¦ç¿’ (Deep Reinforcement Learning)ã¯ã‚ˆãçŸ¥ã‚‰ã‚Œã¦ã„ã¾ã™ã€‚ã“ã‚Œã‚’æ‹¡å¼µã—, è¤‡æ•°ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒåŒæ™‚ã«ãã‚Œãžã‚Œè‡ªå¾‹çš„ã«è³¢ããªã‚‹æ–¹æ³•è«–ã‚’ç ”ç©¶ã™ã‚‹ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’ã¨ã„ã†ã‚‚ã®ãŒã‚ã‚Šã¾ã™ã€‚2017å¹´ã‚ãŸã‚Šã‹ã‚‰æµ·å¤–ã‚’ä¸å¿ƒã«ç™ºå±•ã‚’é‚ã’ã¦ãã¦ã„ã‚‹åˆ†é‡Žã§ã™ã€‚

ä»£è¡¨çš„ãªã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã«ä»¥ä¸‹ã®ã‚ˆã†ãªã‚‚ã®ãŒã‚ã‚Šã¾ã™ã€‚

QMIX [ICML2018]
Multi-Agent Proximal Policy Optimization (MAPPO) [NeurIPS2022]
Multi-Agent Transformer [NeurIPS2022]
Heterogeneous-Agent Soft Actor-Critic (HASAC) [ICLR2024]

ã“ã®ãƒ–ãƒã‚°ã§ã¯ä»¥ä¸Šã®ã‚ˆã†ãªã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’ä»Šå¾Œç´¹ä»‹ã—ã¦ã„ãã¾ã™ã€‚

LLMÃ—ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆï¼ˆã€Œå¿ƒã®ç†è«–ã€ï¼‰

äººé–“ã¯ãƒãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯ã‚’ã™ã‚‹ã¨ãã€ä»–æ‰€ã®è¡Œå‹•ã‚„ãã®æ„å›³ã‚’æŽ¨æ¸¬ã—ã¾ã™ã€‚ç™ºé”å¿ƒç†å¦ã§ã€Œã‚µãƒªãƒ¼ã¨ã‚¢ãƒ³èª²é¡Œã€ã¨ã„ã†ã‚‚ã®ãŒã‚ã‚Šã¾ã™ãŒã€ä»–è€…ã®è¦–ç‚¹ã§ã‚‚ã®ã‚’è€ƒãˆã‚‹ã“ã¨ã«é–¢ã™ã‚‹ç ”ç©¶ã¯æ§˜ã€…ãªåˆ†é‡Žã«åŠã³ã¾ã™ã€‚

äººãŒä»–è€…ã®å¿ƒã®çŠ¶æ…‹ã€ç›®çš„ã€æ„å›³ã€çŸ¥è˜ã€ä¿¡å¿µã€å¿—å‘ã€ç–‘å¿µã€æŽ¨æ¸¬ãªã©ã‚’æŽ¨æ¸¬ã™ã‚‹ç›´è¦³ã«ã‚ˆã‚‹å¿ƒã®æ©Ÿèƒ½ã®ã“ã¨ã‚’ã€Œå¿ƒã®ç†è«–ã€ã¨å‘¼ã³ã¾ã™ï¼ˆwikipediaå¼•ç”¨ï¼‰ã€‚ã‚³ãƒ³ãƒ”ãƒ¥ãƒ¼ã‚¿ã‚½ãƒ•ãƒˆãŒã€Œå¿ƒã®ç†è«–ã€ã‚’æ‰‹ã«å…¥ã‚Œã‚‹ã‹ã¯éžå¸¸ã«èˆˆå‘³æ·±ã„å•ã„ã§ã™ã€‚è¿‘å¹´ã€LLMï¼ˆLarge Language Modelï¼‰ãŒã€Œå¿ƒã®ç†è«–ã€ã«è¿‘ã„ã‚‚ã®ã‚’æ‰‹ã«å…¥ã‚Œã‚‰ã‚Œã‚‹ã‹ã©ã†ã‹ã€ã¨ã„ã†ç ”ç©¶ãªã©ãŒå‡ºã¦ã„ã¾ã™ã€‚ä¾‹ãˆã°ã€Li et al. (EMNLP2023)ãŒãã‚Œã«ã‚ãŸã‚Šã¾ã™ã€‚

ä»–ã«ã‚‚ã€ä»¥ä¸‹ã®ä¾‹ã®ã‚ˆã†ã«LLMÃ—ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è«–æ–‡ãŒã¡ã‚‰ã»ã‚‰å‡ºã¦ã„ã¾ã™ã€‚ã“ã‚Œã‚‰ã«ã¤ã„ã¦ã‚‚ã€ä»Šå¾Œã“ã®ãƒ–ãƒã‚°ã§æ‰±ã£ã¦ã„ããŸã„ã¨æ€ã„ã¾ã™ã€‚

Huao et al. Language Grounded Multi-agent Reinforcement Learning with Human-interpretable Communication. NeurIPS, 2024.
Zhang e al. Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration. arXiv:2405.14314.

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’ã®ç ”ç©¶ã ã¨ã€æµ·å¤–ã®ç ”ç©¶ãƒãƒ¼ãƒ ã§ã¯Jakob N. Foresterå…ˆç”Ÿã®ç ”ç©¶ãƒãƒ¼ãƒ ã‚„Shimon Whitesonãªã©ãŒæœ‰åã§ã™ã€‚

æµ·å¤–ã«æ¯”ã¹ã‚‹ã¨, æ—¥æœ¬ã§ã¯ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆAIã€ç‰¹ã«ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’ã®ç ”ç©¶ã¯ã‚ã¾ã‚Šç››ã‚“ã«è¡Œã‚ã‚Œã¦ã„ãªã„ã‚ˆã†ã«æ€ã‚ã‚Œã¾ã™ã€‚ã€Œãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚·ã‚¹ãƒ†ãƒ ã€ã¨æ‰“ã¤ã¨ä¸Šã«å‡ºã¦ãã‚‹ã®ã¯è±Šç”°ä¸å¤®ç ”ç©¶æ‰€ã®ãƒ›ãƒ¼ãƒ ãƒšãƒ¼ã‚¸ãªã©ãŒã‚ã‚Šã¾ã™ã€‚ ã€Œãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’ã€ã¨æ‰“ã¤ã¨å…ƒæ¾å°¾ç ”ç©¶å®¤ã®ä»Šäº•ã•ã‚“ã®ã‚¹ãƒ©ã‚¤ãƒ‰ãŒå‡ºã¦ãã¾ã™ã€‚ ã„ãšã‚Œã«ã›ã‚ˆã€ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’ã‚„LLMÃ—ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆAIã‚’æ—¥æœ¬ã§å°‚é–€ã«ã‚„ã£ã¦ã„ã‚‹ç ”ç©¶è€…ã‚„ç ”ç©¶ãƒãƒ¼ãƒ ã¯æ¥µã‚ã¦å°‘ãªã„ã¨ã„ã†ã®ãŒç¾çŠ¶ã ã¨æ€ã„ã¾ã™ã€‚

æœ€å¾Œã«

ãƒãƒœãƒƒãƒˆã©ã†ã—ãŒå”èª¿ãƒ»å”åŠ›ã™ã‚‹ã“ã¨ã¯ä»Šå¾Œã¾ã™ã¾ã™é‡è¦ã«ãªã£ã¦ãã‚‹ã¨æ€ã„ã¾ã™ã€‚ ã™ã§ã«ã‚¹ãƒžãƒ¼ãƒˆå€‰åº«ãªã©ã§ã¯è¤‡æ•°ã®AGVï¼ˆç„¡äººæ¬é€è»Šï¼‰ãŒå”èª¿ã—ã¦ç‰©ã‚’é‹ã‚“ã§ã„ã¾ã™ã€‚è¡—ä¸ã«ãƒãƒœãƒƒãƒˆãŒåˆ†æ•£ã—ã¦ç‰©æµã‚’æ‹…ã†æ™‚ä»£ãŒã‚„ã£ã¦ãã‚‹æœªæ¥ã‚‚ãã†é ããªã„ã¨æ€ã„ã¾ã™ã€‚ ãƒ‰ãƒãƒ¼ãƒ³ã‚„ãƒˆãƒ©ãƒƒã‚¯, é…é€ãƒãƒœãƒƒãƒˆãŒçµ„ã¿åˆã‚ã•ã£ã¦ãƒžãƒ«ãƒãƒ¢ãƒ¼ãƒ€ãƒ«ãªç‰©æµç¶²ã®å®Ÿç¾ãŒã‚«ã‚®ã«ãªã‚Šã¾ã™ã€‚ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚·ã‚¹ãƒ†ãƒ ã¯å°†æ¥ã®ç‰©æµç¶²ã®è¦ã¨ãªã‚‹æŠ€è¡“ã«ãªã‚‹ã“ã¨ãŒäºˆæƒ³ã•ã‚Œã¾ã™ã€‚ ãã‚Œä»¥å¤–ã«ã‚‚,Â

ãƒãƒ¼ãƒ ã‚¹ãƒãƒ¼ãƒ„ã®æ–°ã—ã„æˆ¦è¡“ã®ç™ºæ˜Ž æˆ¦åœ°ã§ã®ãƒãƒœãƒƒãƒˆï¼ˆãƒ‰ãƒãƒ¼ãƒ³ã€ãƒˆãƒ©ãƒƒã‚¯ã€ãƒãƒœãƒƒãƒˆï¼‰ã®å”èª¿è¡Œå‹• è¤‡æ•°å°ãƒãƒœãƒƒãƒˆã®å·¡å›žãƒ‘ãƒˆãƒãƒ¼ãƒ« ä¼šç¤¾å†…ã§ã®è¤‡æ•°éƒ¨é–€ã®AIã®å”èª¿ï¼ˆä¾‹ãˆã°ã€ç”Ÿç”£è¨ˆç”»AIã¨é…é€è¨ˆç”»AIã®å”èª¿ã«ã‚ˆã‚‹ã‚µãƒ—ãƒ©ã‚¤ãƒã‚§ãƒ¼ãƒ³æœ€é©åŒ–ãªã©ï¼‰

ä»Šå¾Œã“ã®ãƒ–ãƒã‚°ã§ã¯ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆAIã«ã¤ã„ã¦ç™ºä¿¡ã—ç¶šã‘ãŸã„ã¨æ€ã„ã¾ã™ã€‚

æ¬¡å›žã‚‚ãŠæ¥½ã—ã¿ã«ã€‚

ã“ã®ãƒ–ãƒã‚°ã¯æ ªå¼ä¼šç¤¾EfficiNet Xã®ãƒ†ãƒƒã‚¯ãƒ–ãƒã‚°ã§ã™ã€‚

efficinetx.co.jp

EfficiNetXâ€™s Tech Blog

æ ªå¼ä¼šç¤¾EfficiNet Xã®ãƒ†ãƒƒã‚¯ãƒ–ãƒã‚°ã§ã™

NeurIPS2024 ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®å‹•å‘

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆæ·±å±¤å¼·åŒ–å¦ç¿’

è¨“ç·´æ–¹æ³•/æœ€é©åŒ–æ‰‹æ³•ã«ã¤ã„ã¦ã®ææ¡ˆãƒ»æ”¹å–„

æ–°ãƒ¢ãƒ‡ãƒ«ã®ææ¡ˆ

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆÃ—LLM

ãã®ä»–ã®å¿œç”¨ç ”ç©¶

ãƒ©ã‚¤ãƒ–ãƒ©ãƒª/ãƒ™ãƒ³ãƒãƒžãƒ¼ã‚¯

ãƒžãƒ«ãƒã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆAIç‰¹é›†â‘¡ (1/N) Theory of Mind for Multi-Agent Collaboration via LLM