本記事ã¯ã€DeepSeek-R1ã®è«–æ–‡ã¨DeepSeekMathã®è«–文をèªã‚“ã ç§ã®ç†è§£ã‚’ã‚‚ã¨ã«è¨˜è¼‰ã—ã¦ã„ã¾ã™ã€‚ 本論文ã§ä½¿ã‚ã‚Œã¦ã„る技術ã«é–¢ã—ã¦ã¯ã€ã‚る程度ã®çŸ¥è˜ã‚’æŒã£ã¦ã„ã‚‹ã®ã§ã€å¤§ããã¯å¤–ã—ã¦ã„ãªã„ã¨ã¯æ€ã„ã¾ã™ãŒã€ç§ã®ä¸»è¦³ã‚‚å…¥ã£ã¦ã„る部分もã‚ã‚Šã¾ã™ã®ã§ã€ã”了承ãã ã•ã„。 ã¾ãŸã€DeepSeek-R1ã®è«–æ–‡ãŒå…¬é–‹ã•ã‚Œã‚‹å‰ã«ã€å°åž‹ãƒ¢ãƒ‡ãƒ«ã«å¯¾ã—ã¦åŒæ§˜ã®å®Ÿé¨“(強化å¦ç¿’)をã—ã¦ã„ãŸã‚°ãƒ«ãƒ¼ãƒ—ãŒã‚るよã†ã§ã™ã€‚ ãã¡ã‚‰ã®ãƒ¬ãƒãƒ¼ãƒˆã¯ä¸‹è¨˜ã«ãªã‚Šã¾ã™ã€‚ æ„図ã›ãšã€DeepSeek-R1-Zeroã®å†ç¾å®Ÿé¨“ã®ã‚ˆã†ãªãƒ¬ãƒãƒ¼ãƒˆã«ãªã£ã¦ã„ã¾ã™ãŒã€ãƒ¬ãƒãƒ¼ãƒˆã®è‘—者ã¯DeepSeek-R1è«–æ–‡ã®å…¬é–‹å‰ã‹ã‚‰å®Ÿé¨“ã—ã¦ã„ã‚‹ã¨ä¸»å¼µã—ã¦ã„ã¾ã™ã€‚ ã“ã¡ã‚‰ã‚‚éžå¸¸ã«èˆˆå‘³æ·±ã‹ã£ãŸãŸã‚紹介ã§ã™ã€‚ 本論文ã®èˆˆå‘³æ·±ã„ã¨ã“゠本論文ã¯ã€å¤§ãã分ã‘ã¦3ã¤ã®æ§‹æˆã§ã§ãã¦ã„ã¾ã™ 強化å¦ç¿’ã«ã‚ˆã‚‹æ€è€ƒèƒ½åŠ›ã®å¼·åŒ– LLM(DeepSeek-V3-Base)ã«å¯¾

{{#tags}}- {{label}}
{{/tags}}