æœ¬ç¨¿ã§ã¯ Even GPT-5.2 Can't Count to Five: The Case for Zero-Error Horizons in Trustworthy LLMs ã‚’ã‚‚ã¨ã«ã€æœ€å…ˆç«¯ã® LLM ãŒæœªã ã«ã”ãç°¡å˜ãªå•é¡Œã§ã™ã‚‰ãƒŸã‚¹ã™ã‚‹ã“ã¨ã‚’è°è«–ã—ã¾ã™ã€‚

å…·ä½“ä¾‹ã¨ã—ã¦ã¯ã€11000 ã«å«ã¾ã‚Œã‚‹ 1 ã®æ•°ãŒå¶æ•°ã‹å¥‡æ•°ã‹èžãã¨ã€gpt-5.2-2025-12-11 ã¯å¥‡æ•°ã¨ç”ãˆã¾ã™ã€‚ã¾ãŸã€((((()))))) ã®ã‚«ãƒƒã‚³ã®ãƒãƒ©ãƒ³ã‚¹ãŒå–ã‚Œã¦ã„ã‚‹ã‹èžãã¨ã€å–ã‚Œã¦ã„ã‚‹ã¨ç”ãˆã¾ã™ã€‚127Ã—82 ã‚’è¨ˆç®—ã•ã›ã‚‹ã¨ã€10314 ã¨ç”ãˆã¾ã™ï¼ˆæ£è§£ã¯ 10414ï¼‰ã€‚ã“ã®ã“ã¨ã¯ä»¥ä¸‹ã®ã‚³ãƒžãƒ³ãƒ‰ã§ç¢ºèªã§ãã¾ã™ã€‚

$ curl -s https://api.openai.com/v1/responses \
 -H "Authorization: Bearer $OPENAI_API_KEY" \
 -H "Content-Type: application/json" \
 -d '{
 "model": "gpt-5.2-2025-12-11",
 "instructions": "Compute the parity (XOR) of the binary string. Answer with only 0 or 1.",
 "input": "11000",
 "temperature": 0
 }' \
 | jq -r '.output[0].content[0].text'
1

$ curl -s https://api.openai.com/v1/responses \
 -H "Authorization: Bearer $OPENAI_API_KEY" \
 -H "Content-Type: application/json" \
 -d '{
 "model": "gpt-5.2-2025-12-11",
 "instructions": "Is the parentheses string balanced? Answer with only Yes or No.",
 "input": "((((())))))",
 "temperature": 0
 }' \
 | jq -r '.output[0].content[0].text'
Yes

$ curl -s https://api.openai.com/v1/responses \
 -H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
 -d '{
 "model": "gpt-5.2-2025-12-11",
 "instructions": "Answer with only the integer.",
 "input": "127*82=",
 "temperature": 0
 }' \
 | jq -r '.output[0].content[0].text'
10314

ã“ã‚Œã‚‰ã¯ API ã‚ãƒ¼ $OPENAI_API_KEY ã•ãˆè¨å®šã™ã‚Œã°ã‚³ãƒ”ãƒšã§èª°ã§ã‚‚è©¦ã›ã‚‹ã®ã§ãœã²è©¦ã—ã¦ã¿ã¦ãã ã•ã„ãã€‚

GPT-5.2 ã¯æµä½“åŠ›å¦ã®è¤‡é›‘ãªã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ã‚’è¡Œã„ã€ã‚¢ã‚»ãƒ³ãƒ–ãƒªè¨€èªžã®ãƒ‹ãƒƒãƒãªæœ€é©åŒ–ãƒ†ã‚¯ãƒ‹ãƒƒã‚¯ã‚’é§†ä½¿ã—ã¦ä½Žãƒ¬ã‚¤ãƒ¤ãƒ¼ãƒ—ãƒã‚°ãƒ©ãƒŸãƒ³ã‚°ã‚’ã“ãªã™ã“ã¨ãŒã§ãã¾ã™ã€‚ã‚‚ã¯ã‚„äººé–“ã®èƒ½åŠ›ã‚’ä¸Šå›žã£ãŸã‹ã«è¦‹ãˆã¾ã™ãŒã€æœªã ã«äººé–“ã‹ã‚‰ã™ã‚‹ã¨è€ƒãˆã‚‰ã‚Œãªã„ã‚ˆã†ãªæ„šã‹ãªãƒŸã‚¹ã‚’çŠ¯ã™ã“ã¨ãŒã‚ã‚Šã¾ã™ã€‚ã“ã®ã‚ˆã†ãªèƒ½åŠ›ã®ã¡ãã¯ãã•ãŒä¿¡é ¼æ€§ã®é«˜ã„é ˜åŸŸã« LLM ã‚’å±•é–‹ã™ã‚‹ã¨ãã®èª²é¡Œã«ãªã£ã¦ã„ã¾ã™ï¼ˆãã—ã¦ã“ã®ã¡ãã¯ãã•ã®ãŠã‹ã’ã§äººé–“ã¯ã¾ã LLM ã«å®Œå…¨ã«ä»•äº‹ã‚’å¥ªã‚ã‚Œã¦ã„ã¾ã›ã‚“ã€‚ï¼‰å¤§è¦æ¨¡ãªé‡‘èžå–å¼•ã‚’ã™ã‚‹ AI ãŒã€é«˜åº¦ãªé‡‘èžç†è«–ã‚’é§†ä½¿ã—ãŸã‚ã¨ã§ã€127Ã—82 ã‚’è¨ˆç®—ãƒŸã‚¹ã—ã¦å¤§æã‚’è¢«ã£ãŸã‚‰ã©ã†ã§ã—ã‚‡ã†ã‹ã€‚åŽŸåç‚‰ã‚’å¸ã‚‹ AI ãŒçŠ¶æ…‹ãƒ•ãƒ©ã‚° 11000 ã« 1 ãŒå¥‡æ•°å€‹ç«‹ã£ã¦ã„ã‚‹ã¨è€ƒãˆã¦å‹•ä½œä¸ã®åŽŸåç‚‰ã®æ‰‰ã‚’é–‹ã„ã¦ã—ã¾ã£ãŸã‚‰ã©ã†ã§ã—ã‚‡ã†ã‹ã€‚ç›®ã‚‚å½“ã¦ã‚‰ã‚Œã¾ã›ã‚“ã€‚

ã“ã®è«–æ–‡ã§ã¯ã€ã“ã®èƒ½åŠ›ã®ã€Œç©´ã€ã‚’è©•ä¾¡ã™ã‚‹ãŸã‚ã«ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œ (Zero-Error Horizon; ZEH) ã¨ã„ã†æŒ‡æ¨™ã‚’ææ¡ˆã—ã¦ã„ã¾ã™ã€‚

ãƒ¢ãƒ‡ãƒ«ã€ã‚¿ã‚¹ã‚¯ã€ãƒ—ãƒãƒ³ãƒ—ãƒˆã€ä¹±æ•°ã‚’å›ºå®šã—ã¾ã™ã€‚ä¾‹ãˆã°ãƒ¢ãƒ‡ãƒ«ã¯ gpt-5.2-2025-12-11 ã€ã‚¿ã‚¹ã‚¯ã¯æŽ›ã‘ç®—ã€ãƒ—ãƒãƒ³ãƒ—ãƒˆã¯ {"instructions": "Answer with only the integer.", "input": "{a}*{b}="} ã§ã™ã€‚å•é¡Œã‚µã‚¤ã‚ºã®å°ã•ã„é †ã«ã™ã¹ã¦ã®å•é¡Œä¾‹ã‚’å…¥åŠ›ã—ãŸã¨ãã€ã‚µã‚¤ã‚º n ã¾ã§ã¯å…¨ã¦æ£è§£ã™ã‚‹ãŒã€ã‚µã‚¤ã‚º n + 1 ã§å¤±æ•—ã™ã‚‹å•é¡ŒãŒã‚ã‚‹ã¨ãã€ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¯ n ã§ã‚ã‚‹ã¨ã—ã¾ã™ã€‚é–“é•ãˆãŸã‚µã‚¤ã‚º n + 1 ã®å•é¡Œä¾‹ã‚’ãƒªãƒŸãƒƒã‚¿ãƒ¼ (ZEH limiter) ã¨å‘¼ã³ã¾ã™ã€‚ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¨ãƒªãƒŸãƒƒã‚¿ãƒ¼ã¯åŸºæœ¬çš„ã«ã¯å…¨æŽ¢ç´¢ã§æ±‚ã‚ã¾ã™ï¼ˆè«–æ–‡ã§ã¯å°‘ã—é«˜é€ŸåŒ–ã™ã‚‹æ–¹æ³•ã«ã¤ã„ã¦ã‚‚è¿°ã¹ã¦ã„ã¾ã™ï¼‰ã€‚

ä¾‹ãˆã°ã€å•é¡Œã‚µã‚¤ã‚ºã‚’ a ã¨ b ã®å¤§ãã„æ–¹ã®å€¤ã¨ã™ã‚‹ã¨ã€gpt-5.2-2025-12-11 ã¯ 126 ã¾ã§ã®æŽ›ã‘ç®—ï¼ˆè¨ˆ 126Ã—126 = 15876å•ï¼‰ ã«ã¯å…¨ã¦æ£è§£ã—ã¾ã™ãŒã€127Ã—82 ã§é–“é•ãˆã‚‹ã®ã§ã€ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¯ 126ã€ãƒªãƒŸãƒƒã‚¿ãƒ¼ã¯ 127Ã—82 ã§ã™ã€‚

å•é¡Œã‚µã‚¤ã‚ºã‚’æ–‡å—åˆ—é•·ã¨ã™ã‚‹ã¨ã€gpt-5.2-2025-12-11 ã¯ 4 æ–‡å—ã¾ã§ã® 01 æ–‡å—åˆ—ï¼ˆè¨ˆ 2⁴ = 16 å•ï¼‰ã«ã¤ã„ã¦ã¯ 1 ã®æ•°ã®å¶å¥‡ã«å…¨ã¦æ£è§£ã—ã¾ã™ãŒã€11000 ã§é–“é•ãˆã‚‹ã®ã§ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¯ 4ã€ãƒªãƒŸãƒƒã‚¿ãƒ¼ã¯ 11000 ã§ã™ã€‚

ã¾ãŸã€gpt-5.2-2025-12-11 ã¯ 10 æ–‡å—ã¾ã§ã®ã‚«ãƒƒã‚³åˆ—ï¼ˆè¨ˆ 2¹⁰ = 1024å•ï¼‰ã«ã¤ã„ã¦ãƒãƒ©ãƒ³ã‚¹ãŒå–ã‚Œã¦ã„ã‚‹ã‹ã‚’å…¨å•æ£è§£ã—ã¾ã™ãŒã€((((()))))) ã§é–“é•ãˆã‚‹ã®ã§ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¯ 10ã€ãƒªãƒŸãƒƒã‚¿ãƒ¼ã¯ ((((()))))) ã§ã™ã€‚

ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã§ã¯ãƒ—ãƒãƒ³ãƒ—ãƒˆï¼ˆæ–‡è„ˆï¼‰ã¨ä¹±æ•°ã¯å›ºå®šã—ã¦ã„ã‚‹ã“ã¨ã«æ³¨æ„ã—ã¦ãã ã•ã„ã€‚ãƒ—ãƒãƒ³ãƒ—ãƒˆã‚„ä¹±æ•°ã‚’å¤‰ãˆã‚‹ã¨æ£è§£ã™ã‚‹ã“ã¨ã‚‚ã‚ã‚‹ã§ã—ã‚‡ã†ã€‚ã‚¦ã‚§ãƒ–ä¸Šã® ChatGPT ã¯ã€API çµŒç”±ã®å ´åˆã¨ã¯ä¹±æ•°ã‚„ãƒ—ãƒãƒ³ãƒ—ãƒˆãŒé•ã„ã¾ã™ã‹ã‚‰ã€11000 ã«ã¤ã„ã¦æ£è§£ã™ã‚‹ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚ã—ã‹ã—ã€ãƒ—ãƒãƒ³ãƒ—ãƒˆã‚„ä¹±æ•°æ¬¡ç¬¬ã§ç°¡å˜ãªå•é¡Œã§ã‚‚é–“é•ã„ã†ã‚‹ã¨ã„ã†ã“ã¨ãŒé‡è¦ã§ã™ã€‚ãƒã‚¤ãƒªã‚¹ã‚¯ãªé ˜åŸŸã§ã¯ã€100 å›žã« 1 å›žã§ã‚‚é–“é•ãˆã¦ã—ã¾ã†ã®ã§ã¯å¤§å•é¡Œã§ã™ã€‚ã¾ãŸã€ãƒªãƒŸãƒƒã‚¿ãƒ¼ã®ä¸ã«ã¯ãƒ—ãƒãƒ³ãƒ—ãƒˆã‚„ä¹±æ•°ã®å¤‰åŒ–ã«å¯¾ã—ã¦æ¯”è¼ƒçš„é ‘å¥ãªã‚‚ã®ã‚‚å˜åœ¨ã—ã¾ã™ã€‚((((()))))) ãŒãã®ä¾‹ã§ã™ã€‚((((()))))) ã¯ãƒãƒ©ãƒ³ã‚¹ã—ã¦ã„ã‚‹ï¼Ÿ ã¨ã‚¦ã‚§ãƒ–ã® ChatGPT ã«èžãã¨ãã‚Œãªã‚Šã®ç¢ºçŽ‡ï¼ˆ50% ãã‚‰ã„ã§ã—ã‚‡ã†ã‹ï¼‰ã§ãƒãƒ©ãƒ³ã‚¹ã—ã¦ã„ã‚‹ã¨ç”ãˆã‚‹ã“ã¨ãŒã‚ã‹ã‚Šã¾ã—ãŸã€‚GPT-5.2-Thinking ã®ã‚ˆã†ã«æ€è€ƒã®é€£éŽ– (Chain-of-Thought) ã‚’è¨±å¯ã—ã¦ã‚‚ãƒŸã‚¹ã—ã¾ã™ã€‚GPT-5.2 ã¯æœ¬è³ªçš„ã«ã“ã®å•é¡ŒãŒè‹¦æ‰‹ãªã‚ˆã†ã§ã™ã€‚ãœã²è‰²ã‚“ãªãƒ¢ãƒ‡ãƒ«ã‚„ãƒ—ãƒãƒ³ãƒ—ãƒˆã§è©¦ã—ã¦ã¿ã¦ãã ã•ã„ãã€‚

GPT-5.2-Thinking ã§ã‚‚ã‚«ãƒƒã‚³ã®æ•°ãŒæ•°ãˆã‚‰ã‚Œãªã„

ã‚ã–ã‚ã–æŽ›ã‘ç®—ã‚„ã‚«ãƒƒã‚³ã®å¯¾å¿œã‚’ LLM ã«è§£ã‹ã›ãªã„ã ã‚ã†ã¨æ€ã†æ–¹ã‚‚ã„ã‚‹ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ãŒã€ã“ã®ã‚ˆã†ãªåŸºæœ¬çš„ãªå•é¡Œã¯è¤‡é›‘ãªå•é¡Œã®ã‚µãƒ–ã‚¿ã‚¹ã‚¯ã¨ã—ã¦ç™»å ´ã™ã‚‹ã“ã¨ãŒã‚ã‚Šã¾ã™ã€‚è¤‡é›‘ãªæ•°å¦ã®å•é¡Œã‚’æ€è€ƒã®é€£éŽ–ã§è§£ãã¨ãã€é€”ä¸å¼ã§æŽ›ã‘ç®—ãŒå‡ºã¦ãã‚‹ã“ã¨ãŒã‚ã‚Šã¾ã™ã€‚ã“ã“ã§ãƒŸã‚¹ã‚’ã™ã‚‹ã¨ãã®ãƒŸã‚¹ãŒä¼æ’ã—ã¦æœ€çµ‚çµè«–ãŒé–“é•ã†ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚é›»å“ã‚„ Python ãƒ—ãƒã‚°ãƒ©ãƒ ã‚’å‘¼ã³å‡ºã›ã°ã‚ˆã„ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ãŒã€ã“ã®ã‚ˆã†ãªå˜ç´”ãªã‚µãƒ–ã‚¿ã‚¹ã‚¯ã§ã™ã‚‰æ¯Žå›žãƒ„ãƒ¼ãƒ«ã‚’å‘¼ã³å‡ºã™ã®ã¯å¤§å¤‰ã§ã™ã—ã€ãƒ„ãƒ¼ãƒ«å‘¼ã³å‡ºã—ã‚’ã™ã‚‹ã¹ãã‹ã®åˆ¤æ–ã‚’ãƒŸã‚¹ã™ã‚‹ã“ã¨ã‚‚ã‚ã‚Šã¾ã™ã€‚å®Ÿéš›ã€GPT-5.2-Thinking ã¯ãƒ„ãƒ¼ãƒ«å‘¼ã³å‡ºã—ã‚’è¨±å¯ã•ã‚Œã¦ã„ã‚‹ã«ã‚‚ã‹ã‹ã‚ã‚‰ãšã€å‘¼ã³å‡ºã•ãšã« ((((()))))) ã®ã‚«ãƒƒã‚³ã‚’è‡ªåˆ†ã§æ•°ãˆã¦ãƒŸã‚¹ã—ã¦ã—ã¾ã£ã¦ã„ã¾ã™ã€‚

ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¯ã€ã“ã®ã‚ˆã†ãª LLM ã®èƒ½åŠ›ã®ã¡ãã¯ãã•ã‚„ã€Œç©´ã€ã‚’åŠ¹æžœçš„ã«åˆ¤å®šã§ãã¾ã™ã€‚ã¾ãŸã€æ¬¡ã®ã‚ˆã†ãªæ•°å¤šãã®ãƒ¡ãƒªãƒƒãƒˆãŒã‚ã‚Šã¾ã™ã€‚

ãƒªãƒŸãƒƒã‚¿ãƒ¼ãŒç¢ºå›ºã¨ã—ãŸè¨¼æ‹ ã«ãªã‚‹

ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•ŒãŒ n ä»¥ä¸‹ã§ã‚ã‚‹ã“ã¨ã¯ä¸Šã«æŽ²è¼‰ã—ãŸã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã™ã‚Œã°èª°ã§ã‚‚ä¸€ç™ºã§æ¤œè¨¼ã§ãã¾ã™ã€‚å®Ÿéš›ã«ã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã—ã¦å‡ºåŠ›ã‚’è¦‹ã‚Œã° GPT-5.2 ãŒã“ã‚Œã‚‰ã®å•é¡Œã§ãƒŸã‚¹ã™ã‚‹ã“ã¨ã¯ç«ã‚’è¦‹ã‚‹ã‚ˆã‚Šã‚‚æ˜Žã‚‰ã‹ã§ã‚ã‚Šã€èª°ã§ã‚ã‚Œãƒãƒƒã‚ãƒªç´å¾—ã•ã›ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚ã“ã‚Œã¯æ•°å¦çš„ã«ã‚‚ã‚³ãƒŸãƒ¥ãƒ‹ã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã®ä¸Šã§ã‚‚å¥½ã¾ã—ã„ã§ã™ã€‚

è‡ªå‹•çš„ã«é©šãã®ã‚ã‚‹çµæžœãŒå¾—ã‚‰ã‚Œã‚‹

GPT-5.2 ãŒ 11000 ã® 1 ã®æ•°ã‚’ã‚«ã‚¦ãƒ³ãƒˆã§ããªã„ã€((((()))))) ãŒãƒãƒ©ãƒ³ã‚¹ã—ã¦ã„ã‚‹ã‹åˆ†ã‹ã‚‰ãªã„ã€ã¨ã„ã†çµæžœã¯é©šãã§ã‚ã‚Šç¤ºå”†ã«å¯Œã¿ã¾ã™ã€‚ã“ã‚Œã‚‰ã®ãƒªãƒŸãƒƒã‚¿ãƒ¼ã¯ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã‚’è©•ä¾¡ã™ã‚‹ã¨è‡ªå‹•çš„ã«å‰¯ç”£ç‰©ã¨ã—ã¦å¾—ã‚‰ã‚Œã¾ã™ã€‚((((()))))) ã¯ã€Œãã‚Œã£ã½ã„ã€ä¾‹ã§ã™ãŒã€è©¦è¡ŒéŒ¯èª¤ã§æŽ¢ã—ãŸã‚ã‘ã§ã¯ãªãã€æœ€ã‚‚å°ã•ã„é–“é•ã„ã‚’è‡ªå‹•ã§è©•ä¾¡ã—ãŸçµæžœç™ºè¦‹ã—ã¾ã—ãŸã€‚ã“ã‚Œã‚‰ã¯ GPT-5.2 ãŒé–“é•ãˆã‚‹å•é¡Œã®ä¸ã§æœ€ã‚‚å°ã•ã„ç°¡å˜ãªä¾‹ãªã®ã§ã€ãã‚“ãªã«ç°¡å˜ãªä¾‹ã§ã‚‚é–“é•ãˆã‚‹ã¨ã„ã†ç‚¹ã§æœ€å¤§ç´šã®æ´žå¯Ÿã¨é©šããŒå¾—ã‚‰ã‚Œã¾ã™ã€‚

ã“ã®ã“ã¨ã¯æ•µå¯¾çš„ä¾‹ (adversarial example) ã¨ä¼¼ã¦ã„ã¾ã™ãŒã€å®Ÿéš›ä¸Šã®æ„ç¾©ã¯ç•°ãªã‚Šã¾ã™ã€‚ æ•µå¯¾çš„ä¾‹ã¯ä¸è‡ªç„¶ã§ã€åˆ†å¸ƒå¤–ã®ä¾‹ãªã®ã§ãƒ¢ãƒ‡ãƒ«ãŒé–“é•ã†ã®ã¯ã‚ã‚‹æ„å‘³å½“ç„¶ã§ã™ï¼ˆã‚€ã—ã‚é–“é•ã†æ–¹ãŒæ£ã—ã„ã¨ã‚‚è¨€ãˆã¾ã™ã€‚è©³ã—ãã¯ 人間には認知できない情報を活用するAIたち - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ ã‚’èªã‚“ã§ã¿ã¦ãã ã•ã„ãï¼‰ã€‚ä¸€æ–¹ã€ãƒªãƒŸãƒƒã‚¿ãƒ¼ã¯è‡ªç„¶ã§ã€æ™®é€šã«èµ·ã“ã‚Šã†ã‚‹ä¾‹ã§ã‚ã‚‹ã«ã‚‚ã‹ã‹ã‚ã‚‰ãšã€ãã—ã¦ã“ã“ã¾ã§å°ã•ãªç°¡å˜ãªä¾‹ã§ã‚ã‚‹ã«ã‚‚ã‹ã‹ã‚ã‚‰ãšãƒ¢ãƒ‡ãƒ«ãŒãƒŸã‚¹ã‚’ã™ã‚‹ã¨ã„ã†ç‚¹ã§ã€å®Ÿéš›ä¸Šã®æ„ç¾©ã¨é©šããŒã‚ã‚Šã¾ã™ã€‚

æ£è§£çŽ‡ã«ã¯ã‚¹ã‚±ãƒ¼ãƒ«ã®æ£æ„æ€§ãŒã‚ã‚‹ãŒã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã«ã¯ãªã„

æ£è§£çŽ‡ (accuracy) ã¯æœ€ã‚‚ã‚ˆãä½¿ã‚ã‚Œã‚‹è©•ä¾¡æŒ‡æ¨™ã§ã™ãŒã€æ£è§£çŽ‡ã‚’è©•ä¾¡ã™ã‚‹ãŸã‚ã«å•é¡Œã®ç¯„å›²ã‚’äººé–“ã®è©•ä¾¡è€…ãŒã‚ã‚‰ã‹ã˜ã‚å®šã‚ãªãã¦ã¯ãªã‚Šã¾ã›ã‚“ã€‚ä¾‹ãˆã°æŽ›ã‘ç®—ã®æ£è§£çŽ‡ã‚’æ±‚ã‚ã‚‹ã¨ãã€1Ã—1 ã‹ã‚‰ 99Ã—99 ã®å•é¡Œã®ç¯„å›²ã®æ£è§£çŽ‡ã‚’è©•ä¾¡ã™ã‚‹ã€ãªã©ã¨å®šã‚ã¾ã™ã€‚ã—ã‹ã—ã€ã“ã®ç¯„å›²ã®è¨å®šãŒã€å…ˆå…¥è¦³ã«å·¦å³ã•ã‚Œã‚‹ã“ã¨ãŒã‚ã‚Šã€ã¾ãŸè©•ä¾¡è€…ãŒè‡ªèº«ã®æ‰‹æ³•ã‚’è‰¯ãè¦‹ã›ã‚‹ãŸã‚ã®æ“ä½œã®å¯¾è±¡ã«ãªã‚‹ã“ã¨ã‚‚ã‚ã‚Šã¾ã™ã€‚ä»¥ä¸‹ã®å›³ã¯ Qwen2.5-7B-Instruct ã¨ Qwen2.5-72B-Instruct ã®æŽ›ã‘ç®—ã®è©•ä¾¡çµæžœã§ã™ã€‚

ç°è‰²ã¯æ£è§£ã‚’ã€èµ¤ã®ç‚¹ã¯ãƒŸã‚¹ã‚’è¡¨ã™

72B ãƒ¢ãƒ‡ãƒ«ã‚’ 7B ãƒ¢ãƒ‡ãƒ«ã«åœ§ç¸®ã™ã‚‹ã“ã¨ã‚’ææ¡ˆã™ã‚‹äººã¯ã€å·¦ã®å›³ã‚„çœŸã‚“ä¸ã®å›³ã‚’è¦‹ã›ã¦ã€ã€Œ72B ãƒ¢ãƒ‡ãƒ«ã‚’ 7B ãƒ¢ãƒ‡ãƒ«ã« 10 å€ä»¥ä¸Šåœ§ç¸®ã—ã¦ã‚‚ç²¾åº¦ã¯ã»ã¨ã‚“ã©è½ã¡ãªã‹ã£ãŸã€ã¨ä¸»å¼µã™ã‚‹ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ã€‚ã“ã‚Œã«é¨™ã•ã‚Œã‚‹èªè€…ã‚‚ã„ã‚‹ã§ã—ã‚‡ã†ã€‚ã—ã‹ã—ã€å³ã®å›³ã®ã‚ˆã†ã«åˆ¥ã®ãƒ¬ãƒ³ã‚¸ã§è©•ä¾¡ã™ã‚‹ã¨ã€å…¨ãåˆ¥ã®å‚¾å‘ã«ãªã‚Šã¾ã™ã€‚ã“ã®ã‚ˆã†ã«ã€å•é¡Œã®ç¯„å›²æ¬¡ç¬¬ã§çµæžœã¯å¤§ããå¤‰åŒ–ã—ã¾ã™ãŒã€è©•ä¾¡è€…ã®å…ˆå…¥è¦³ã‚„æ£æ„ã§ç¯„å›²ã‚’æ±ºå®šã™ã‚‹ãŸã‚ã«ã€è©•ä¾¡ã«ãƒã‚¤ã‚¢ã‚¹ãŒå…¥ã‚Šè¾¼ã‚€ã“ã¨ãŒã‚ã‚Šã¾ã™ã€‚

ä¸€æ–¹ã€ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¯ãƒ¢ãƒ‡ãƒ«è‡ªèº«ãŒå®šã‚ã¾ã™ã€‚äººé–“ãŒæ£æ„çš„ã«è©•ä¾¡ç¯„å›²ã‚’æ±ºã‚ã‚‹ä½™åœ°ã¯ã‚ã‚Šã¾ã›ã‚“ã€‚ã“ã®ãŸã‚ã€22 vs 42 ã¨ã„ã†ã‚ˆã†ã«ã€ç¯„å›²ã®è¨å®šã«å·¦å³ã•ã‚Œãªã„å®¢è¦³çš„ãªå€¤ãŒå¾—ã‚‰ã‚Œã¾ã™ã€‚

å•é¡Œã®ç¯„å›² = é›£åº¦ã‚’ã‚ã‚‰ã‹ã˜ã‚å›ºå®šã›ãšã«ãƒ¢ãƒ‡ãƒ«è‡ªä½“ã«æ±ºå®šã•ã›ã‚‹ã¨ã„ã†ã®ãŒã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã®å¤§ããªç‰¹å¾´ã§ã™ã€‚

æŒ‡æ¨™ã¨ã—ã¦æ™‚ä»£é…ã‚Œã«ãªã‚Šã¥ã‚‰ã„

ç¯„å›²ã‚’ã‚ã‚‰ã‹ã˜ã‚å›ºå®šã™ã‚‹ãƒ™ãƒ³ãƒãƒžãƒ¼ã‚¯ã¯æ™‚ä»£é…ã‚Œã«ãªã‚Šã¾ã™ã€‚1Ã—1 ã‹ã‚‰ 50Ã—50 ã¾ã§ã® 2500 å•ã‹ã‚‰ãªã‚‹ãƒ™ãƒ³ãƒãƒžãƒ¼ã‚¯ã¯ 7B ã‚„ 72B ãƒ¢ãƒ‡ãƒ«ã®èƒ½åŠ›ã‚’ã»ã¨ã‚“ã©è¦‹åˆ†ã‘ã‚‰ã‚Œã¾ã›ã‚“ã€‚99Ã—99 ã®ãƒ™ãƒ³ãƒãƒžãƒ¼ã‚¯ã¯è¦‹åˆ†ã‘ã‚‰ã‚Œã¦ã„ã¾ã™ãŒã€ã„ãšã‚Œé£½å’Œã™ã‚‹ã§ã—ã‚‡ã†ã€‚MNIST ã‚‚ CIFAR-10 ã‚‚ GLUE ã‚‚ã€åŒã˜é‹å‘½ã‚’è¾¿ã£ã¦ãã¾ã—ãŸã€‚

ä¸€æ–¹ã€ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¯é›£åº¦ã‚’ã‚ã‚‰ã‹ã˜ã‚å›ºå®šã›ãšã€ãƒ¢ãƒ‡ãƒ«ã®èƒ½åŠ›ã«ã‚ã‚ã›ã¦ã‚ªãƒ¼ãƒ—ãƒ³ã‚¨ãƒ³ãƒ‰ã«é›£åº¦ãŒè¨å®šã•ã‚Œã‚‹ã®ã§ã€æ™‚ä»£é…ã‚Œã«ãªã‚Šã¥ã‚‰ã„ã§ã™ã€‚

æ§‹é€ çš„ãªã‚¨ãƒ©ãƒ¼ãƒ‘ã‚¿ãƒ¼ãƒ³ã‚’å„ªé‡ã§ãã‚‹

æ£è§£æ•°ãŒåŒã˜ãƒ¢ãƒ‡ãƒ«ã§ã‚‚ã€é–“é•ã„æ–¹ã®ãƒ‘ã‚¿ãƒ¼ãƒ³ã¯æ§˜ã€…ã§ã™ã€‚ä»¥ä¸‹ã¯ã©ã¡ã‚‰ã‚‚æ£è§£çŽ‡ãŒ 90% ã®ãƒ‘ã‚¿ãƒ¼ãƒ³ã§ã™ãŒã€æ§‹é€ ãŒå…¨ãé•ã„ã¾ã™ã€‚

ç°è‰²ã¯æ£è§£ã‚’ã€èµ¤ã®ç‚¹ã¯ãƒŸã‚¹ã‚’è¡¨ã™ã€‚ã©ã¡ã‚‰ã‚‚æ£è§£çŽ‡ã¯ 90% ã ãŒã€ãƒ©ãƒ³ãƒ€ãƒ ã«é–“é•ã†å·¦ã®ãƒ‘ã‚¿ãƒ¼ãƒ³ã®ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¯ 4 ã§ã‚ã‚Šã€ç°¡å˜ãªå•é¡Œã‚’ç¢ºå®Ÿã«è§£ãå³ã®ãƒ‘ã‚¿ãƒ¼ãƒ³ã®ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¯ 97 ã§ã‚ã‚‹ã€‚

å·¦ã®ã‚ˆã†ãªãƒ©ãƒ³ãƒ€ãƒ ãªãƒ‘ã‚¿ãƒ¼ãƒ³ã«ã¯ã€Œç©´ã€ãŒå¤šãã€ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¯ä¼¸ã³ã¾ã›ã‚“ã€‚å³ã®ã‚ˆã†ã«ç°¡å˜ãªå•é¡Œã‚’ç¢ºå®Ÿã«æ£è§£ã—ã€ã‚µã‚¤ã‚ºãŒå¤§ããªé›£ã—ã„å•é¡Œã‚’ã€Œé †å½“ã«ã€é–“é•ãˆã‚‹ãƒ¢ãƒ‡ãƒ«ã¯ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•ŒãŒå¤§ãããªã‚Šã¾ã™ã€‚åŒã˜æ£è§£çŽ‡ã§ã‚‚ã€å³ã®ã‚ˆã†ãªé–“é•ãˆæ–¹ã‚’ã™ã‚‹æ–¹ãŒæ‰±ã„ã‚„ã™ãå¥½ã¾ã—ã„ã§ã™ã€‚æ£è§£çŽ‡ã§ã¯ã“ã®åŒºåˆ¥ã¯ã¤ãã¾ã›ã‚“ãŒã€ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã§ã¯åŒºåˆ¥ãŒã¤ãã¾ã™ã€‚

ä¾‹ãˆã° Qwen2.5-72B-Instruct ã® 1Ã—1 ~ 99Ã—99 ã®æ£è§£çŽ‡ã¯ 98.6% ã§ã™ã€‚ã‚‚ã—å®Œå…¨ã«ãƒ©ãƒ³ãƒ€ãƒ ã«ãƒŸã‚¹ã—ã¦ã„ã‚‹ã¨ã€ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¯ 10 æœªæº€ã«ãªã‚‹ã¯ãšã§ã™ã€‚1Ã—1 ã‹ã‚‰ 10Ã—10 ã¾ã§ã«ã¯ 100 å•ã‚ã‚‹ã®ã§ã€é–“é•ãˆã‚‹ç¢ºçŽ‡ãŒ 1.4% ã ã¨ã“ã®ç¯„å›²ã§ 1.4 å•ç¨‹åº¦é–“é•ã†ã‹ã‚‰ã§ã™ã€‚ã—ã‹ã—ã€Qwen2.5-72B-Instruct ã®ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã®å®Ÿæ¸¬å€¤ã¯ 42 ã§ã™ã€‚ã¤ã¾ã‚Šã€Qwen2.5-72B-Instruct ã¯ç°¡å˜ãªå•é¡Œã¯ç¢ºå®Ÿã«è§£ãã€é›£ã—ã„å•é¡Œã‚’ã‚ã‚‹ç¨‹åº¦ã€Œé †å½“ã«ã€é–“é•ãˆã¦ã„ã‚‹ã¨ã„ã†ã“ã¨ãŒåˆ†ã‹ã‚Šã¾ã™ã€‚ã“ã‚Œã¯æ£è§£çŽ‡ã¯ 98.6% ã®ä¸ã§ã‚‚ã€Qwen2.5-72B-Instruct ã¯å®Ÿç”¨ä¸Šæ‰±ã„ã‚„ã™ã„é–“é•ã„æ–¹ã‚’ã™ã‚‹ã“ã¨ã‚’ç¤ºã—ã¦ã„ã¾ã™ã€‚

LLMのキモい算術 - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ ã‚„ LLM のアテンションと外挿 - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ ã§ç´¹ä»‹ã—ãŸã‚ˆã†ã«ã€LLM ã¯æ§˜ã€…ãªæ–¹æ³•ã§æŽ¨è«–å•é¡Œã‚’è§£ã„ã¦ã„ã‚‹ã“ã¨ãŒçŸ¥ã‚‰ã‚Œã¦ã„ã¾ã™ã€‚

æš—è¨˜ã‚„å …ç‰¢ã§ãªã„æ–¹æ³•ã§å•é¡Œã‚’è§£ã„ã¦ã„ã‚‹ã¨ã€Œç©´ã€ã¯å¤šããªã‚Šã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¯å°ã•ããªã‚‹ã§ã—ã‚‡ã†ã€‚ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã‚’å¤§ããã™ã‚‹ã«ã¯ã€å …ç‰¢ãªã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚„ãƒ«ãƒ¼ãƒ«ã‚’èº«ã«ã¤ã‘ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã‚’è©•ä¾¡æŒ‡æ¨™ã¨ã—ã¦ç”¨ã„ã‚‹ã“ã¨ã§ã€åŒã˜æ£è§£çŽ‡ã®ä¸ã§ã‚‚ã“ã®ã‚ˆã†ãªå …ç‰¢ãªã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã®ç²å¾—ã‚’ä¿ƒé€²ã§ãã‚‹ã¨è€ƒãˆã‚‰ã‚Œã¾ã™ã€‚

ã“ã®ã‚ˆã†ã«ã€ã‚¼ãƒã‚¨ãƒ©ãƒ¼å¢ƒç•Œã¯è©•ä¾¡æŒ‡æ¨™ã¨ã—ã¦æ£è§£çŽ‡ã«ã¯ãªã„å¥½ã¾ã—ã„æ€§è³ªã‚’è¤‡æ•°ã‚‚ã¡ã€LLM ã®ä¿¡é ¼æ€§ã‚„ä¸å®‰å®šæ€§ã‚’è©•ä¾¡ã™ã‚‹ä¸Šã§ä¾¿åˆ©ã§ã™ã€‚ãœã²ã€è‡ªç¤¾ã®ãƒ¢ãƒ‡ãƒ«ã®è©•ä¾¡ã‚’ã—ãŸã‚Šã€è‡ªåˆ†ã§ä½¿ã†ãƒ¢ãƒ‡ãƒ«ã®é¸å®šã«æ´»ç”¨ã—ã¦ã¿ã¦ãã ã•ã„ãã€‚

ãŠã‚ã‚Šã«

SNS ã‚’çœºã‚ã¦ã„ã‚‹ã¨ã€ŒLLM ãŒã“ã‚“ãªã«ã™ã”ã„å•é¡Œã‚’è§£ã‘ã‚‹ã‚ˆã†ã«ãªã£ãŸï¼ã€ã¨ã„ã†ãƒ‹ãƒ¥ãƒ¼ã‚¹ã¨ã€Œ LLM ã¯ã¾ã ã“ã‚“ãªã«æ„šã‹ãªé–“é•ã„ã‚’ã™ã‚‹ï¼ã€ã¨ã„ã†ãƒ‹ãƒ¥ãƒ¼ã‚¹ã§ã‚ãµã‚Œã¦ã„ã¾ã™ã€‚ã“ã®ã‚ˆã†ãªèƒ½åŠ›ã®ã‚®ãƒ£ãƒƒãƒ—ãŒéžå¸¸ã«å¤§ãã„ã“ã¨ãŒ LLM ã®æ‰±ã„ã¥ã‚‰ã•ã®è¦å› ã ã¨æ€ã„ã¾ã™ã€‚

ã“ã®ç ”ç©¶ã§ã¯ã“ã®ã†ã¡ã€Œ LLM ã¯ã¾ã ã“ã‚“ãªã«æ„šã‹ãªé–“é•ã„ã‚’ã™ã‚‹ï¼ã€ã®æ–¹å‘ã®ä¸»å¼µã‚’ã‚·ã‚¹ãƒ†ãƒžãƒãƒƒã‚¯ã«è¡Œã†æ–¹æ³•ã‚’æ•´ç†ã§ããŸã¨ã“ã‚ãŒæ°—ã«å…¥ã£ã¦ã„ã¾ã™ã€‚

GPT-5.2 ã‚’è¦‹ã¦ã„ã‚‹ã¨ã€ã¾ã ã€Œç©´ã€ã¯æ•°å¤šãã‚ã‚Šã€AI ã®å°»ã¬ãã„ã‚’ã™ã‚‹ä»•äº‹ã¯ã—ã°ã‚‰ãç¶šããã†ã«æ€ã„ã¾ã™ã€‚ã“ã®ç©´ãŒåŸ‹ã¾ã‚‹æ—¥ã¯ãã‚‹ã®ã§ã—ã‚‡ã†ã‹ã€‚çš†ã•ã‚“ã‚‚è€ƒãˆã¦ã¿ã¦ã„ãŸã ã‘ã‚Œã°å¹¸ã„ã§ã™ã€‚

è‘—è€…æƒ…å ±