GPUãƒ¡ãƒ¢ãƒª4GBã‚ã‚Œã°GPT-oss 20BãŒ14tok/secã§å‹•ã

llama.cppã«MoEã«é©ã—ãŸCPU/GPUã®æŒ¯ã‚Šåˆ†ã‘ã®ã‚ªãƒ—ã‚·ãƒ§ãƒ³ãŒå…¥ã£ã¦ã€LM Studioã§ã‚‚ãã®ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã«å¯¾å¿œã—ãŸã“ã¨ã«ã‚ˆã£ã¦ã€MoEãƒ¢ãƒ‡ãƒ«ã§ã‚ã‚‹GPT-ossãŒå°‘ãªã„GPUãƒ¡ãƒ¢ãƒªã§ã‚‚ãã‚Œãªã‚Šã«å‹•ãã‚ˆã†ã«ãªã‚Šã¾ã—ãŸã€‚æ‹¡å¤§ã™ã‚‹ã¨ã‚ã‹ã‚Šã¾ã™ãŒã€LM Studioã®å³ä¸‹ã®è¡¨ç¤ºã«ã‚ˆã‚‹ã¨ã€ãƒ¡ã‚¤ãƒ³ãƒ¡ãƒ¢ãƒªã¯12GBãã‚‰ã„ä½¿ã„ã¾ã™ã€‚

14tok/secå‡ºã¦ã„ã¾ã™ã€‚

CPUã ã‘ã§å‹•ã‹ã™ã¨10tok/secã ã£ãŸã®ã§ã€5å‰²ãƒžã‚·ã§ã™ãã€‚

0.3.23.0ã«ã€ŒForce Model Expert weight onto CPUã€ã¨ã„ã†ã‚¹ã‚¤ãƒƒãƒãŒå…¥ã£ã¦ã„ã‚‹ã®ã§ã€ã“ã‚Œã‚’Onã«ã™ã‚‹ã¨Expertã®ã‚¦ã‚§ã‚¤ãƒˆãŒã™ã¹ã¦CPUã«ä¹—ã‚‹ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚ã‚¢ãƒ†ãƒ³ã‚·ãƒ§ãƒ³ã¯GPUã§ã€‚

è©³ã—ãã¯ãƒªãƒªãƒ¼ã‚¹ãƒŽãƒ¼ãƒˆã«ã‚ã‚Šã¾ã™ãŒã€llama.cppã®--n-cpu-moeã®ä»•çµ„ã¿ã‚’ä½¿ã£ã¦ã‚‹ã¨ã®ã“ã¨ã€‚
https://lmstudio.ai/blog/lmstudio-v0.3.23#force-moe-expert-weights-onto-cpu-or-gpu

ã¡ãªã¿ã«å…¨éƒ¨GPUã«è¼‰ã›ã‚‹ã¨65tok/secã§ã™ã€‚

åŸºæœ¬çš„ã«ã¯ã€ã“ã®è©±ã®å¿œç”¨ã€‚
CPUが得意なことをCPUにまかせて少ないVRAMでも大きめのLLMを速く動かす - きしだのHatena

ã‚¢ãƒ†ãƒ³ã‚·ãƒ§ãƒ³ã¯3é‡ãƒ«ãƒ¼ãƒ—ãŒã‚ã‚‹ä¸€æ–¹ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿æ•°ãŒå°‘ãªã„ã®ã§GPUã«ã€Feed Forward Network(FFN)ã¯ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿æ•°ãŒå¤šã„ä¸€æ–¹ã§2é‡ãƒ«ãƒ¼ãƒ—ãªã®ã§CPUã§ã‚‚æ¯”è¼ƒçš„é€Ÿãå‡¦ç†ãŒã§ãã‚‹ã€ã¨ã„ã†ã®ã‚’åˆ©ç”¨ã—ã¦ã„ã¾ã™ã€‚ã“ã®å›³ã§ã¯FFNã«ã¤ã„ã¦3å‰²ãã‚‰ã„CPUã«ã‚„ã‚‰ã›ã‚‹ã¨ã‚ã‚Šã¾ã™ãŒã€ä»Šå›žã®è¨å®šã§ã¯å…¨éƒ¨ã‚’CPUã«ã‚„ã‚‰ã›ã¦ã„ã¾ã™ã€‚

MoEã®Expertsã¨ã„ã†ã®ã¯FFNãŒã„ã‚ã„ã‚åˆ†ã‹ã‚Œã¦ã„ã‚‹ã‚ã‘ã§ã€å…¨ä½“ã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿æ•°ã¯å¤šã„ã‘ã©å®Ÿè¡Œæ™‚ã«ã¯ã»ã¨ã‚“ã©ä½¿ã‚ã‚Œãªã„ã®ã§ãƒ¡ãƒ¢ãƒªãŒç„¡é§„ã«ãªã‚Šã¾ã™ã€‚
ã¨ã„ã†ã“ã¨ã§ã€ãƒ¡ãƒ¢ãƒªãŒè²´é‡ãªGPUã˜ã‚ƒãªãCPUã«è¼‰ã›ã¦ãŠã‘ã°ãã‚Œãªã‚Šã«åŠ¹çŽ‡ã‚ˆãå®Ÿè¡Œã§ãã‚‹ã‚ã‘ã§ã™ãã€‚

ã¨ã“ã‚ã§ã€å‹•ç”»ç”¨ã«15ç§’ãã‚‰ã„ã§çµ‚ã‚ã‚‹ã‚„ã¤ã¨æ€ã£ã¦Hello Worldã‚’å‡ºã—ã¦ã‚‚ã‚‰ã£ãŸã®ã ã‘ã©ã€IDEã‚’ä½¿ã†å ´åˆã¨ã‹ã‚¯ãƒ©ã‚¹ã¨ãƒ•ã‚¡ã‚¤ãƒ«åã¨ã‹ã„ã‚‰ã‚“ã“ã¨è§£èª¬ã—ã¦30ç§’ã‹ã‹ã£ã¦ã—ã¾ã£ãŸã€‚
å›žç”ã®è‡ªä¿¡ãŒãªãã¦ã„ã‚ã„ã‚ä»˜ã‘è¶³ã—ã¦ã—ã¾ã£ã¦ã„ã‚‹

ä»•çµ„ã¿ã‹ã‚‰å¦ã¶ç”ŸæˆAIå…¥é–€â€•â€•åŸºç¤Žã‹ã‚‰å¿œç”¨ã¾ã§å¾¹åº•ç†è§£

ä½œè€…:ä¸äº• æ‚¦å¸

Amazon