Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market 【AI要約】 「Aegaeon」は、LLM(大規模言語モデル)の推論におけるGPUリソースの浪費を解決するシステムです。 トークン単位で...
これが本当ならすごいよ それこそDeepseek(671B)の量子化Q4KMを動かすにはVRAM400GBいるわけなんだけど、それを80GBで動かせるわけだからね そうなると、ChatGPTやGeminiいらんくなるかも
しかも、alibabaか。 中国がnvidia脱却に本気出してるのは嬉しいね。 ただし、こうして作られたグラボが日本市場に来るかどうかは…
80%削減なら、現状の20%で現状の100%と同等の能力ということだから、5倍性能が上がるということでは