1.58bit版はかろうじて動いてる感じだね。GPUはメモリしか使ってない。GPU使用率が上がらないのはCPUかSSDがボトルネックなのかllama-cppやCUDAカーネルの最適化不足の可能性がありそう。
色々調整してやっと 0.6tok/sec程度だから使い物にならない。上記問題が解決したら1.58bit版でも普通のゲームPCで5tok/secぐらいは出そう。
32B版はサクサク動作(25tok/sec程度)するけど常用したいと思えるような知能ではない。コーディングも任せられない感じ。ざっくりと使うなら問題ない感じだし、違法な事でも何でも答えるので面白いのは面白い。