5060 笔记本成功部署 Gemma 4,30t/s,效果很好

模型

gemma4-26b-a4b-it-q4km

实测速度

30 token/s 上下

配置

笔记本 32G 内存+5060 8GB 显卡,64k 上下文成功跑通

整个 26b 放入内存,显卡动态加载 4b 的激活参数,所以只要空闲内存≥20GB,显存≥6GB 即可:+1:

大家可以去部署试试

效果展示

鸸鹋骑单车

天气卡片

更多测试

25k 输入极限测试:

日常使用的首字速度

31 个赞

用什么部署的?llama cpp?
我也试试,qwen3.5 35b刚好跑不动

1 个赞

看看coding能力和跑分是不是一致 :face_with_raised_eyebrow:

1 个赞

codex部署的(

是llama.cpp

直接丢给ai让它帮我搞

这模型的显存占用要多少

有什么例题吗,这个怎么测呢

1 个赞

测测经典的天气卡片测试看看效果

佬这个rank网站是啥

1 个赞

显存5.8G,但是内存已经占满了30.9个G

佬 这是什么网站啊

哦豁,好像效果不错哦

这个显卡跑31B的试试,看性能都跟glm5、kimi2.5差不多持平了

3 个赞

这还算可以吗,感觉就是 2.5pro

7 个赞

看着不错哦

Q4KM这个水平感觉可以呀

内存占用高吗

那么强啊

lmarean

请问这种开源的模型,带审查吗?可以搞NSFW ?:clown_face:

这么厉害

希望谷歌把Pro也做的更好吧