模型
gemma4-26b-a4b-it-q4km
实测速度
30 token/s 上下
配置
笔记本 32G 内存+5060 8GB 显卡,64k 上下文成功跑通
整个 26b 放入内存,显卡动态加载 4b 的激活参数,所以只要空闲内存≥20GB,显存≥6GB 即可![]()
大家可以去部署试试
效果展示
鸸鹋骑单车
天气卡片
更多测试
25k 输入极限测试:
日常使用的首字速度
gemma4-26b-a4b-it-q4km
30 token/s 上下
笔记本 32G 内存+5060 8GB 显卡,64k 上下文成功跑通
整个 26b 放入内存,显卡动态加载 4b 的激活参数,所以只要空闲内存≥20GB,显存≥6GB 即可![]()
大家可以去部署试试
鸸鹋骑单车
天气卡片
25k 输入极限测试:
日常使用的首字速度
用什么部署的?llama cpp?
我也试试,qwen3.5 35b刚好跑不动
codex部署的(
是llama.cpp
直接丢给ai让它帮我搞
这模型的显存占用要多少
有什么例题吗,这个怎么测呢
测测经典的天气卡片测试看看效果
佬这个rank网站是啥
显存5.8G,但是内存已经占满了30.9个G
佬 这是什么网站啊
哦豁,好像效果不错哦
看着不错哦
Q4KM这个水平感觉可以呀
内存占用高吗
那么强啊
lmarean
请问这种开源的模型,带审查吗?可以搞NSFW ?![]()
这么厉害
希望谷歌把Pro也做的更好吧