我用3090单卡测试了一下gemma4-26b-a4b-it

3090因为显存的问题普遍较高,于是将显卡功率限制为78%,温度也限制在78度,将26b-a4b 完全加载入显存,实际跑下来75tps没问题,速度快的话有时候能近百。可怕的是不仅速度快,回答问题的质量也相当令人满意。编码我没有测试,试验了一下网页翻译,速度快,质量高。值得从qwen3.5切换过来。

7 个赞

我12G显卡 32G内存条 能搭建那个哥们!

除了图像的中文识别有点误

26b试试,看有佬友跟你一样部署的很流畅

就跑我这个模型,LMstudio,速度应该能达到30tps

和 qwen3.5 35b a3b 比起来咋样

用在网页翻译上,我觉得gemma4更好一点

我本地 m2max 64g 跑了下 lm studio 提供的 gemma4 26b a4b 的 Q4_K_M 版本,发现一个是上下文的预估内存占用不准,再一个是启动之后会出现死循环输出重复内容,很神秘。10 次对话,不同会话触发两次,停止后再对话又是正常,还出现一次思考有问题,导致解析显示异常的。

我在实验31b模型的时候出现了死循环输出重复内容

那真是离谱了