我用3090单卡测试了一下gemma4-26b-a4b-it

neoone · 2026 年4 月 3 日 04:58

3090因为显存的问题普遍较高，于是将显卡功率限制为78%，温度也限制在78度，将26b-a4b 完全加载入显存，实际跑下来75tps没问题，速度快的话有时候能近百。可怕的是不仅速度快，回答问题的质量也相当令人满意。编码我没有测试，试验了一下网页翻译，速度快，质量高。值得从qwen3.5切换过来。

xiaoqiang520 · 2026 年4 月 3 日 05:02

我12G显卡 32G内存条能搭建那个哥们！

miludeerforest · 2026 年4 月 3 日 05:03

除了图像的中文识别有点误

usbwe · 2026 年4 月 3 日 05:08

26b试试，看有佬友跟你一样部署的很流畅

neoone · 2026 年4 月 3 日 05:55

就跑我这个模型，LMstudio，速度应该能达到30tps

sioncovy · 2026 年4 月 3 日 06:15

和 qwen3.5 35b a3b 比起来咋样

neoone · 2026 年4 月 3 日 09:51

用在网页翻译上，我觉得gemma4更好一点

sioncovy · 2026 年4 月 3 日 10:31

我本地 m2max 64g 跑了下 lm studio 提供的 gemma4 26b a4b 的 Q4_K_M 版本，发现一个是上下文的预估内存占用不准，再一个是启动之后会出现死循环输出重复内容，很神秘。10 次对话，不同会话触发两次，停止后再对话又是正常，还出现一次思考有问题，导致解析显示异常的。

neoone · 2026 年4 月 3 日 10:39

我在实验31b模型的时候出现了死循环输出重复内容

sioncovy · 2026 年4 月 3 日 10:41

那真是离谱了

话题		回复	浏览量
部署了gemma4:26B，在12G 显存 32 内存的机器上，跑的很流畅开发调优人工智能 , 软件开发	134	1652	2026 年4 月 3 日
12GB显卡跑Gemma 4 太卡了开发调优人工智能 , 快问快答	12	343	2026 年4 月 3 日
8GB 显存笔记本极限挑战：模型本地化翻译测试报告悬赏人工智能 , 软件开发	15	245	2026 年3 月 11 日
Qwen3-30B-A3B 是目前（8G显存）可部署的最强本地大模型前沿快讯人工智能	44	6232	2025 年5 月 30 日
5060 笔记本成功部署 Gemma 4，30t/s，效果很好搞七捻三人工智能 , 纯水	69	1610	2026 年4 月 3 日

我用3090单卡测试了一下gemma4-26b-a4b-it

相关话题