部署了gemma4:26B，在12G 显存 32 内存的机器上，跑的很流畅

faliangbuduo · 2026 年4 月 3 日 04:58

刚用 ollmma 部署了gemma4:26B，在12G 显存 32 内存的机器上，跑的非常流畅，下面试试 31B，是不是要实现token 自由了，可惜L 站不能上传视频

Pinging · 2026 年4 月 3 日 04:59

多少t/s 智商相比31怎么样？比qwen3.6强吗

xiaoqiang520 · 2026 年4 月 3 日 04:59

我配置和你一样能不能教我下怎么本地搭建了！

faliangbuduo · 2026 年4 月 3 日 05:00

先安装 ollama，
开个命令行，执行命令 ollama run gemma4:26b 或者ollama run gemma4:31b
等着就行了

touma99 · 2026 年4 月 3 日 05:00

这个是 M O E 专家模型，你看前面有了写了一个 A 三 B。那个三十一B的模型是稠密模型。期待你的测试结果。

faliangbuduo · 2026 年4 月 3 日 05:01

只看了流畅度，正在装31B ，还没有实际用上呢，等等看

xiaoqiang520 · 2026 年4 月 3 日 05:01

速度快不快啊？我都想买个24G 和在加几根内存条了

faliangbuduo · 2026 年4 月 3 日 05:02

26B 非常快，加吧，越高越好，哈哈

faliangbuduo · 2026 年4 月 3 日 05:04

是的，26B 是专家模型，AI 跟我说我的机器不适合 31B，但是我看 26B 非常流畅，再试试 31B

maocat · 2026 年4 月 3 日 05:08

26B模型能在12G显存上进行推理吗，被量化了吗

touma99 · 2026 年4 月 3 日 05:10

M O E专家模型运行时只会把大部分的模型都放在内存里，而需要的专家会放在显存里面。这里的A4B,就是专家放在显存的参数量。然后还有一个31B稠密模型，这个是才是你所理解的，要把所有参数都放在显存里面或者内存里面。

ZhuYaTongXue · 2026 年4 月 3 日 05:10

我的卡是4070tis，佬友说的我都想试试了

faliangbuduo · 2026 年4 月 3 日 05:10

试试又不会怀孕，哈哈

March8 · 2026 年4 月 3 日 05:11

我的4060ti能跑得动吗？

maocat · 2026 年4 月 3 日 05:11

哦哦，明白了，非常感谢解惑

ZhuYaTongXue · 2026 年4 月 3 日 05:13

佬友快补点图片，让大伙看看效果

touma99 · 2026 年4 月 3 日 05:14

这个26B的模型应该是可以运行的，理论上只要有4GB显存就能运行。当然，内存也得有。根据你的上下文设置。在1GB到10GB左右。

yeqiu123 · 2026 年4 月 3 日 05:15

佬，智商怎么样？你用啥显卡？

gboy · 2026 年4 月 3 日 05:16

估计dense模型比较难

Kamome · 2026 年4 月 3 日 05:16

26b参数只要12g显存就能跑了吗？

话题		回复	浏览量
5060 笔记本成功部署 Gemma 4，30t/s，效果很好搞七捻三人工智能 , 纯水	72	1765	2026 年4 月 4 日
8GB 显存笔记本极限挑战：模型本地化翻译测试报告悬赏人工智能 , 软件开发	15	249	2026 年3 月 11 日
Qwen3-30B-A3B 是目前（8G显存）可部署的最强本地大模型前沿快讯人工智能	44	6236	2025 年5 月 30 日
Gemma 3已上线Ollama，27B版本超越DeepSeek V3！前沿快讯 Google	92	3436	2025 年5 月 2 日
求解AI方面的显卡装机（显存共享问题）开发调优人工智能	33	515	2025 年11 月 6 日