部署了gemma4:26B,在12G 显存 32 内存的机器上,跑的很流畅

刚用 ollmma 部署了gemma4:26B,在12G 显存 32 内存的机器上,跑的非常流畅,下面试试 31B,是不是要实现token 自由了,可惜L 站不能上传视频

20 个赞

多少t/s 智商相比31怎么样? 比qwen3.6强吗

我配置和你一样 能不能教我下怎么本地搭建了!

先安装 ollama,
开个命令行,执行命令 ollama run gemma4:26b 或者ollama run gemma4:31b
等着就行了

这个是 M O E 专家模型,你看前面有了写了一个 A 三 B。那个三十一B的模型是稠密模型。期待你的测试结果。

2 个赞

只看了流畅度,正在装31B ,还没有实际用上呢,等等看

速度快不快啊? 我都想买个24G 和在加几根内存条了

1 个赞

26B 非常快,加吧,越高越好,哈哈

是的,26B 是专家模型,AI 跟我说我的机器不适合 31B,但是我看 26B 非常流畅,再试试 31B

1 个赞

26B模型能在12G显存上进行推理吗,被量化了吗

1 个赞

M O E专家模型运行时只会把大部分的模型都放在内存里,而需要的专家会放在显存里面。这里的A4B,就是专家放在显存的参数量。然后还有一个31B稠密模型,这个是才是你所理解的,要把所有参数都放在显存里面或者内存里面。

2 个赞

我的卡是4070tis,佬友说的我都想试试了 :star_struck:

试试又不会怀孕,哈哈

2 个赞

我的4060ti能跑得动吗?

哦哦,明白了,非常感谢解惑

:star_struck:佬友快补点图片,让大伙看看效果

这个26B的模型应该是可以运行的,理论上只要有4GB显存就能运行。当然,内存也得有。根据你的上下文设置。在1GB到10GB左右。

2 个赞

佬,智商怎么样?你用啥显卡?

估计dense模型比较难

26b参数只要12g显存就能跑了吗?