刚用 ollmma 部署了gemma4:26B,在12G 显存 32 内存的机器上,跑的非常流畅,下面试试 31B,是不是要实现token 自由了,可惜L 站不能上传视频
多少t/s 智商相比31怎么样? 比qwen3.6强吗
我配置和你一样 能不能教我下怎么本地搭建了!
先安装 ollama,
开个命令行,执行命令 ollama run gemma4:26b 或者ollama run gemma4:31b
等着就行了
这个是 M O E 专家模型,你看前面有了写了一个 A 三 B。那个三十一B的模型是稠密模型。期待你的测试结果。
2 个赞
只看了流畅度,正在装31B ,还没有实际用上呢,等等看
速度快不快啊? 我都想买个24G 和在加几根内存条了
1 个赞
26B 非常快,加吧,越高越好,哈哈
是的,26B 是专家模型,AI 跟我说我的机器不适合 31B,但是我看 26B 非常流畅,再试试 31B
1 个赞
26B模型能在12G显存上进行推理吗,被量化了吗
1 个赞
M O E专家模型运行时只会把大部分的模型都放在内存里,而需要的专家会放在显存里面。这里的A4B,就是专家放在显存的参数量。然后还有一个31B稠密模型,这个是才是你所理解的,要把所有参数都放在显存里面或者内存里面。
2 个赞
我的卡是4070tis,佬友说的我都想试试了 ![]()
试试又不会怀孕,哈哈
2 个赞
我的4060ti能跑得动吗?
哦哦,明白了,非常感谢解惑
佬友快补点图片,让大伙看看效果
这个26B的模型应该是可以运行的,理论上只要有4GB显存就能运行。当然,内存也得有。根据你的上下文设置。在1GB到10GB左右。
2 个赞
佬,智商怎么样?你用啥显卡?
估计dense模型比较难
26b参数只要12g显存就能跑了吗?