Qwen3-30B-A3B 是目前(8G显存)可部署的最强本地大模型

测试在4070 8G上速度可达

9 t/s划掉 20 tokens/s

十分强悍。而同级别的gemma 3 27b 、QwQ 32b,均只有2 t/s 几乎不可用。(均为Q4量化)

在常见的消费级显卡上,可以说Qwen3-30B-A3B 是目前最强的可部署本地的模型。

更新
我尝试重新设置一下加载的参数 ,输出速度竟然达到了20 t/s 简直就是奇迹。


输出速度远超同级别模型

26 个赞

激活参数小,这个方法应该是为了降低运行门槛而做的

6 个赞

你这个爆显存了啊,9 t/s有随机性,遇到难题就慢了。

把4070 8G卖了,换成4060ti 16G,速度嘎嘎快。

5 个赞

这个模型ollama上量化完文件大小也有18G,有可能也爆显存。。。等我下下来试试看。

2 个赞

如果用ktransformer是不是能部署下来,30B的满血(家用级别)

3 个赞

CPU 100%,显存已爆…

1 个赞

我 M4 Pro 48G 跑能到 60-70 tokens/s
image

10 个赞

为啥你的LMS能用Q3GGUF。我的直接报错。

1 个赞

更新一下

1 个赞

我更新了。还是不行。我新装一下试试看。你下的是 Unsloth AI制作的GGUF吗?

找到原因了。

8G显存可以跑30B?不过Qwen3确实不错,我12G跑8B秒出,而且内容质量还不错。

现在的lmstudio可以跑30b吗?有没有办法开关思考模式?

先不着急下结论,等测试

bartowski

MOE模型,激活参数只有3B

enable_thinking=False

可以在用户提示或系统消息中添加 /think 和 /no_think 来逐轮切换模型的思考模式。

1 个赞

啊好的谢谢

image
gtx1650 4g亮机卡

为啥不用32b那款呢,不是更强吗

1 个赞

这种GUFF 文件是在哪里下载的?

1 个赞