测试在4070 8G上速度可达
9 t/s划掉 20 tokens/s
十分强悍。而同级别的gemma 3 27b 、QwQ 32b,均只有2 t/s 几乎不可用。(均为Q4量化)
在常见的消费级显卡上,可以说Qwen3-30B-A3B 是目前最强的可部署本地的模型。
更新
我尝试重新设置一下加载的参数 ,输出速度竟然达到了20 t/s 简直就是奇迹。
输出速度远超同级别模型
测试在4070 8G上速度可达
9 t/s划掉 20 tokens/s
十分强悍。而同级别的gemma 3 27b 、QwQ 32b,均只有2 t/s 几乎不可用。(均为Q4量化)
在常见的消费级显卡上,可以说Qwen3-30B-A3B 是目前最强的可部署本地的模型。
更新
我尝试重新设置一下加载的参数 ,输出速度竟然达到了20 t/s 简直就是奇迹。
输出速度远超同级别模型
激活参数小,这个方法应该是为了降低运行门槛而做的
你这个爆显存了啊,9 t/s有随机性,遇到难题就慢了。
把4070 8G卖了,换成4060ti 16G,速度嘎嘎快。
这个模型ollama上量化完文件大小也有18G,有可能也爆显存。。。等我下下来试试看。
如果用ktransformer是不是能部署下来,30B的满血(家用级别)
CPU 100%,显存已爆…
我 M4 Pro 48G 跑能到 60-70 tokens/s

为啥你的LMS能用Q3GGUF。我的直接报错。
更新一下
我更新了。还是不行。我新装一下试试看。你下的是 Unsloth AI制作的GGUF吗?
找到原因了。
8G显存可以跑30B?不过Qwen3确实不错,我12G跑8B秒出,而且内容质量还不错。
现在的lmstudio可以跑30b吗?有没有办法开关思考模式?
先不着急下结论,等测试
bartowski
MOE模型,激活参数只有3B
enable_thinking=False
可以在用户提示或系统消息中添加 /think 和 /no_think 来逐轮切换模型的思考模式。
啊好的谢谢
![]()
gtx1650 4g亮机卡
为啥不用32b那款呢,不是更强吗
这种GUFF 文件是在哪里下载的?