Qwen3-30B-A3B 是目前（8G显存）可部署的最强本地大模型

aiaiAI · 2025 年4 月 29 日 01:44

测试在4070 8G上速度可达

9 t/s划掉 20 tokens/s

十分强悍。而同级别的gemma 3 27b 、QwQ 32b,均只有2 t/s 几乎不可用。（均为Q4量化）

在常见的消费级显卡上，可以说Qwen3-30B-A3B 是目前最强的可部署本地的模型。

更新
我尝试重新设置一下加载的参数，输出速度竟然达到了20 t/s 简直就是奇迹。

输出速度远超同级别模型

Cimix · 2025 年4 月 29 日 01:46

激活参数小，这个方法应该是为了降低运行门槛而做的

freebsdfx · 2025 年4 月 29 日 01:48

你这个爆显存了啊，9 t/s有随机性，遇到难题就慢了。

把4070 8G卖了，换成4060ti 16G，速度嘎嘎快。

AArcherEmiya · 2025 年4 月 29 日 01:51

这个模型ollama上量化完文件大小也有18G，有可能也爆显存。。。等我下下来试试看。

1263403710 · 2025 年4 月 29 日 01:55

如果用ktransformer是不是能部署下来，30B的满血（家用级别）

AArcherEmiya · 2025 年4 月 29 日 02:18

CPU 100%,显存已爆…

chenxc · 2025 年4 月 29 日 02:21

我 M4 Pro 48G 跑能到 60-70 tokens/s

ProxyCN · 2025 年4 月 29 日 02:21

为啥你的LMS能用Q3GGUF。我的直接报错。

aiaiAI · 2025 年4 月 29 日 02:23

更新一下

ProxyCN · 2025 年4 月 29 日 02:29

我更新了。还是不行。我新装一下试试看。你下的是 Unsloth AI制作的GGUF吗？

找到原因了。

abb · 2025 年4 月 29 日 02:34

8G显存可以跑30B？不过Qwen3确实不错，我12G跑8B秒出，而且内容质量还不错。

leonardo_shen · 2025 年4 月 29 日 02:38

现在的lmstudio可以跑30b吗？有没有办法开关思考模式？

handsome · 2025 年4 月 29 日 02:42

先不着急下结论，等测试

aiaiAI · 2025 年4 月 29 日 02:42

bartowski

F-droid · 2025 年4 月 29 日 03:08

MOE模型，激活参数只有3B

ProxyCN · 2025 年4 月 29 日 03:09

enable_thinking=False

可以在用户提示或系统消息中添加 /think 和 /no_think 来逐轮切换模型的思考模式。

leonardo_shen · 2025 年4 月 29 日 03:34

啊好的谢谢

Beryec · 2025 年4 月 29 日 04:05

gtx1650 4g亮机卡

voi · 2025 年4 月 29 日 04:15

为啥不用32b那款呢，不是更强吗

QAWS12g · 2025 年4 月 29 日 04:18

这种GUFF 文件是在哪里下载的？

话题		回复	浏览量
求解AI方面的显卡装机（显存共享问题）开发调优人工智能	33	515	2025 年11 月 6 日
Qwen发布Qwen3.5-35B-A3B， Reddit上都炸了前沿快讯人工智能	106	5910	2026 年3 月 13 日
物理机部署Qwen3-32B 需要什么配置开发调优快问快答	16	213	2026 年3 月 24 日
2个4090，48G显存，当前哪个开源模型比较好？开发调优人工智能 , 快问快答 , 软件开发	23	629	2025 年12 月 3 日
ROG 幻X 2025 128G 跑本地LLM的体验开发调优人工智能	30	979	2025 年7 月 8 日