真正可用的小模型来了！Qwen3.5-9B 懒人本地部署包，7个工具开箱即用

Yuookie · 2026 年3 月 4 日 13:52

从上午继续，≥8GB的显卡

Q4量化显存占用6.1GB

更惊喜的是，这个模型居然可以支持思维链中调用工具，我配置好了这些能力：

联网之前/之后对比：

联网之后：

有用的话请帮忙点个星星~

dai_steven · 2026 年3 月 4 日 13:53

感谢大佬

kk1122nn · 2026 年3 月 4 日 13:54

感谢大佬

handsome · 2026 年3 月 4 日 14:11

哇！感谢大佬！

VimCoder · 2026 年3 月 4 日 14:14

大帅哥经典头像回归

ptoken · 2026 年3 月 4 日 14:16

佬我好像看到你在闪闪发光

sakurajiamai · 2026 年3 月 4 日 14:17

只有CPU可以跑吗

Yuookie · 2026 年3 月 4 日 14:18

空闲内存≥8GB可以，但是速度太慢，没什么实用价值

missdeer · 2026 年3 月 4 日 14:18

我看到有Q4,Q6,Q8几个包，是不是越大效果越好？

ImKK · 2026 年3 月 4 日 14:19

有没有不量化的版本 QAQ

Yuookie · 2026 年3 月 4 日 14:19

理论上是这样的，如果是12GB或者更大的显卡可以试试更高的量化程度

但其实Q4已经差不多了

missdeer · 2026 年3 月 4 日 14:20

嗯，我有块16G的卡，可以试试大点的包

szz · 2026 年3 月 4 日 14:24

厉害了佬，收藏了

ccccat · 2026 年3 月 4 日 14:24

感谢大佬

1738348785 · 2026 年3 月 4 日 14:27

Q4精度很容易上下文长一点就无限循环，是让他ocr并翻译，思维连直接无穷循环了本地小模型8g感觉还是用4B fp8好点，低精度太不可靠了

lkainan · 2026 年3 月 4 日 14:35

我这3060 12G
是不是可以一战？

Yuookie · 2026 年3 月 4 日 14:35

我用的时候好像没遇到过循环诶，是什么场景下呢

loldoe3 · 2026 年3 月 4 日 14:38

感谢分享，Q4量化确实快

1738348785 · 2026 年3 月 4 日 14:40

我用的ollama的一键部署手贱试了下翻译漫画，思维链默认的情况下思考了快10分钟，无限循环，受不了关了

Raoxxxwq · 2026 年3 月 4 日 14:47

太厉害了

话题		回复	浏览量
【慢讯】我单方面“宣布”进入端侧“贾维斯”时代-Qwen3.5杀死比赛前沿快讯软件开发 , 纯水	36	1243	2026 年3 月 5 日
Qwen发布Qwen3.5-35B-A3B， Reddit上都炸了前沿快讯人工智能	106	5916	2026 年3 月 13 日
【Ollama】 Llama3来了，用Linux Ollama线下部署你自己的大模型羊驼资源荟萃 Llama3 , 人工智能	61	5518	2024 年11 月 12 日
🚀部署了一个 Llama3 欢迎大家来玩！【Meta 最新 Llama 3 8B 和 70B模型】资源荟萃人工智能	65	3344	2024 年12 月 9 日
【教程】 Mac 端 LMStudio 本地部署 Qwen3.5-9B-MLX-4bit，多模态超强开发调优人工智能	61	1193	2026 年3 月 31 日