真正可用的小模型来了!Qwen3.5-9B 懒人本地部署包,7个工具开箱即用

从上午继续,≥8GB的显卡:ok_hand:

Q4量化显存占用6.1GB

更惊喜的是,这个模型居然可以支持思维链中调用工具,我配置好了这些能力:

  • web_search — 互联网搜索(基于 DuckDuckGo)
  • web_fetch — 抓取网页正文内容
  • web_extractor — 提取网页结构化信息
  • image_search — 以关键词搜索图片
  • image_zoom_in_tool — 对图片指定区域放大查看
  • filesystem — 浏览和读取本机文件(只读)
  • read_memory — 读取已保存的记忆

联网之前/之后对比:

联网之后:

废话少说,部署包:

有用的话请帮忙点个星星~

160 个赞

感谢大佬

1 个赞

感谢大佬

哇!感谢大佬!

1 个赞

大帅哥经典头像回归 :laughing:

1 个赞

佬 我好像看到你在闪闪发光

1 个赞

只有CPU可以跑吗

空闲内存≥8GB可以,但是速度太慢,没什么实用价值

1 个赞

我看到有Q4,Q6,Q8几个包,是不是越大效果越好?

有没有不量化的版本 QAQ

2 个赞

理论上是这样的,如果是12GB或者更大的显卡可以试试更高的量化程度

但其实Q4已经差不多了

1 个赞

嗯,我有块16G的卡,可以试试大点的包

厉害了佬,收藏了

感谢大佬

Q4精度很容易上下文长一点就无限循环,是让他ocr并翻译,思维连直接无穷循环了 :joy:本地小模型8g感觉还是用4B fp8好点,低精度太不可靠了

2 个赞

我这3060 12G
是不是可以一战?

我用的时候好像没遇到过循环诶,是什么场景下呢

感谢分享,Q4量化确实快

1 个赞

我用的ollama的一键部署手贱试了下翻译漫画 :smiling_face_with_tear:,思维链默认的情况下思考了快10分钟,无限循环,受不了关了 :joy:

1 个赞

太厉害了

1 个赞