16G内存16GGPU跑Qwen-7B-Instruct怎么样？

Raven · 2024 年12 月 1 日 04:20

准备搞一台16G内存16GGPU跑Qwen-7B-Instruct，使用vllm本地布署，不知道性能咋样？

nameliu · 2024 年12 月 1 日 04:22

先用kaggle或colab上的机器跑跑试试？

JanZhang · 2024 年12 月 1 日 04:32

我看测评差不多16 token/s ，看你需求，7B不好用啊，只能用于日常问答。。。。

_lang · 2024 年12 月 1 日 04:35

你得看具体硬件配置，显存内存够大只能说跑的起来，速度没法量化

Toserhy · 2024 年12 月 1 日 04:35

我在实验室电脑上装过qwen2.5的那个视觉模型版本，8g显存，能跑7b的，但是图片尺寸参数得调小一点

CossX · 2024 年12 月 1 日 04:40

理论上可以跑 14b 的模型 m4 mini 的丐版都可以跑 14b ～可以下载回来试试跑不动删了就是也没啥损失～

kiki · 2024 年12 月 1 日 07:33

速度如何?我最近也有这想法

Toserhy · 2024 年12 月 1 日 10:31

还行，每张10是s～20s左右。我运行的显卡是4060ti

kiki · 2024 年12 月 1 日 13:41

一张图片的多大啊.不知道这些小模型什么时候可以达到可以用的目的

Raven · 2024 年12 月 2 日 05:32

7B应该够用了，内部小知库跑跑

Raven · 2024 年12 月 2 日 05:33

京东上想抢个丐版，还有补贴，一直抢不到

Raven · 2024 年12 月 2 日 05:35

用啥跑的，ollama还是vllm,是跑的量化版吗

CossX · 2024 年12 月 2 日 05:51

这个有点专业我也说不清楚就是直接从 ollama 网站下的客户端然后从 ollama 上拉模型回本地跑终端上 ollama run <model_name> 这么跑当然也可以找一些前端来用我自己试了一下 14b 的可以正常跑～

zke · 2024 年12 月 4 日 10:13

内部小知识库经常答非所问，这种要怎么处理，用的也是qwen2-7b

话题		回复	浏览量
物理机部署Qwen3-32B 需要什么配置开发调优快问快答	16	213	2026 年3 月 24 日
4060ti 8G显存能跑Qwen2.5 14B吗？开发调优人工智能 , 快问快答	16	671	2025 年2 月 13 日
什么框架能最高效跑7b int4量化大模型开发调优人工智能 , 快问快答	31	352	2025 年12 月 2 日
第一次尝试部署AI小模型qwen3-0.6b，ollama 确实方便开发调优人工智能 , 纯水	12	401	2025 年7 月 25 日
2个4090，48G显存，当前哪个开源模型比较好？开发调优人工智能 , 快问快答 , 软件开发	23	629	2025 年12 月 3 日