16G内存16GGPU跑Qwen-7B-Instruct怎么样?

准备搞一台16G内存16GGPU跑Qwen-7B-Instruct,使用vllm本地布署,不知道性能咋样?

5 个赞

先用kaggle或colab上的机器跑跑试试?

我看测评差不多16 token/s ,看你需求,7B不好用啊,只能用于日常问答。。。。

你得看具体硬件配置,显存内存够大只能说跑的起来,速度没法量化

我在实验室电脑上装过qwen2.5的那个视觉模型版本,8g显存,能跑7b的,但是图片尺寸参数得调小一点 :bili_040:

理论上可以跑 14b 的模型 m4 mini 的丐版都可以跑 14b ~ 可以下载回来试试 跑不动删了就是 也没啥损失~

速度如何?我最近也有这想法

还行,每张10是s~20s左右。我运行的显卡是4060ti

一张图片的多大啊.不知道这些小模型什么时候可以达到可以用的目的

7B应该够用了,内部小知库跑跑 :smiling_face_with_tear:

京东上想抢个丐版,还有补贴,一直抢不到 :tieba_009:

用啥跑的,ollama还是vllm,是跑的量化版吗 :tieba_004:

这个有点专业我也说不清楚 就是直接从 ollama 网站下的客户端 然后从 ollama 上拉模型回本地跑 终端上 ollama run <model_name> 这么跑 当然也可以找一些前端来用 我自己试了一下 14b 的可以正常跑~

内部小知识库经常答非所问,这种要怎么处理,用的也是qwen2-7b