4060ti 8G显存能跑Qwen2.5 14B吗?

大佬们,想用ollama跑本地模型,请问 4060ti 8G显存能跑Qwen2.5 14B吗?

7 个赞

https://qwen.readthedocs.io/zh-cn/latest/benchmark/speed_benchmark.html

1 个赞


看起来直接就是不够啊,要不在量化一下

1 个赞

降档到7B可以不? :joy:


还是得用量化的版本
不然部分权重可能放到内存(共享显存 :joy: :cold_sweat:)里面降低了速度

1 个赞

明白了,感谢佬

下载个 LM studio 可以自动检测, 当前设备是否支持某个模型本地部署

2 个赞

感谢,我去试一下

其实不完全看gpu,内存够大就行。一般选择k5,qlm其实差不太多。

下载后可能 LM studio 不能加载模型数据, 需要把配置中的 huggingface 替换为 hf-mirror , 网上搜一下就有很多教程

图片这里可以看当前模型的是否支持, 如果支持,可以点击下面的按钮下载即可

3 个赞

可以!ollama的推理后端llama.cpp会把尽量多的layer放到gpu上,放不下的放cpu,所以答案是可以。

如果追求使用体验,试试7b

1 个赞

我笔记本8g能跑翻译

能跑 但是会炸内存

我的OLLAMAN能跑 吃了7.2G显存和 50%的CPU

llama.cpp 来量化一下应该能跑,可以试试

8g显存,不如调用api了。或者尝试cpu跑,虽然会非常慢,但至少能跑。

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。