公司给配的工作站,佬们帮忙看看可以本地部署多大的模型

配置清单:

  • CPU:英特尔 Xeon(R) Gold 6240 , 36核72线程
  • 内存:512g
  • 显卡:两张英伟达 RTX A5000,每张是24G显存

佬们有什么模型推荐?

6 个赞

qwen235b :distorted_face:

2 个赞

能搞这么大的?

1 个赞

32b 还得,.,

2 个赞

只用GPU推理?还是用CPU?

1 个赞

还得什么?有哪个模型推荐吗

哪个效果好就用哪个,我也不太懂

应该可以,好像可以卸载一部分到内存啊 :distorted_face:

1 个赞

开源的就这几个吧

内存大就是好,70b模型加量化都能跑

1 个赞

考虑跑的快,70b量化够了,但是慢, 最好用vllm 差不多可以并发qwen 32b

我去研究研究

1 个赞

这些参数量都有些大吧,不一定能跑起来吧,主要是想看看极限能部署哪个参数量的模型

看用途和使用人数,人数不多可以部署满血的qwen/ds

就是慢一点是吧?

1 个赞

好的,谢谢佬,意思是32b的快,70b量化的慢一点?

这台工作站我一个人使用,没有其他人用

48gb vram

大一點的都要上內存

速度上差了點但是還能跑很多大模型的 8 bit量化

羨慕了

家裡只有40 gb vram 128gb內存

直接部署满血版就完事了,qwen 不太清楚,ds这机器感觉应该能跑到10t/s

应该不满,gpu 70b 没加cpu