配置清单:
- CPU:英特尔 Xeon(R) Gold 6240 , 36核72线程
- 内存:512g
- 显卡:两张英伟达 RTX A5000,每张是24G显存
佬们有什么模型推荐?
qwen235b ![]()
能搞这么大的?
32b 还得,.,
只用GPU推理?还是用CPU?
还得什么?有哪个模型推荐吗
哪个效果好就用哪个,我也不太懂
应该可以,好像可以卸载一部分到内存啊 ![]()
内存大就是好,70b模型加量化都能跑
考虑跑的快,70b量化够了,但是慢, 最好用vllm 差不多可以并发qwen 32b
我去研究研究
这些参数量都有些大吧,不一定能跑起来吧,主要是想看看极限能部署哪个参数量的模型
看用途和使用人数,人数不多可以部署满血的qwen/ds
就是慢一点是吧?
好的,谢谢佬,意思是32b的快,70b量化的慢一点?
这台工作站我一个人使用,没有其他人用
48gb vram
大一點的都要上內存
速度上差了點但是還能跑很多大模型的 8 bit量化
羨慕了
家裡只有40 gb vram 128gb內存
直接部署满血版就完事了,qwen 不太清楚,ds这机器感觉应该能跑到10t/s
应该不满,gpu 70b 没加cpu