比如我现在有8台服务器,分别有一个4090显卡,我想要用这8台机器搭建一个DeepSeek-R1-70B的服务,用于支持前端调用实现复刻DeepSeek网页版的自然语言交互功能。应该怎么搭,我搜索不到什么有用的资料,基本都是单机版
vLLM或SGLang都支持单机多卡部署。
另外如果要使用k8s的话:
- vllm的话,可以看看字节开源的 AIBrix,是为vllm开发的k8s控制平面
- SGLang的话,官方文档里就有k8s部署相关的内容
前段时间看到的这个可以参考下
应该要从物理层面实现 并行计算吧。比如nvlink
集群服务器只能分别计算,不太可能把这些显卡集中资源进行计算,除非有nv的技术支持吧
感谢各位大佬
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。