佬友们求助~~~

大早上,领导就给我上强度,我刚做ai没多久,部署了一套A6000显卡x2的48G显卡。用vllm部署了deepseek-r1-32b、qwen3-8b、qwen2.5-vl-7b以及其它量化重排序模型。

需要画一个大模型平台集群部署的部署架构图,借鉴的图


背景:做AI服务这块儿,用户一般都是内网,所以基本就是买GPU服务器集群部署。希望就是更多人用,实现负载均衡什么的

不太懂,但是做相关工作,等待大佬

啥意思。也就是你们要自己部署ai集群么。这么强么。
我觉得你画图 不如先跑通一个最简单的 ui → serve → ai 的路径。看看在处理通讯过程中会有啥需要解决的问题,落地一个最简单的的demo后 在想着画集群的事情(也许这个demo都够满足你们公司的需要了)

如果要做一个内网 多入口的ai网关(或许需要redis作为中间的消息缓存层)

ai对话任务尽量一开始做成异步的 因为ai输出其实时间会比较长 不异步的话容易断

建议先申请时间搞demo!

目前给用户部署的路径是,在一台
48Gx2的显卡服务器上跑魔改dify+vllm server(网关都是直接接入用户的内网分配的一个IP),但是能使用的用户比较少。


主要需求是加集群服务器能够容纳更多用户使用

相当于一台机器是个api提供商 (笑

不太懂+1,gpu都可以集群了吗

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。