DeepSeek在线服务的统计数据
所有 DeepSeek-V3/R1推理服务都在 H800 GPU 上运行,精度与训练一致。具体来说,矩阵乘法和调度传输采用与训练对齐的 FP8 格式,而核心 MLA 计算和组合传输使用 BF16 格式,确保服务性能最优。
此外,由于白天服务负载高而夜间负载低,我们实施了一种机制,在白天高峰时段将推理服务部署到所有节点。在夜间低负载时段,我们减少推理节点并将资源分配给研究和培训。在过去 24 小时内(UTC+8 2025 年 02 月 27 日 12:00 PM 至 2025 年 02 月 28 日 12:00 PM),V3 和 R1 推理服务的峰值节点占用总数达到 278,平均占用 226.75 个节点(每个节点包含 8 个 H800 GPU)。假设每个 H800 GPU 的租赁成本为每小时 2 美元,总日成本为 87,072 美元。
在 24 小时统计周期内(UTC+8 2025 年 02 月 27 日 12:00 至 2025 年 02 月 28 日 12:00),V3 和 R1:
- 总输入令牌数:608B,其中 342B 令牌(56.3%)命中了磁盘 KV 缓存。
- 总输出令牌数:168B。平均输出速度为每秒 20-22 个令牌,每个输出令牌的平均 kvcache 长度为 4,989 个令牌。
- 每个 H800 节点在预填充期间提供平均~73.7k tokens/s 的输入吞吐量(包括缓存命中),或在解码期间提供~14.8k tokens/s 的输出吞吐量。
上述统计包括来自网页、APP 和 API 的所有用户请求。如果所有 token 都按照 DeepSeek-R1 的定价 (*) 计费,那么每日总收入将为 $562,027,成本利润率将达到 545%。
(*) R1 定价:$0.14/M 输入令牌(缓存命中),$0.55/M 输入令牌(缓存未命中),$2.19/M 输出令牌。
然而,我们的实际收入因以下原因显著较低:
- DeepSeek-V3 的价格显著低于 R1
- 只有部分服务被货币化(网页和 APP 访问仍保持免费),
- 夜间折扣在非高峰时段自动应用。

