[OneBalance] 基于 Cloudflare Worker 的轮询项目 更新日志

  • 适配海量 Key 场景:Worker CPU 时间优化,充分压榨 CF free plan
  • Gemini Key 天级精准冷冻到 quota 重置时间(太平洋零点),而不是固定 24h,尽快开始新的一轮压榨
  • Key (per model) 连续 429 触发天级别冷冻禁用
12 个赞

使用GPTLoad 配合 ccr 在 cc下使用,相同的key flash模型很快就429,使用 pro模型一点问题都没有,兄弟知道原因么?

2 个赞

请求会不会都路由到 flash 上了,可以看下 ccr 配置

不过我是直接用的
“ANTHROPIC_MODEL”: “gemini-2.5-pro”,
“ANTHROPIC_SMALL_FAST_MODEL”: “gemini-2.5-flash”,

flash 大概用3次就开始429,pro 用1天都没问题,20个key,大概就下面的使用量
感觉好像flash是高于pro的模型…

Pro 反而少人用系列 ,这样不挺好的吗:grinning_face_with_smiling_eyes:

1 个赞

pro 有个致命问题,会断开,需要不断的继续 继续,没办法我写了个hook自动继续,让他干活,没有flash安逸

太依赖平台,感觉不是很好的方向。
cf 100s 524问题始终是个门槛。

特别是重型任务酒馆佬等。

请问这个hook如何实现的呀

API 超时了吗?我特定加了个 “API_TIMEOUT_MS”: “600000”

Windows 本地安装 GPT-Load 及配置 Gemini 教程 - 开发调优 - LINUX DO

感谢更新。我还真部署了一个玩aistudio gemini,但 OneBalance 好像转发了请求方的 IP,内地及香港的机器都得开代理。

要更新的话,应该如何做?

另外大佬有没计划考虑siliconflow?

没事这个项目就是因为 CF 比较便利才弄的。通用平台有你和 j 佬就够了

不过 ‘cf 100s 524’ 是啥

cf有cpu限制,等待响应100s。
如果超过这个就会中转返回524错误码。

流式输出还好,主要是非流的时候,很多重型任务会超过这个,就直接报错。

OneBalance 好像转发了请求方的 IP,内地及香港的机器都得开代理。

这个确实头疼,worker 的限制。香港我也是 render 部署了个代理绕过去的GitHub - glidea/simple-proxy

要更新的话,应该如何做?

拉一边最新改动,然后再执行 pnpm run deploycf (注意带上的环境变量设置,比如 AUTH_KEY,不记得可以到 worker 页面的设置看)

另外大佬有没计划考虑siliconflow?

做一半鸽了,之后有时间吧

1 个赞

哦下午刚碰到,这次给优化了,现在还行

非流的时候,很多重型任务会超过这个

还没有通过日志观察到这种现象。不过我也是透明代理,想到于直接 io.Copy 到客户端的,应该不算 cpu?

你可以是试一下哪些非常复杂的科学、逻辑、数学题目,开思考、非流。很容易复现。

这个没法优化,是用户发起请求 → 等待上游返回的时间会超过100s。

1 个赞

感谢大佬!

日常使用 cherry studio 感觉很好,不管是主要使用和留作备份都不错;
不用买服务器,部署也不难,佬还时不时维护更新,都挺友好的。
代理的一丢丢问题,也不是很麻烦。

1 个赞

对哦,推理时间会受很大限制

ccr 里5个routers里defaul 和 background还是可以用用?

模型名适配了没,还需要手动添加吗