限流与并发

限流用于保护网关和上游渠道稳定性。限制可能来自令牌、用户分组、模型、渠道或上游供应商。

常见表现

  • 返回 429。
  • 流式响应中途断开。
  • 同一客户端高并发请求时部分失败。
  • 翻译插件长网页翻译时前几段成功、后几段失败。
  • 批量任务一开始正常,随后集中失败。

哪些工具容易触发限流

工具 / 场景原因建议
沉浸式翻译长网页会拆成很多请求降低并发,使用轻量模型
Dify 工作流一个用户动作可能触发多个节点给工作流设置重试和超时
AnythingLLM 索引文档切片会批量调用 Embedding分批上传文档
Codex / Cline任务中可能多次读写和请求模型缩小任务范围
自写脚本循环并发请求加队列、退避和重试

排查建议

  1. 降低客户端并发和每秒请求数。
  2. 检查令牌是否属于受限分组。
  3. 对批处理任务增加重试和退避。
  4. 使用调用日志确认失败集中在哪个模型或时间段。
  5. 换一个模型测试,判断是否是单个上游限流。

重试策略建议

开发者自写脚本时建议:

  • 429、502、503、504 可以重试。
  • 401、403、404 model not found 不要盲目重试。
  • 重试间隔逐步增加,例如 1s、2s、4s、8s。
  • 设置最大重试次数,避免无限循环消耗。
  • 对非幂等任务要保存任务 ID,避免重复创建图像/视频任务。

客户端用户怎么调

客户端可尝试设置
翻译插件降低每秒请求数、减少并发段落
Dify降低工作流并发、减少批处理输入
AnythingLLM分批索引文档
Codex / Cline让工具一次只处理一个小任务
ChatBox / Cherry Studio关闭自动重试或降低并发对话

什么时候联系管理员

如果你已经降低并发,仍然稳定出现 429,请提供:

  • 令牌名称。
  • 模型名。
  • 时间段。
  • 客户端或脚本并发设置。
  • 控制台调用日志截图。

下一步:常见问题排查