流式响应 (SSE)
流式响应会让模型边生成边返回,用户看到的是逐字输出。聊天客户端、编码工具和网页应用常用流式响应提升体验。
什么时候用流式
Chat Completions 示例
返回会包含多行 data:,最后通常以 [DONE] 结束。
常见卡住原因
运维配置提示
如果你自建反向代理或 CDN,需要关注:
不同云厂商还可能有响应缓冲、边缘函数超时、WebSocket/SSE 支持开关。
开发者解析建议
- 按行读取
data:。 - 忽略空行和注释行。
- 遇到
[DONE]结束。 - 对 JSON 解析失败的半包要做容错。
- 前端展示和后端累积文本要分开处理。
排障顺序
- 关闭
stream,确认非流式请求成功。 - 开启流式,用 curl 看是否逐段返回。
- 如果 curl 成功但客户端失败,说明是客户端解析问题。
- 如果 curl 也卡住,检查代理、CDN、上游和模型响应时间。
下一步:常见问题排查。
