流式响应 (SSE)

流式响应会让模型边生成边返回，用户看到的是逐字输出。聊天客户端、编码工具和网页应用常用流式响应提升体验。

什么时候用流式

场景	是否建议开启
普通聊天	建议开启
长文本生成	建议开启
后端批处理	可关闭，方便拿完整 JSON
排障阶段	先关闭，确认非流式可用
客户端兼容性差	先关闭

Chat Completions 示例

curl https://www.wanmoapi.com/v1/chat/completions \
  -H "Authorization: Bearer $WANMO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5.4-mini",
    "stream": true,
    "messages": [
      { "role": "user", "content": "写一段 100 字介绍万模API" }
    ]
  }'

返回会包含多行 data:，最后通常以 [DONE] 结束。

常见卡住原因

现象	原因	处理
客户端一直转圈	SSE 没解析结束事件	先关闭流式验证
Nginx 后面不实时输出	代理缓冲开启	关闭 `proxy_buffering`
中途断开	超时太短	增大 `proxy_read_timeout`
只在某个客户端失败	客户端流式兼容问题	换非流式或换客户端验证

运维配置提示

如果你自建反向代理或 CDN，需要关注：

proxy_buffering off;
proxy_read_timeout 300s;
proxy_http_version 1.1;

不同云厂商还可能有响应缓冲、边缘函数超时、WebSocket/SSE 支持开关。

开发者解析建议

按行读取 data:。
忽略空行和注释行。
遇到 [DONE] 结束。
对 JSON 解析失败的半包要做容错。
前端展示和后端累积文本要分开处理。

排障顺序

关闭 stream，确认非流式请求成功。
开启流式，用 curl 看是否逐段返回。
如果 curl 成功但客户端失败，说明是客户端解析问题。
如果 curl 也卡住，检查代理、CDN、上游和模型响应时间。

下一步：常见问题排查。

#流式响应 (SSE)

#什么时候用流式

#Chat Completions 示例

#常见卡住原因

#运维配置提示

#开发者解析建议

#排障顺序

流式响应 (SSE)

什么时候用流式

Chat Completions 示例

常见卡住原因

运维配置提示

开发者解析建议

排障顺序