计费说明

万模API 以令牌、模型价格、分组策略和动态计费规则为基础进行按量计费。不同模型、不同上游、不同上下文长度和不同服务档位,价格可能不同。

一句话理解

你可以把一次调用的费用理解为:

实际扣费 = 输入用量 × 输入价格 + 输出用量 × 输出价格 + 其他多模态用量 × 对应价格

如果模型启用了动态计费,还会根据上下文长度、服务层级、请求参数或时间规则进入不同价格档位。

核心概念

概念说明
输入 token用户消息、系统提示词、历史上下文等输入内容
输出 token模型生成的回复内容
缓存 token命中上下文缓存时的读写成本
图片/音频/视频用量多模态模型可能按张、秒、token 或任务计费
倍率管理员配置的模型价格系数
分组不同用户或令牌可使用不同模型、价格和限流策略

示例:普通文本对话

假设某模型配置为:

项目示例价格
输入$2 / 1M tokens
输出$8 / 1M tokens

一次请求消耗:

用量数值
输入10,000 tokens
输出2,000 tokens

则费用约为:

10,000 / 1,000,000 × 2 + 2,000 / 1,000,000 × 8 = 0.036 USD

实际展示会按系统货币设置和汇率转换。

动态计费是什么

部分模型不是固定单价,而是按条件进入不同档位。例如:

条件档位说明
上下文较短standard普通价格
上下文超过阈值long_context长上下文价格
service_tier=flexflex低成本档位
service_tier=prioritypriority高优先级档位

动态计费常见于长上下文模型、不同服务层级模型和多模态模型。

分组会影响什么

令牌所属分组可能影响:

  • 可用模型列表。
  • 模型价格倍率。
  • 请求限流和并发。
  • 渠道优先级。
  • 是否允许某些高级模型。

如果你看到“模型不存在”,但别人能用同一个模型,优先检查令牌分组。

在哪里看实际账单

  1. 打开控制台。
  2. 进入调用日志或消费记录。
  3. 查看模型、输入输出用量、扣费、错误信息。 收费日志

常见问题

为什么同一个模型每次扣费不同?

常见原因是输入长度、输出长度、是否命中缓存、是否进入长上下文档位不同。

为什么客户端显示的 token 和账单不同?

不同客户端的 token 估算方式可能不同。最终以网关实际记录和上游返回用量为准。

请求失败会扣费吗?

通常未成功进入模型推理的请求不会按正常完成请求计费。若上游已产生用量,具体以调用日志为准。

价格表在哪里?

实时价格以主站价格页和控制台配置为准。