Token 成本是怎么计算的
大模型 API 定价通常会拆成输入成本和输出成本。输入部分对应你发送给模型的内容,输出部分对应模型生成并返回给你的内容。
如果一个模型的输入价格和输出价格不同,那么长回复场景下的成本增长通常会比短回复更快。这也是为什么在预算估算时,最好把 prompt cost 和 completion cost 分开看,而不是只看一个混合单价。
在真实业务里,每日请求量和 token 数同样重要。单次请求看起来很便宜,但一旦乘上成千上万次日请求,就会迅速变成一条需要认真管理的月度预算项目。
如果你已经不只是在算一个模型,而是想直接比较多个候选模型谁更省,可以继续去 LLM API 价格对比工具;如果你在评估自建推理值不值得,也可以去看 GPU vs API 成本计算器。