跳转到主要内容

LLM API 价格比较 2026:按输入和输出 Token 找最低价模型

L
11 分钟阅读LLM API

最低价 LLM API 模型取决于输入、输出、缓存、Batch/Flex、重试和质量门槛;不要只按输入 Token 排序。

LLM API 价格比较 2026:按输入和输出 Token 找最低价模型

最低价 LLM API 模型不是一个永远固定的名字,而是“在你的工作负载里仍然合格的最低成本路线”。截至 2026 年 7 月 2 日,比较时应把官方模型拥有者价格放在第一层,再把缓存命中、输出 Token、Batch/Flex、免费层条款、质量重试和网关合同边界放进同一张决策表。这样做的原因很简单:很多看起来最便宜的输入价,会在长输出、工具调用、失败重试或数据条款上变贵。

工作负载先测试的低价通道当前官方价格锚点什么时候它不再便宜
批量抽取、短回答、缓存命中率高deepseek-v4-flashcache hit 输入 $0.0028,cache miss 输入 $0.14,输出 $0.28 / 1M tokens质量、地区、延迟或可用性不合格时
OpenAI 生态、低价通用调用、Batch/Flexgpt-5-nano$0.05 input,$0.005 cached input,$0.40 output;Batch/Flex 更低输出很长、工具调用多或重试率高时
Google 官方最低 scale lanegemini-2.5-flash-lite$0.10 input,$0.40 output;Batch/Flex $0.05 / $0.20生命周期、质量或新能力要求更适合 3.1 lane 时
Google 新一代高频 lanegemini-3.1-flash-lite$0.25 input,$1.50 output;Batch/Flex $0.125 / $0.75只追求最低 Google token row 时
便宜模型过不了质量线Claude Haiku 4.5$1 input,$5 output / MTok,另有缓存与 Batch 折扣低价模型已经满足质量线时

停止规则:不要只看输入价。先用同一组真实 prompt,计算输入、缓存输入、输出、工具调用、重试、延迟、免费层条款和供应商合同,最后比较“可接受输出成本”。

官方价格表先行

官方页面是第一证据层,因为模型拥有者负责模型 ID、计费单位、价格、折扣模式和可用性。第三方聚合器可以帮你发现候选模型,但不能把它的表格直接当作 OpenAI、Google、DeepSeek、Anthropic 或 Mistral 的官方价格。实用做法是:先看官方价格,再把任何网关或 供应商价格单独标成另一个合同。

截至 2026 年 7 月 2 日,OpenAI pricing 页列出 gpt-5-nano 的标准 input / cached input / output 为 $0.05 / $0.005 / $0.40 per 1M tokens,Batch/Flex 为 $0.025 / $0.0025 / $0.20。Google pricing 页显示 gemini-2.5-flash-lite 是最低的 Google paid text lane:标准 $0.10 input 和 $0.40 output,Batch/Flex $0.05 input 和 $0.20 output;gemini-3.1-flash-lite 更新但更贵。DeepSeek pricing 页列出 deepseek-v4-flash 的 cache-hit input、cache-miss input 和 output 三行。Anthropic pricing 页显示 Claude Haiku 4.5 是 Claude 低价质量 lane,但 raw token row 不是最低。

真实成本公式

真实成本不是单次调用的 sticker price,而是可接受结果的总成本。一个便宜模型如果输出经常不合格,或者每次都需要很长解释和多轮修复,最终可能比更贵但稳定的模型更贵。成本公式至少要包含输入、缓存输入、输出、工具调用、质量重试、Batch/Flex 延迟折扣、地区、税费、数据条款和支持边界。

真实 LLM API 成本公式

建议做法是用 20 到 50 个代表性任务跑同一组 prompt。记录每次输入 tokens、输出 tokens、缓存命中、重试次数、拒答、schema 失败、P50/P95 延迟和最终是否被接受。然后用总账单除以通过质量门槛的输出数量。这个数字比“每百万输入 token 几美分”更接近生产预算。

按工作负载选择第一条低价通道

批量抽取通常先看 cache 命中和 schema 正确率;短摘要要看输出长度是否可控;代码任务要看测试通过率;Agent 循环要看工具调用和重复调用;长上下文要看引用准确率、上下文窗口和延迟;质量关键场景要看人工审阅成本。不同任务的赢家不同,强行选一个“全局最便宜模型”会让成本模型失真。

低价 LLM 模型工作负载矩阵

一个实用路线是先选两条低价 lane,再设定升级条件。比如抽取任务可以从 DeepSeek V4 Flash 和 OpenAI nano 开始;Google 生态可以把 2.5 Flash-Lite 作为最低 scale lane,把 3.1 Flash-Lite 作为新能力候选;质量或合规更重要时再测试 Claude Haiku 4.5。每一次升级都应该由失败证据触发,而不是由品牌偏好触发。

免费层不是生产价格

免费层适合学习接口、验证 prompt、做原型和小流量实验,但它不是生产合同。Google pricing 页会区分 Free Tier 与 Paid Tier,并且免费层和付费层在数据使用、限额、支持和可持续性上可能不同。生产流量需要稳定额度、明确数据条款、可预测账单和故障支持,不能只因为前十次调用免费就把免费层写进预算。

把免费层当作 proof-of-fit,而不是 cost model。上线前至少确认模型 ID、serving mode、quota、rate limit、billing 状态、数据条款、Batch/Flex 资格和超额费用。任何免费路线只要遇到客户数据、长期队列、SLA、可用性或地区合规,就应该重新评估。

网关和 供应商价格是独立合同

OpenRouter、SiliconFlow、laozhang.ai 或其他网关可以很有用:它们可能提供 OpenAI-compatible endpoint、多模型切换、日志、统一支持和迁移便利。但是网关价格不是模型官方价格,除非官方页面也这么写。发布表格时必须把“官方模型拥有者价格”和“provider 自有价格”分开。

如果 provider 报价看起来更低,要核对模型 ID、计费单位、缓存规则、失败调用是否扣费、rate limit、退款、日志、数据条款和支持 owner。对 laozhang.ai 这类网关,安全写法是把它作为需要当前模型列表/API 或控制台验证的路由,而不是把未核验价格冻结成官方价格。

花钱前的验证清单

LLM API 低价模型上线前验证清单

  1. 在官方页面核对模型 ID。
  2. 记录 input、cached input、output 和 Batch/Flex 行。
  3. 用代表性 prompt,不要用玩具样例。
  4. 测 P50/P95 延迟、TPM/RPM 和并发。
  5. 统计重试、拒答、格式错误、工具调用和人工修复。
  6. 区分免费层、付费层、官方价、provider 价和网关费。
  7. 给 Agent 或批量任务设置预算上限和 kill switch。
  8. 发布前重新核验价格和可用性。

推荐起点

如果你只需要最低官方 paid token floor,先测试 DeepSeek V4 Flash,但不要跳过质量、地区和可用性验证。如果你在 OpenAI 生态里做便宜通用调用,先看 gpt-5-nano,并比较 Batch/Flex 是否能接受延迟。如果你要 Google 官方低价 scale lane,先看 gemini-2.5-flash-lite,再判断是否需要 gemini-3.1-flash-lite。如果低价模型反复失败,把 Claude Haiku 4.5 或更高质量模型作为质量成本对照。

最终选择不要写成“模型 A 永远最便宜”。写成“这个工作负载在这组 prompt、这组输出长度、这个缓存命中率、这个质量门槛下,哪个模型的可接受输出成本最低”。这句话才是可维护的成本结论。

预算测试模板

真正做采购或上线评审时,不要把这一页的价格表直接复制进预算。先为自己的业务建一张小账本:每个候选模型跑同一批样例,记录 prompt 长度、系统提示长度、检索片段长度、输出长度、缓存命中率、重试次数、失败原因、人工修复时间、P50/P95 延迟和最终是否被接受。只有这些字段齐全,才能知道低价模型是在帮你省钱,还是只是把成本转移到了重试和人工审阅上。

预算字段记录方法为什么影响最低价
输入 Token固定系统提示、用户问题、RAG 片段和工具 schema长上下文任务可能让低输入价成为核心优势
缓存命中把可复用前缀和不可复用用户内容分开cache-hit 价格低,但只有高命中率才有意义
输出 Token给每个任务设定目标长度和最大长度输出价通常高于输入价,长答案会改写排序
质量重试记录格式错误、事实错误、拒答和人工返工一个便宜但不稳定的模型会产生隐藏成本
批处理折扣标记可异步任务和必须实时返回的任务Batch/Flex 便宜,但延迟不能影响业务流程
合同边界区分官方价、供应商价、网关费和数据条款价格表之外的支持、日志和退款会影响生产选择

建议至少准备三类样例。第一类是稳定、短输出、可缓存的任务,例如标签抽取、字段清洗和客服意图分类;它们最能体现 DeepSeek V4 Flash、OpenAI nano 或 Google Flash-Lite 这类低价 lane 的优势。第二类是输出较长但质量门槛明确的任务,例如摘要、对比、产品说明和批量邮件草稿;这里要看输出价、长度控制和事实错误。第三类是高风险任务,例如代码修改、合同解释、财务分析和多步 Agent;这里 token row 只是入口,测试通过率、工具调用、审计日志和人工复核成本才是决定因素。

如果一个模型在第一类样例里明显便宜,但在第二类样例里输出过长,就不要把它写成全站默认模型。更稳妥的做法是按任务路由:抽取和短回答走低价 lane,长输出任务设置摘要长度和重试上限,代码或合规任务使用更高质量模型做基线。这样你得到的不是一个漂亮但脆弱的“最便宜模型”结论,而是一套能在账单里复现的成本路由。

上线前还要做一次反向验证:把最便宜 lane 的结果交给业务 owner、工程 owner 和安全 owner 各看一遍。业务 owner 判断输出是否能直接使用,工程 owner 判断延迟和错误率能否被系统吸收,安全 owner 判断数据条款和日志保留是否合格。任何一个 owner 给出否定结论,都说明 token 价格还不能转化成生产最低成本。

发布前复核流程

价格敏感页面最容易过期,所以复核流程本身要写进执行清单。第一步,在发布当天重新打开官方 pricing 页面,确认模型 ID、输入价、缓存输入价、输出价和 Batch/Flex 行没有变化。第二步,确认免费层和付费层的条款没有被混用,尤其是数据使用、额度、支持和地区限制。第三步,如果使用网关或 OpenAI-compatible provider,把它的报价、失败扣费、限速、退款和日志 owner 单独列为供应商合同,不要和官方模型拥有者价格混成一列。

第四步,把同一批 prompt 跑一次小规模账单试验。不要只看平均费用,要看 P95 费用和失败任务费用,因为批量任务和 Agent 循环的异常尾部会吞掉低价优势。第五步,写明升级条件:当 schema 失败率超过阈值、人工返工时间超过阈值、延迟超过阈值、或供应商合同不能覆盖数据要求时,自动切到更稳的候选模型。这个升级条件比“某模型最便宜”更适合生产团队执行。

常见问题

现在最便宜的 LLM API 模型是什么?

按本轮官方价格,DeepSeek V4 Flash 和 OpenAI gpt-5-nano 是低价优先检查项,Google gemini-2.5-flash-lite 是最低 Google scale lane。最终赢家仍取决于输出长度、缓存命中、质量重试和合同边界。

DeepSeek 一定最便宜吗?

不一定。它的 cache-hit 和 cache-miss 行很低,但如果质量、延迟、地区、可用性或支持边界不合格,实际成本会被重试和人工修复推高。

免费 LLM API 能不能用于生产?

通常不能直接当生产价格。免费层适合原型和测试,生产需要检查 quota、数据条款、billing、支持和稳定性。

编程任务应该选哪个低价模型?

先用同一组真实代码任务测试 DeepSeek、OpenAI nano、Google Flash-Lite 和你已有生态里的候选模型。用测试通过率、输出长度、重试次数和工具调用成本排序,不要只按输入价排序。

Claude 是否太贵?

Claude Haiku 4.5 的 token row 不是最低,但如果它显著减少重试、人工审阅或合规风险,它可能在质量关键任务里更便宜。

可以相信价格聚合器吗?

可以用来发现候选模型,但不能当官方事实。上线前必须回到模型拥有者页面或 provider 控制台核对。

#LLM API#模型价格#OpenAI API#Gemini API#DeepSeek API
分享文章: