LLM API 价格比较 2026：按输入和输出 Token 找最低价模型

LaoZhang AI Team

•2026年7月2日•11 分钟阅读•LLM API

最低价 LLM API 模型取决于输入、输出、缓存、Batch/Flex、重试和质量门槛；不要只按输入 Token 排序。

最低价 LLM API 模型不是一个永远固定的名字，而是“在你的工作负载里仍然合格的最低成本路线”。截至 2026 年 7 月 2 日，比较时应把官方模型拥有者价格放在第一层，再把缓存命中、输出 Token、Batch/Flex、免费层条款、质量重试和网关合同边界放进同一张决策表。这样做的原因很简单：很多看起来最便宜的输入价，会在长输出、工具调用、失败重试或数据条款上变贵。

工作负载	先测试的低价通道	当前官方价格锚点	什么时候它不再便宜
批量抽取、短回答、缓存命中率高	`deepseek-v4-flash`	cache hit 输入 $0.0028，cache miss 输入 $0.14，输出 $0.28 / 1M tokens	质量、地区、延迟或可用性不合格时
OpenAI 生态、低价通用调用、Batch/Flex	`gpt-5-nano`	$0.05 input，$0.005 cached input，$0.40 output；Batch/Flex 更低	输出很长、工具调用多或重试率高时
Google 官方最低 scale lane	`gemini-2.5-flash-lite`	$0.10 input，$0.40 output；Batch/Flex $0.05 / $0.20	生命周期、质量或新能力要求更适合 3.1 lane 时
Google 新一代高频 lane	`gemini-3.1-flash-lite`	$0.25 input，$1.50 output；Batch/Flex $0.125 / $0.75	只追求最低 Google token row 时
便宜模型过不了质量线	Claude Haiku 4.5	$1 input，$5 output / MTok，另有缓存与 Batch 折扣	低价模型已经满足质量线时

停止规则：不要只看输入价。先用同一组真实 prompt，计算输入、缓存输入、输出、工具调用、重试、延迟、免费层条款和供应商合同，最后比较“可接受输出成本”。

官方价格表先行

官方页面是第一证据层，因为模型拥有者负责模型 ID、计费单位、价格、折扣模式和可用性。第三方聚合器可以帮你发现候选模型，但不能把它的表格直接当作 OpenAI、Google、DeepSeek、Anthropic 或 Mistral 的官方价格。实用做法是：先看官方价格，再把任何网关或供应商价格单独标成另一个合同。

截至 2026 年 7 月 2 日，OpenAI pricing 页列出 gpt-5-nano 的标准 input / cached input / output 为 $0.05 / $0.005 / $0.40 per 1M tokens，Batch/Flex 为 $0.025 / $0.0025 / $0.20。Google pricing 页显示 gemini-2.5-flash-lite 是最低的 Google paid text lane：标准 $0.10 input 和 $0.40 output，Batch/Flex $0.05 input 和 $0.20 output；gemini-3.1-flash-lite 更新但更贵。DeepSeek pricing 页列出 deepseek-v4-flash 的 cache-hit input、cache-miss input 和 output 三行。Anthropic pricing 页显示 Claude Haiku 4.5 是 Claude 低价质量 lane，但 raw token row 不是最低。

真实成本公式

真实成本不是单次调用的 sticker price，而是可接受结果的总成本。一个便宜模型如果输出经常不合格，或者每次都需要很长解释和多轮修复，最终可能比更贵但稳定的模型更贵。成本公式至少要包含输入、缓存输入、输出、工具调用、质量重试、Batch/Flex 延迟折扣、地区、税费、数据条款和支持边界。

真实 LLM API 成本公式

建议做法是用 20 到 50 个代表性任务跑同一组 prompt。记录每次输入 tokens、输出 tokens、缓存命中、重试次数、拒答、schema 失败、P50/P95 延迟和最终是否被接受。然后用总账单除以通过质量门槛的输出数量。这个数字比“每百万输入 token 几美分”更接近生产预算。

按工作负载选择第一条低价通道

批量抽取通常先看 cache 命中和 schema 正确率；短摘要要看输出长度是否可控；代码任务要看测试通过率；Agent 循环要看工具调用和重复调用；长上下文要看引用准确率、上下文窗口和延迟；质量关键场景要看人工审阅成本。不同任务的赢家不同，强行选一个“全局最便宜模型”会让成本模型失真。

低价 LLM 模型工作负载矩阵

一个实用路线是先选两条低价 lane，再设定升级条件。比如抽取任务可以从 DeepSeek V4 Flash 和 OpenAI nano 开始；Google 生态可以把 2.5 Flash-Lite 作为最低 scale lane，把 3.1 Flash-Lite 作为新能力候选；质量或合规更重要时再测试 Claude Haiku 4.5。每一次升级都应该由失败证据触发，而不是由品牌偏好触发。

免费层不是生产价格

免费层适合学习接口、验证 prompt、做原型和小流量实验，但它不是生产合同。Google pricing 页会区分 Free Tier 与 Paid Tier，并且免费层和付费层在数据使用、限额、支持和可持续性上可能不同。生产流量需要稳定额度、明确数据条款、可预测账单和故障支持，不能只因为前十次调用免费就把免费层写进预算。

把免费层当作 proof-of-fit，而不是 cost model。上线前至少确认模型 ID、serving mode、quota、rate limit、billing 状态、数据条款、Batch/Flex 资格和超额费用。任何免费路线只要遇到客户数据、长期队列、SLA、可用性或地区合规，就应该重新评估。

网关和供应商价格是独立合同

OpenRouter、SiliconFlow、laozhang.ai 或其他网关可以很有用：它们可能提供 OpenAI-compatible endpoint、多模型切换、日志、统一支持和迁移便利。但是网关价格不是模型官方价格，除非官方页面也这么写。发布表格时必须把“官方模型拥有者价格”和“provider 自有价格”分开。

如果 provider 报价看起来更低，要核对模型 ID、计费单位、缓存规则、失败调用是否扣费、rate limit、退款、日志、数据条款和支持 owner。对 laozhang.ai 这类网关，安全写法是把它作为需要当前模型列表/API 或控制台验证的路由，而不是把未核验价格冻结成官方价格。

花钱前的验证清单

LLM API 低价模型上线前验证清单

在官方页面核对模型 ID。
记录 input、cached input、output 和 Batch/Flex 行。
用代表性 prompt，不要用玩具样例。
测 P50/P95 延迟、TPM/RPM 和并发。
统计重试、拒答、格式错误、工具调用和人工修复。
区分免费层、付费层、官方价、provider 价和网关费。
给 Agent 或批量任务设置预算上限和 kill switch。
发布前重新核验价格和可用性。

预算测试模板

真正做采购或上线评审时，不要把这一页的价格表直接复制进预算。先为自己的业务建一张小账本：每个候选模型跑同一批样例，记录 prompt 长度、系统提示长度、检索片段长度、输出长度、缓存命中率、重试次数、失败原因、人工修复时间、P50/P95 延迟和最终是否被接受。只有这些字段齐全，才能知道低价模型是在帮你省钱，还是只是把成本转移到了重试和人工审阅上。

预算字段	记录方法	为什么影响最低价
输入 Token	固定系统提示、用户问题、RAG 片段和工具 schema	长上下文任务可能让低输入价成为核心优势
缓存命中	把可复用前缀和不可复用用户内容分开	cache-hit 价格低，但只有高命中率才有意义
输出 Token	给每个任务设定目标长度和最大长度	输出价通常高于输入价，长答案会改写排序
质量重试	记录格式错误、事实错误、拒答和人工返工	一个便宜但不稳定的模型会产生隐藏成本
批处理折扣	标记可异步任务和必须实时返回的任务	Batch/Flex 便宜，但延迟不能影响业务流程
合同边界	区分官方价、供应商价、网关费和数据条款	价格表之外的支持、日志和退款会影响生产选择

建议至少准备三类样例。第一类是稳定、短输出、可缓存的任务，例如标签抽取、字段清洗和客服意图分类；它们最能体现 DeepSeek V4 Flash、OpenAI nano 或 Google Flash-Lite 这类低价 lane 的优势。第二类是输出较长但质量门槛明确的任务，例如摘要、对比、产品说明和批量邮件草稿；这里要看输出价、长度控制和事实错误。第三类是高风险任务，例如代码修改、合同解释、财务分析和多步 Agent；这里 token row 只是入口，测试通过率、工具调用、审计日志和人工复核成本才是决定因素。

如果一个模型在第一类样例里明显便宜，但在第二类样例里输出过长，就不要把它写成全站默认模型。更稳妥的做法是按任务路由：抽取和短回答走低价 lane，长输出任务设置摘要长度和重试上限，代码或合规任务使用更高质量模型做基线。这样你得到的不是一个漂亮但脆弱的“最便宜模型”结论，而是一套能在账单里复现的成本路由。

上线前还要做一次反向验证：把最便宜 lane 的结果交给业务 owner、工程 owner 和安全 owner 各看一遍。业务 owner 判断输出是否能直接使用，工程 owner 判断延迟和错误率能否被系统吸收，安全 owner 判断数据条款和日志保留是否合格。任何一个 owner 给出否定结论，都说明 token 价格还不能转化成生产最低成本。

发布前复核流程

价格敏感页面最容易过期，所以复核流程本身要写进执行清单。第一步，在发布当天重新打开官方 pricing 页面，确认模型 ID、输入价、缓存输入价、输出价和 Batch/Flex 行没有变化。第二步，确认免费层和付费层的条款没有被混用，尤其是数据使用、额度、支持和地区限制。第三步，如果使用网关或 OpenAI-compatible provider，把它的报价、失败扣费、限速、退款和日志 owner 单独列为供应商合同，不要和官方模型拥有者价格混成一列。

第四步，把同一批 prompt 跑一次小规模账单试验。不要只看平均费用，要看 P95 费用和失败任务费用，因为批量任务和 Agent 循环的异常尾部会吞掉低价优势。第五步，写明升级条件：当 schema 失败率超过阈值、人工返工时间超过阈值、延迟超过阈值、或供应商合同不能覆盖数据要求时，自动切到更稳的候选模型。这个升级条件比“某模型最便宜”更适合生产团队执行。

常见问题

现在最便宜的 LLM API 模型是什么？

按本轮官方价格，DeepSeek V4 Flash 和 OpenAI gpt-5-nano 是低价优先检查项，Google gemini-2.5-flash-lite 是最低 Google scale lane。最终赢家仍取决于输出长度、缓存命中、质量重试和合同边界。

DeepSeek 一定最便宜吗？

不一定。它的 cache-hit 和 cache-miss 行很低，但如果质量、延迟、地区、可用性或支持边界不合格，实际成本会被重试和人工修复推高。

免费 LLM API 能不能用于生产？

通常不能直接当生产价格。免费层适合原型和测试，生产需要检查 quota、数据条款、billing、支持和稳定性。

编程任务应该选哪个低价模型？

先用同一组真实代码任务测试 DeepSeek、OpenAI nano、Google Flash-Lite 和你已有生态里的候选模型。用测试通过率、输出长度、重试次数和工具调用成本排序，不要只按输入价排序。

Claude 是否太贵？

Claude Haiku 4.5 的 token row 不是最低，但如果它显著减少重试、人工审阅或合规风险，它可能在质量关键任务里更便宜。

可以相信价格聚合器吗？

可以用来发现候选模型，但不能当官方事实。上线前必须回到模型拥有者页面或 provider 控制台核对。

官方价格表先行

截至 2026 年 7 月 2 日，OpenAI pricing 页列出 gpt-5-nano 的标准 input / cached input / output 为 $0.05 / $0.005 / $0.40 per 1M tokens，Batch/Flex 为 $0.025 / $0.0025 / $0.20。Google pricing 页显示 gemini-2.5-flash-lite 是最低的 Google paid text lane：标准 $0.10 input 和 $0.40 output，Batch/Flex $0.05 input 和 $0.20 output；gemini-3.1-flash-lite 更新但更贵。DeepSeek pricing 页列出 deepseek-v4-flash 的 cache-hit input、cache-miss input 和 output 三行。Anthropic pricing 页显示 Claude Haiku 4.5 是 Claude 低价质量 lane，但 raw token row 不是最低。

真实成本公式

按工作负载选择第一条低价通道

免费层不是生产价格

网关和供应商价格是独立合同

花钱前的验证清单

1. 在官方页面核对模型 ID。 2. 记录 input、cached input、output 和 Batch/Flex 行。 3. 用代表性 prompt，不要用玩具样例。 4. 测 P50/P95 延迟、TPM/RPM 和并发。 5. 统计重试、拒答、格式错误、工具调用和人工修复。 6. 区分免费层、付费层、官方价、provider 价和网关费。 7. 给 Agent 或批量任务设置预算上限和 kill switch。 8. 发布前重新核验价格和可用性。

推荐起点

如果你只需要最低官方 paid token floor，先测试 DeepSeek V4 Flash，但不要跳过质量、地区和可用性验证。如果你在 OpenAI 生态里做便宜通用调用，先看 gpt-5-nano，并比较 Batch/Flex 是否能接受延迟。如果你要 Google 官方低价 scale lane，先看 gemini-2.5-flash-lite，再判断是否需要 gemini-3.1-flash-lite。如果低价模型反复失败，把 Claude Haiku 4.5 或更高质量模型作为质量成本对照。

预算测试模板

发布前复核流程

常见问题

现在最便宜的 LLM API 模型是什么？

按本轮官方价格，DeepSeek V4 Flash 和 OpenAI gpt-5-nano 是低价优先检查项，Google gemini-2.5-flash-lite 是最低 Google scale lane。最终赢家仍取决于输出长度、缓存命中、质量重试和合同边界。

DeepSeek 一定最便宜吗？

不一定。它的 cache-hit 和 cache-miss 行很低，但如果质量、延迟、地区、可用性或支持边界不合格，实际成本会被重试和人工修复推高。

免费 LLM API 能不能用于生产？

通常不能直接当生产价格。免费层适合原型和测试，生产需要检查 quota、数据条款、billing、支持和稳定性。

编程任务应该选哪个低价模型？

Claude 是否太贵？

Claude Haiku 4.5 的 token row 不是最低，但如果它显著减少重试、人工审阅或合规风险，它可能在质量关键任务里更便宜。

可以相信价格聚合器吗？

可以用来发现候选模型，但不能当官方事实。上线前必须回到模型拥有者页面或 provider 控制台核对。

#LLM API#模型价格#OpenAI API#Gemini API#DeepSeek API

分享文章:

官方价格表先行

真实成本公式

按工作负载选择第一条低价通道

免费层不是生产价格

网关和 供应商价格是独立合同

花钱前的验证清单

推荐起点

预算测试模板

发布前复核流程

常见问题

现在最便宜的 LLM API 模型是什么？

DeepSeek 一定最便宜吗？

免费 LLM API 能不能用于生产？

编程任务应该选哪个低价模型？

Claude 是否太贵？

可以相信价格聚合器吗？

网关和供应商价格是独立合同