Gemini 3.5 Flash 对比 Gemini 3.1 Flash-Lite：API 该选哪一个？

AI Free API Team

•2026年5月21日•7 分钟阅读•AI 模型对比

复杂 agent、代码和工具链任务优先测试 Gemini 3.5 Flash；高量、简单、利润敏感任务只要准确率稳定，就继续保留 Gemini 3.1 Flash-Lite。

Gemini 3.5 Flash 对比 Gemini 3.1 Flash-Lite：API 该选哪一个？

截至 2026 年 5 月 21 日，安全答案不是“新模型一定赢”。当复杂 agent、代码、工具链、长上下文和多步推理能减少重试与人工审查时，优先测试 gemini-3.5-flash。当任务简单、高量、价格敏感，而且 gemini-3.1-flash-lite 已经足够准确时，继续保留 Flash-Lite。

快速答案

场景	先测路线	原因
编码 agent、工具调用、多步分析、产品助手	Gemini 3.5 Flash	更高价格只有在减少重试、工具失败和 review 时间时才值得。
批量抽取、翻译、分类、审核、短摘要	Gemini 3.1 Flash-Lite	只要质量稳定，低输入和低输出价格更适合规模化。
准备迁移生产默认	两者并行	同任务双跑，记录质量、成本、延迟、重试和人工修复。
图片输出、音频输出、Live API、Computer Use	两者都不是	要换到明确支持该运行时的 Gemini 兄弟路线。

这是一道工作负载路由题，不是单纯 benchmark 题。两者的公开 API 合同非常接近，所以真正的问题是：多花的钱能不能换来更少失败，或者低价路线是否已经够稳。Flash-Lite 已经准确时，全局替换只会提高成本；Flash-Lite 频繁返工时，3.5 Flash 反而可能降低完整流程成本。

官方合同快照

Gemini 3.5 Flash 与 Gemini 3.1 Flash-Lite 官方合同表

Google 当前模型页把 gemini-3.5-flash 与 gemini-3.1-flash-lite 都列为 stable 模型。两者都支持文本、图片、视频、音频、PDF 输入，输出为文本，并列出 1,048,576 输入 token 与 65,536 输出 token 窗口。

功能表也不能直接替你选择。2026-05-21 快照中，两者都列出 Batch API、缓存、code execution、file search、function calling、Google Search grounding、Google Maps grounding、structured outputs、thinking、URL context、Flex 和 Priority。也就是说，关键不是“Flash-Lite 能不能接工具”，而是“它在你的任务里是否足够稳”。

合同项	Gemini 3.5 Flash	Gemini 3.1 Flash-Lite
API 模型 ID	`gemini-3.5-flash`	`gemini-3.1-flash-lite`
状态	Stable	Stable
输入输出	多模态输入，文本输出	多模态输入，文本输出
token 窗口	1,048,576 输入，65,536 输出	1,048,576 输入，65,536 输出
默认理解	更强质量路线	更低成本规模路线

停止规则必须写清楚：除非官方模型页变化，否则不要把这两行当成图片生成、音频生成、Live API 或 Computer Use 路线。

成本与完整流程价格

Gemini 3.5 Flash 与 Flash-Lite 成本路线图

2026-05-21 价格快照中，Gemini 3.5 Flash Standard paid 行是每 1M token 输入 1.50 美元、输出 9.00 美元；Gemini 3.1 Flash-Lite Standard paid 行是输入 0.30 美元、输出 2.50 美元。Batch/Flex 也明显偏向 Flash-Lite：3.5 Flash 是 0.75/4.50，Flash-Lite 是 0.15/1.25。价格页还显示 Standard Free Tier 行，但真实可用性取决于账号、区域、计费状态、额度和实时文档。

不要只看 token 价格。小请求里输出价格可能主导账单；agent 任务里重试、工具失败、人工 review 才是大头。高价模型如果少掉两轮工具失败，可能更便宜；低价模型如果任务可验证、可重复、结构简单，就不应该被“新模型”替换。

工作负载路由矩阵

最实用的判断是失败成本。错误会引发调试、坏代码、工具循环或客服升级时，优先测 3.5 Flash；结果容易验证、任务大规模重复时，优先保留 Flash-Lite。

任务	先测	另一条路线保留给
编码 agent trace	3.5 Flash	便宜的 lint 摘要、issue 分类。
多模态客服工单	3.5 Flash	结构固定后的标签、路由、短摘要。
翻译与改写变体	Flash-Lite	难源文、品牌语气、歧义救援。
数据抽取	Flash-Lite	混合 PDF、长证据包、复杂校验。
产品助手	3.5 Flash	低风险后台总结或兜底路线。

不要把一个全局 Gemini 默认值替换成另一个全局默认值。配置里保留 quality route 和 margin route，然后按任务分配。

安全切换清单

Gemini 3.5 Flash 与 Gemini 3.1 Flash-Lite 同任务切换清单

生产默认变更前，必须同任务双跑。同一 prompt、同一输入、同一检索包、同一工具、同一超时、同一 token 预算、同一 validator。记录模型 ID、计费模式、延迟、重试、输入输出 token、工具失败、schema 失败、review 分钟和最终是否接受。

只有当 3.5 Flash 降低完整流程成本或明显提高可接受质量时才提升它。简单任务准确、便宜、容易验证时继续保留 Flash-Lite。两轮真实任务评估通过前，不要移除任一路由。发布 benchmark 或社交截图不是迁移计划。

相邻 Gemini 决策

更细的 Gemini 后续问题可以看 Gemini 3.5 Flash 能力指南, Gemini API 免费层指南, Gemini API 与 Vertex AI 路线, Flash 系列运行时指南。2026-05-21 核对来源：Google AI 模型页、Gemini API 价格页、changelog、deprecations 和 Google 发布文章。 Pricing, free-tier access, model availability, and preview shutdown dates can change, so recheck the live official pages before changing production defaults.

常见问题

Gemini 3.5 Flash 一定比 Gemini 3.1 Flash-Lite 好吗？

不是。复杂 agent 和编码任务应优先测试 3.5 Flash，但简单高量任务里 Flash-Lite 可能仍是更好的生产默认。

两个模型都是 stable 吗？

在 2026-05-21 官方模型页快照中，gemini-3.5-flash 和 gemini-3.1-flash-lite 都列为 stable。

Flash-Lite preview 还能用于生产吗？

生产应使用稳定的 gemini-3.1-flash-lite。Google deprecations 页面把 gemini-3.1-flash-lite-preview 列为 2026-05-25 关闭。

哪个更便宜？

按 2026-05-21 paid Standard 和 Batch/Flex 行，Gemini 3.1 Flash-Lite 更便宜。发布硬价格前必须重查官方价格页。

应该两个都放进路由器吗？

生产团队应该保留质量路线和利润路线，再按任务类型路由，而不是按模型品牌全局替换。

截至 2026 年 5 月 21 日，安全答案不是“新模型一定赢”。当复杂 agent、代码、工具链、长上下文和多步推理能减少重试与人工审查时，优先测试 gemini-3.5-flash。当任务简单、高量、价格敏感，而且 gemini-3.1-flash-lite 已经足够准确时，继续保留 Flash-Lite。