跳转到主要内容

Gemini 3.5 Flash 与 Gemini 3.1 Pro Preview:换、留,还是双路由?

A
12 分钟阅读AI 模型对比

Gemini 3.5 Flash 适合先接管快节奏代理、编码和工具调用链路,但 Gemini 3.1 Pro Preview 仍应保留在深推理、长文档和 customtools 敏感任务里。

Gemini 3.5 Flash 与 Gemini 3.1 Pro Preview:换、留,还是双路由?

截至 2026 年 5 月 21 日,如果你的新链路是低延迟代理、编码循环、函数调用、批量文本处理或需要高并发的 Gemini API 任务,先用 gemini-3.5-flash 做评测;如果链路依赖深推理、长文档合成、一次回答的正确率,或已经验证过 gemini-3.1-pro-preview-customtools,就不要把 gemini-3.1-pro-preview 直接删掉。

决策第一条路由适用场景停止条件
向 Flash 迁移gemini-3.5-flash编码代理、工具调用、客服自动化、多模态输入转文本、高吞吐评测质量、延迟、失败日志和回滚阈值全部过线后再升默认
保留 Pro Previewgemini-3.1-pro-preview深推理、长文档、复杂代码审查、风险较高的一次性判断不要把发布跑分当成每个 Pro 任务都过时的证明
双路由两个 model ID 都在路由器里同一产品里同时存在快任务和难任务只有同题评测、token 日志、工具日志、p95 和 fallback 记录齐全时才放量

Google AI for Developers 目前把 Gemini 3.5 Flash 标为 stable,把 Gemini 3.1 Pro Preview 标为 preview;官方价格页也显示两者的付费 token 线不同。真正的结论不是“Flash 完胜”,而是把任务分成快、难、长、工具敏感、成本敏感几类,再决定哪一类先交给 Flash,哪一类继续保留 Pro。

变化不只是名字

Gemini 3.5 Flash 不是 Gemini 3.1 Pro Preview 的改名。官方模型页列出的 API ID 是 gemini-3.5-flash,状态是 stable,输入覆盖文本、图片、视频、音频和 PDF,输出是文本。Gemini 3.1 Pro Preview 的 API ID 是 gemini-3.1-pro-preview,状态仍是 preview,另有 gemini-3.1-pro-preview-customtools 这个单独端点。

这一区别会影响生产风险。stable Flash 更适合先进入默认路由,因为生命周期风险低一些,延迟和吞吐通常更利于代理循环。preview Pro 仍可能是更稳的难题路由,因为某些长文档、审计、代码库分析和多步推理对第一次回答质量更敏感。

Gemini 3.5 Flash 与 Gemini 3.1 Pro Preview 的官方合约矩阵

两者的表面能力很接近:都列出 1,048,576 token 输入窗口和 65,536 token 输出窗口,都支持 function calling、code execution、structured outputs、thinking、search grounding、Maps grounding、URL context、caching、Batch、Flex 和 Priority inference。差异不是“谁有上下文谁没有”,而是稳定性、速度定位、preview 风险和 customtools 端点边界。

也要把错误分支提前排除。Gemini 3.5 Flash 目前不列出音频生成、图片生成、Live API 或 Computer Use;Gemini 3.1 Pro Preview 也不列出图片生成、音频生成或 Live API。产品要的是语音、图片输出或 UI 控制时,这组比较不能替代真正的能力路由。

Flash 应该先测哪些任务

先测 Flash 的场景通常不是“只要回答最聪明”,而是“快循环能不能把整条工作流跑完”。编码代理、工具规划、函数调用、结构化输出、多模态资料转文本、高并发客服、批量归纳和可回放评测,都适合让 gemini-3.5-flash 先进入评测队列。

Google 的 Gemini 3.5 发布说明把 3.5 Flash 放在 agentic coding、tool use 和多模态任务上,并声称它在 Terminal-Bench 2.1、GDPval-AA 和 MCP Atlas 等指标上超过 3.1 Pro。把这些当作方向信号,而不是替代你自己的评测。生产里要看的不是发布稿,而是它能不能减少 wall-clock time、工具重试、人工修正、失败请求和 fallback 次数。

工作负载为什么 Flash 先测必须记录的指标
编码代理循环工具调用、代码执行、结构化输出和低延迟都影响体验任务通过率、工具调用成功率、编辑正确率、p95、重试数
高并发客服或运营机器人吞吐、失败恢复和升级率比最强推理更关键接受率、转人工率、单工单成本、fallback 原因
多模态输入转文本输入类型覆盖广,输出文本适合审阅和抽取抽取准确率、幻觉率、token 使用、人工复核负担
带 grounding 的任务Search grounding 和 URL context 都在能力面里来源使用、时效错误、检索失败、回退模型
批量评测或离线分析Batch/Flex 可能改变延迟容忍任务的经济性总费用、完成时间、失败重跑、吞吐稳定性

如果你的任务只是短抽取、低利润分类或简单改写,也不要只因为名字里有 Flash 就默认它最便宜。还要和更低价的 Gemini 兄弟模型、现有路由、供应商价和免费层限制一起算。单模型能力细节可以参考 Gemini 3.5 Flash 能力指南,但当前选型的核心是生产路由。

Pro Preview 仍然保留在哪里

保留 gemini-3.1-pro-preview 的理由不是怀旧,而是风险控制。长合同、合规材料、复杂代码库审查、多证据合成、金融或政策判断、抽象推理题,以及需要一次回答尽量正确的任务,都可能让 Pro Preview 继续有价值。

速度快但重试多,并不一定便宜。Flash 如果在难题上多出人工复核、二次调用、工具失败或下游修正,完成任务成本可能反而更高。Pro Preview 是 preview 路由,需要生命周期谨慎,但 preview 不等于没有生产价值。

gemini-3.1-pro-preview-customtools 要单独看。生产任务如果依赖 customtools 的 bash-like 行为、工具约定或已经调过的端点行为,不能把 model ID 批量改成 gemini-3.5-flash 就算完成迁移。替换对象不是“名字”,而是运行时合约。

需求Pro 仍有价值的原因替换前要让 Flash 通过什么测试
深推理一次正确回答可能比快几秒更省成本回放 hardest cases,并评分推理质量
长文档审查上下文窗口相同,但 Pro 的推理画像仍可能更稳比较证据保留、遗漏细节和引用错误
customtools 任务customtools 是单独端点合约明确测试工具行为、参数、错误恢复和权限边界
高风险分析失败归属和人工复核比首 token 更重要记录 reviewer 修改、失败决策成本和回滚条件
混合工作负载有些请求很容易,有些请求确实很难按请求类别路由,而不是全局换默认模型

如果你的问题仍是 Gemini 3.1 Pro Preview 的免费 API、配额、迁移 ID 或旧 gemini-3-pro-preview 怎么处理,先看 Gemini 3.1 Pro Preview 免费 API 指南。当前决策更窄:3.5 Flash 是否应接管一部分 API 任务。

价格要按完成任务成本算

Google Gemini API pricing 在 2026 年 5 月 21 日显示,Gemini 3.5 Flash Standard 在 Free Tier 免费,Paid Tier 为每 100 万 token 输入 $1.50、输出 $9.00。Gemini 3.1 Pro Preview 的付费价格为 200K prompt 以内输入 $2.00、输出 $12.00,超过 200K 后输入 $4.00、输出 $18.00。免费层可用性、Batch、Flex、Priority 和供应商价都要分开写,不要混成一句。

Gemini 3.5 Flash 与 Gemini 3.1 Pro Preview 的成本路线图

只看 token 单价,Flash 通常更便宜。但上线决策应按完成任务成本来算。一次调用便宜,如果经常失败、重试、回退到 Pro 或需要人工改答案,最终成本就会被吞掉。Pro 单价更高,但如果它在难题上减少重试和复核,也可能让完成成本更低。

成本项为什么不能省略
输入和输出 token输出长的任务很快由输出价主导
thinking 与推理行为更难的路线可能用更多 token,但减少重做
工具调用工具循环失败会制造隐藏成本
重试和 fallback便宜首调若常常二调,就不便宜
人工复核人力修正往往比 token 差价更贵
延迟慢而准和快而错要按产品体验计算

实用规则很简单:速度、吞吐和工具成功率能改善整条工作流时,把 Flash 放前面;一次正确答案能避免昂贵返工时,让 Pro Preview 保留。价格、免费层和 quota 还在变化,写进客户承诺或代码注释前要再查一次官方页。配额和免费层问题可以单独看 Gemini API 免费层指南

路由器比全局替换安全

最安全的迁移方式不是全库查找 gemini-3.1-pro-preview 然后替换成 gemini-3.5-flash。先把请求打标签,再让路由器按任务归属选模型。最小版本可以只有五个布尔字段,但必须记录结果。

请求类别默认路由原因
工具密集代理动作gemini-3.5-flash速度、工具循环和吞吐通常是瓶颈
编码迭代gemini-3.5-flash,复杂审查回退 ProFlash 值得先测,但难 debug 可能仍要 Pro
长文档合成gemini-3.1-pro-preview 或双评测漏掉关键细节比 token 差价更贵
多模态输入转文本gemini-3.5-flash输入面广且速度定位更适合
customtools 路径保留 gemini-3.1-pro-preview-customtools端点行为属于合约,不只是名字
低价高量抽取Flash 与更便宜兄弟模型一起比Flash 未必是最低成本路线
高风险推理Pro 路由或人工审批风险控制优先于首响速度
ts
type RouteInput = { isToolHeavy: boolean; needsLowLatency: boolean; isLongDocument: boolean; needsDeepReasoning: boolean; usesCustomToolsEndpoint: boolean; }; export function chooseGeminiModel(input: RouteInput) { if (input.usesCustomToolsEndpoint) return "gemini-3.1-pro-preview-customtools"; if (input.isLongDocument || input.needsDeepReasoning) return "gemini-3.1-pro-preview"; if (input.isToolHeavy || input.needsLowLatency) return "gemini-3.5-flash"; return "gemini-3.5-flash"; }

这个路由器不是最终架构,只是评测起点。上线时还要记录 model ID、prompt 大小、input/output token、工具调用次数、工具错误、latency p50/p95、fallback 原因、用户可见结果和 reviewer 判断。缺这些字段,团队会在偏好上争论,而不是在证据上决策。

如果真实问题是 Gemini API 和 Vertex AI 的治理、企业控制、部署边界或计费归属,那是平台选择,不是模型选择。先看 Gemini API 与 Vertex API 对比,不要把平台迁移和模型迁移混在一次上线里。

迁移检查清单

Gemini 3.5 Flash 与 Gemini 3.1 Pro Preview 的迁移评测清单

迁移应该按真实流量回放,而不是按发布热度推进。先准备一组提示词:容易任务、深推理任务、长文档、工具调用、已知失败样本、多模态输入、成本敏感批处理。每一组都跑 gemini-3.5-flashgemini-3.1-pro-preview,涉及 customtools 时再跑 gemini-3.1-pro-preview-customtools

  1. 从真实流量抽样,覆盖易、难、长、工具敏感和失败样本。
  2. 固定 prompt、输入文件、系统约束和评分标准。
  3. 记录 model ID、prompt 大小、token、工具调用、延迟、失败归属、fallback 和最终结果。
  4. 用 rubric 评分,不只看“感觉更聪明”。
  5. 先做 monitor-only,让路由器只记录“本来会选什么”。
  6. 小流量 canary,再到 10%、50%,最后才改默认。
  7. 提前写回滚:质量下降、timeout 增加、成本异常、工具回归、review 拒收。
  8. 保留 3.5 Pro watchpoint。未来 Pro 出现后重新跑同一套评测,而不是提前停止 Flash 测试。

最常见错误是只测简单任务。简单任务会让多数现代模型看起来都不错。真正决定路由的是困难请求、长上下文、工具失败、歧义 prompt 和已知坏例。

常见问题

Gemini 3.5 Flash 能直接替代 Gemini 3.1 Pro Preview 吗?

不能全局替代。Flash 应先测快节奏代理、编码循环、工具调用和低延迟 API;Pro Preview 应继续覆盖深推理、长文档和 customtools 敏感任务,直到同题评测证明 Flash 足够稳。

应该用哪些 model ID?

Gemini 3.5 Flash 使用 gemini-3.5-flash。标准 Gemini 3.1 Pro Preview 使用 gemini-3.1-pro-preview。只有真正依赖 customtools 端点时才使用 gemini-3.1-pro-preview-customtools

哪个更便宜?

按 2026 年 5 月 21 日官方 Standard 付费 token 线,3.5 Flash 更低:输入 $1.50、输出 $9.00 / 100 万 token。3.1 Pro Preview 在 200K 以内是 $2.00 / $12.00,超过 200K 是 $4.00 / $18.00。但最终要算完成任务成本。

两个模型能生成图片或音频吗?

这组路由不能当作图片或音频生成路线。官方模型页里两者输出都是文本;3.5 Flash 不列出图片生成、音频生成、Live API 或 Computer Use,3.1 Pro Preview 也不列出图片生成、音频生成或 Live API。

要不要等 Gemini 3.5 Pro?

不要用尚未进入当前路由的模型来决定今天的生产默认值。现在先把 Flash 和 Pro Preview 的评测、日志和回滚跑起来;等 3.5 Pro 真正成为可选路由,再用同一套样本复测。

今天最稳的选择是什么?

gemini-3.5-flash 作为快任务的第一测试路线,把 gemini-3.1-pro-preview 留给难题和长上下文,再用路由器保留双模型。这样可以吃到 stable Flash 的速度和成本优势,同时避免把发布对比变成盲目迁移。

分享文章:

laozhang.ai

一个 API,所有 AI 模型

AI 图片

Gemini 3 Pro Image

$0.05/张
官方2折
AI 视频

Sora 2 · Veo 3.1

$0.15/个
异步API
AI 对话

GPT · Claude · Gemini

200+ 模型
同官方价
已服务 10万+ 开发者
|@laozhang_cn|送$0.1