截至 2026 年 5 月 21 日,如果你的新链路是低延迟代理、编码循环、函数调用、批量文本处理或需要高并发的 Gemini API 任务,先用 gemini-3.5-flash 做评测;如果链路依赖深推理、长文档合成、一次回答的正确率,或已经验证过 gemini-3.1-pro-preview-customtools,就不要把 gemini-3.1-pro-preview 直接删掉。
| 决策 | 第一条路由 | 适用场景 | 停止条件 |
|---|---|---|---|
| 向 Flash 迁移 | gemini-3.5-flash | 编码代理、工具调用、客服自动化、多模态输入转文本、高吞吐评测 | 质量、延迟、失败日志和回滚阈值全部过线后再升默认 |
| 保留 Pro Preview | gemini-3.1-pro-preview | 深推理、长文档、复杂代码审查、风险较高的一次性判断 | 不要把发布跑分当成每个 Pro 任务都过时的证明 |
| 双路由 | 两个 model ID 都在路由器里 | 同一产品里同时存在快任务和难任务 | 只有同题评测、token 日志、工具日志、p95 和 fallback 记录齐全时才放量 |
Google AI for Developers 目前把 Gemini 3.5 Flash 标为 stable,把 Gemini 3.1 Pro Preview 标为 preview;官方价格页也显示两者的付费 token 线不同。真正的结论不是“Flash 完胜”,而是把任务分成快、难、长、工具敏感、成本敏感几类,再决定哪一类先交给 Flash,哪一类继续保留 Pro。
变化不只是名字
Gemini 3.5 Flash 不是 Gemini 3.1 Pro Preview 的改名。官方模型页列出的 API ID 是 gemini-3.5-flash,状态是 stable,输入覆盖文本、图片、视频、音频和 PDF,输出是文本。Gemini 3.1 Pro Preview 的 API ID 是 gemini-3.1-pro-preview,状态仍是 preview,另有 gemini-3.1-pro-preview-customtools 这个单独端点。
这一区别会影响生产风险。stable Flash 更适合先进入默认路由,因为生命周期风险低一些,延迟和吞吐通常更利于代理循环。preview Pro 仍可能是更稳的难题路由,因为某些长文档、审计、代码库分析和多步推理对第一次回答质量更敏感。

两者的表面能力很接近:都列出 1,048,576 token 输入窗口和 65,536 token 输出窗口,都支持 function calling、code execution、structured outputs、thinking、search grounding、Maps grounding、URL context、caching、Batch、Flex 和 Priority inference。差异不是“谁有上下文谁没有”,而是稳定性、速度定位、preview 风险和 customtools 端点边界。
也要把错误分支提前排除。Gemini 3.5 Flash 目前不列出音频生成、图片生成、Live API 或 Computer Use;Gemini 3.1 Pro Preview 也不列出图片生成、音频生成或 Live API。产品要的是语音、图片输出或 UI 控制时,这组比较不能替代真正的能力路由。
Flash 应该先测哪些任务
先测 Flash 的场景通常不是“只要回答最聪明”,而是“快循环能不能把整条工作流跑完”。编码代理、工具规划、函数调用、结构化输出、多模态资料转文本、高并发客服、批量归纳和可回放评测,都适合让 gemini-3.5-flash 先进入评测队列。
Google 的 Gemini 3.5 发布说明把 3.5 Flash 放在 agentic coding、tool use 和多模态任务上,并声称它在 Terminal-Bench 2.1、GDPval-AA 和 MCP Atlas 等指标上超过 3.1 Pro。把这些当作方向信号,而不是替代你自己的评测。生产里要看的不是发布稿,而是它能不能减少 wall-clock time、工具重试、人工修正、失败请求和 fallback 次数。
| 工作负载 | 为什么 Flash 先测 | 必须记录的指标 |
|---|---|---|
| 编码代理循环 | 工具调用、代码执行、结构化输出和低延迟都影响体验 | 任务通过率、工具调用成功率、编辑正确率、p95、重试数 |
| 高并发客服或运营机器人 | 吞吐、失败恢复和升级率比最强推理更关键 | 接受率、转人工率、单工单成本、fallback 原因 |
| 多模态输入转文本 | 输入类型覆盖广,输出文本适合审阅和抽取 | 抽取准确率、幻觉率、token 使用、人工复核负担 |
| 带 grounding 的任务 | Search grounding 和 URL context 都在能力面里 | 来源使用、时效错误、检索失败、回退模型 |
| 批量评测或离线分析 | Batch/Flex 可能改变延迟容忍任务的经济性 | 总费用、完成时间、失败重跑、吞吐稳定性 |
如果你的任务只是短抽取、低利润分类或简单改写,也不要只因为名字里有 Flash 就默认它最便宜。还要和更低价的 Gemini 兄弟模型、现有路由、供应商价和免费层限制一起算。单模型能力细节可以参考 Gemini 3.5 Flash 能力指南,但当前选型的核心是生产路由。
Pro Preview 仍然保留在哪里
保留 gemini-3.1-pro-preview 的理由不是怀旧,而是风险控制。长合同、合规材料、复杂代码库审查、多证据合成、金融或政策判断、抽象推理题,以及需要一次回答尽量正确的任务,都可能让 Pro Preview 继续有价值。
速度快但重试多,并不一定便宜。Flash 如果在难题上多出人工复核、二次调用、工具失败或下游修正,完成任务成本可能反而更高。Pro Preview 是 preview 路由,需要生命周期谨慎,但 preview 不等于没有生产价值。
gemini-3.1-pro-preview-customtools 要单独看。生产任务如果依赖 customtools 的 bash-like 行为、工具约定或已经调过的端点行为,不能把 model ID 批量改成 gemini-3.5-flash 就算完成迁移。替换对象不是“名字”,而是运行时合约。
| 需求 | Pro 仍有价值的原因 | 替换前要让 Flash 通过什么测试 |
|---|---|---|
| 深推理 | 一次正确回答可能比快几秒更省成本 | 回放 hardest cases,并评分推理质量 |
| 长文档审查 | 上下文窗口相同,但 Pro 的推理画像仍可能更稳 | 比较证据保留、遗漏细节和引用错误 |
| customtools 任务 | customtools 是单独端点合约 | 明确测试工具行为、参数、错误恢复和权限边界 |
| 高风险分析 | 失败归属和人工复核比首 token 更重要 | 记录 reviewer 修改、失败决策成本和回滚条件 |
| 混合工作负载 | 有些请求很容易,有些请求确实很难 | 按请求类别路由,而不是全局换默认模型 |
如果你的问题仍是 Gemini 3.1 Pro Preview 的免费 API、配额、迁移 ID 或旧 gemini-3-pro-preview 怎么处理,先看 Gemini 3.1 Pro Preview 免费 API 指南。当前决策更窄:3.5 Flash 是否应接管一部分 API 任务。
价格要按完成任务成本算
Google Gemini API pricing 在 2026 年 5 月 21 日显示,Gemini 3.5 Flash Standard 在 Free Tier 免费,Paid Tier 为每 100 万 token 输入 $1.50、输出 $9.00。Gemini 3.1 Pro Preview 的付费价格为 200K prompt 以内输入 $2.00、输出 $12.00,超过 200K 后输入 $4.00、输出 $18.00。免费层可用性、Batch、Flex、Priority 和供应商价都要分开写,不要混成一句。

只看 token 单价,Flash 通常更便宜。但上线决策应按完成任务成本来算。一次调用便宜,如果经常失败、重试、回退到 Pro 或需要人工改答案,最终成本就会被吞掉。Pro 单价更高,但如果它在难题上减少重试和复核,也可能让完成成本更低。
| 成本项 | 为什么不能省略 |
|---|---|
| 输入和输出 token | 输出长的任务很快由输出价主导 |
| thinking 与推理行为 | 更难的路线可能用更多 token,但减少重做 |
| 工具调用 | 工具循环失败会制造隐藏成本 |
| 重试和 fallback | 便宜首调若常常二调,就不便宜 |
| 人工复核 | 人力修正往往比 token 差价更贵 |
| 延迟 | 慢而准和快而错要按产品体验计算 |
实用规则很简单:速度、吞吐和工具成功率能改善整条工作流时,把 Flash 放前面;一次正确答案能避免昂贵返工时,让 Pro Preview 保留。价格、免费层和 quota 还在变化,写进客户承诺或代码注释前要再查一次官方页。配额和免费层问题可以单独看 Gemini API 免费层指南。
路由器比全局替换安全
最安全的迁移方式不是全库查找 gemini-3.1-pro-preview 然后替换成 gemini-3.5-flash。先把请求打标签,再让路由器按任务归属选模型。最小版本可以只有五个布尔字段,但必须记录结果。
| 请求类别 | 默认路由 | 原因 |
|---|---|---|
| 工具密集代理动作 | gemini-3.5-flash | 速度、工具循环和吞吐通常是瓶颈 |
| 编码迭代 | 先 gemini-3.5-flash,复杂审查回退 Pro | Flash 值得先测,但难 debug 可能仍要 Pro |
| 长文档合成 | gemini-3.1-pro-preview 或双评测 | 漏掉关键细节比 token 差价更贵 |
| 多模态输入转文本 | 先 gemini-3.5-flash | 输入面广且速度定位更适合 |
| customtools 路径 | 保留 gemini-3.1-pro-preview-customtools | 端点行为属于合约,不只是名字 |
| 低价高量抽取 | Flash 与更便宜兄弟模型一起比 | Flash 未必是最低成本路线 |
| 高风险推理 | Pro 路由或人工审批 | 风险控制优先于首响速度 |
tstype RouteInput = { isToolHeavy: boolean; needsLowLatency: boolean; isLongDocument: boolean; needsDeepReasoning: boolean; usesCustomToolsEndpoint: boolean; }; export function chooseGeminiModel(input: RouteInput) { if (input.usesCustomToolsEndpoint) return "gemini-3.1-pro-preview-customtools"; if (input.isLongDocument || input.needsDeepReasoning) return "gemini-3.1-pro-preview"; if (input.isToolHeavy || input.needsLowLatency) return "gemini-3.5-flash"; return "gemini-3.5-flash"; }
这个路由器不是最终架构,只是评测起点。上线时还要记录 model ID、prompt 大小、input/output token、工具调用次数、工具错误、latency p50/p95、fallback 原因、用户可见结果和 reviewer 判断。缺这些字段,团队会在偏好上争论,而不是在证据上决策。
如果真实问题是 Gemini API 和 Vertex AI 的治理、企业控制、部署边界或计费归属,那是平台选择,不是模型选择。先看 Gemini API 与 Vertex API 对比,不要把平台迁移和模型迁移混在一次上线里。
迁移检查清单

迁移应该按真实流量回放,而不是按发布热度推进。先准备一组提示词:容易任务、深推理任务、长文档、工具调用、已知失败样本、多模态输入、成本敏感批处理。每一组都跑 gemini-3.5-flash、gemini-3.1-pro-preview,涉及 customtools 时再跑 gemini-3.1-pro-preview-customtools。
- 从真实流量抽样,覆盖易、难、长、工具敏感和失败样本。
- 固定 prompt、输入文件、系统约束和评分标准。
- 记录 model ID、prompt 大小、token、工具调用、延迟、失败归属、fallback 和最终结果。
- 用 rubric 评分,不只看“感觉更聪明”。
- 先做 monitor-only,让路由器只记录“本来会选什么”。
- 小流量 canary,再到 10%、50%,最后才改默认。
- 提前写回滚:质量下降、timeout 增加、成本异常、工具回归、review 拒收。
- 保留 3.5 Pro watchpoint。未来 Pro 出现后重新跑同一套评测,而不是提前停止 Flash 测试。
最常见错误是只测简单任务。简单任务会让多数现代模型看起来都不错。真正决定路由的是困难请求、长上下文、工具失败、歧义 prompt 和已知坏例。
常见问题
Gemini 3.5 Flash 能直接替代 Gemini 3.1 Pro Preview 吗?
不能全局替代。Flash 应先测快节奏代理、编码循环、工具调用和低延迟 API;Pro Preview 应继续覆盖深推理、长文档和 customtools 敏感任务,直到同题评测证明 Flash 足够稳。
应该用哪些 model ID?
Gemini 3.5 Flash 使用 gemini-3.5-flash。标准 Gemini 3.1 Pro Preview 使用 gemini-3.1-pro-preview。只有真正依赖 customtools 端点时才使用 gemini-3.1-pro-preview-customtools。
哪个更便宜?
按 2026 年 5 月 21 日官方 Standard 付费 token 线,3.5 Flash 更低:输入 $1.50、输出 $9.00 / 100 万 token。3.1 Pro Preview 在 200K 以内是 $2.00 / $12.00,超过 200K 是 $4.00 / $18.00。但最终要算完成任务成本。
两个模型能生成图片或音频吗?
这组路由不能当作图片或音频生成路线。官方模型页里两者输出都是文本;3.5 Flash 不列出图片生成、音频生成、Live API 或 Computer Use,3.1 Pro Preview 也不列出图片生成、音频生成或 Live API。
要不要等 Gemini 3.5 Pro?
不要用尚未进入当前路由的模型来决定今天的生产默认值。现在先把 Flash 和 Pro Preview 的评测、日志和回滚跑起来;等 3.5 Pro 真正成为可选路由,再用同一套样本复测。
今天最稳的选择是什么?
把 gemini-3.5-flash 作为快任务的第一测试路线,把 gemini-3.1-pro-preview 留给难题和长上下文,再用路由器保留双模型。这样可以吃到 stable Flash 的速度和成本优势,同时避免把发布对比变成盲目迁移。
