截至 2026 年 5 月 20 日 UTC,Gemini 3.5 Flash 已经是 Gemini API 中的 GA/stable 模型,开发者调用时使用 gemini-3.5-flash。一句话判断:如果你的任务是智能体编程、长链路工具调用、多模态输入理解和较长上下文推理,它值得优先测试。
不要把它当成所有 Gemini Flash 场景的默认升级。需要图像生成、音频生成、Live API、Computer Use,或者最低成本的大规模简单流水线时,应该先看其它 Gemini 路线。模型能力强,不等于运行时契约适合。
| 判断 | 适合先测 Gemini 3.5 Flash | 应该避开或先对比 |
|---|---|---|
| 能力路线 | 智能体编程、工具链工作流、长上下文、多模态输入、结构化输出、快速迭代。 | 批量低价抽取、简单翻译、实时语音、图像输出、音频输出、浏览器或 UI 控制。 |
| 官方契约 | 代码、配置和日志里使用 gemini-3.5-flash。 | 不要沿用旧 Gemini 3 Flash 的价格、preview 假设或模型字符串。 |
| 迁移节奏 | 已经使用 Gemini 3 Flash、Flash-Lite、Live 或 Pro,希望找到更强的智能体默认路线。 | 没有同题、同工具、同 token 预算和同失败样本的对照测试前,不要直接替换生产默认。 |
在 2026 年 5 月 20 日的官方文档快照中,Gemini 3.5 Flash 支持文本、图像、视频、音频和 PDF 输入,输出为文本;输入窗口为 1,048,576 tokens,最大输出为 65,536 tokens。同期价格表列出的 Standard 价格为输入 $1.50 / 1M tokens、输出 $9.00 / 1M tokens。因此真正的问题不是“它强不强”,而是“它在智能体、代码和长上下文任务上的提升,是否值得你为这条路线付费”。
官方状态和模型 ID
Gemini 3.5 Flash 不是旧 Gemini 3 Flash 的中文别名,也不是传闻中的隐藏模型。Google AI for Developers 的模型页已经列出 gemini-3.5-flash,并将它标为稳定可用;Gemini API changelog 也记录了 2026 年 5 月 19 日的发布条目。对开发者来说,最重要的边界是:产品名可以写 Gemini 3.5 Flash,代码里应该写 gemini-3.5-flash。
这点会直接影响集成风险。旧的 gemini-3-flash-preview、Flash-Lite、Live、Pro 都有自己的价格、上下文、输出类型和功能支持。看到 Flash 这个名字时,很多人会默认它便宜、快、可以覆盖之前的所有 Flash 任务,但 3.5 Flash 更像是一个面向智能体和代码任务强化过的 Flash 路线,而不是单纯最低价路线。
如果你的团队已经在维护 Gemini 模型路由,建议把模型名、服务模式、计费模式、是否走 Vertex AI、是否走 Batch/Flex/Priority 全部写进同一个路由配置。这样未来价格或能力变化时,不需要在业务代码里到处搜旧字符串。
旧版状态和传闻判断可以参考本地的 Gemini 3.2 Flash 状态说明。当前判断应以 3.5 Flash 的正式模型页、价格页、changelog 和你自己的评测结果为准。
它真正擅长什么

Gemini 3.5 Flash 最值得测试的场景,是任务同时需要推理、工具调用、长上下文和多模态输入。典型例子包括代码智能体、带工具的客服或研发助手、长 PDF 包分析、带截图或音频线索的问题排查、搜索增强回答、结构化输出校验,以及需要把多个材料压进一次上下文的工作流。
官方模型页列出的能力包括 Batch API、caching、code execution、file search、function calling、Google Maps grounding、Google Search grounding、structured outputs、thinking、URL context、Flex inference 和 Priority inference。换成工程语言,这意味着它不是只能做普通聊天,而是可以放进现代后端的工具链里参与真实任务。
输入类型也值得注意。它可以读文本、图像、视频、音频和 PDF,然后输出文本。这很适合“读复杂材料后给出可执行结论”的应用:看一组截图定位故障、读会议录音和文档生成行动项、检查代码 trace 后给出修复顺序、从多份 PDF 里抽取风险并生成结构化 JSON。
| 工作负载 | 适配度 | 原因 |
|---|---|---|
| 代码智能体和工具工作流 | 高,值得优先测 | function calling、code execution、长上下文和结构化输出都直接相关。 |
| 多模态文档助手 | 高,值得优先测 | PDF、图像、视频、音频和文本输入能合并到同一个判断里。 |
| 需要可验证答案的后端服务 | 中高 | Google Search grounding、URL context 和 structured outputs 有助于减少漂移。 |
| 离线评测或批量分析 | 中高,但要算账 | Batch/Flex 可以降低价格,但不能沿用旧 Flash 价格假设。 |
| 低价高量抽取 | 先比较 | Flash-Lite 或旧低价路线可能更适合毛利。 |
因此,“Gemini 3.5 Flash 能力怎么样”的合理答案不是一个单独分数。更实际的答案是:它在复杂输入、工具链和长链路任务上值得认真测试;在简单、高量、价格敏感的任务上,先和更便宜的路线做对照。
哪些限制会让你选错模型
Gemini 3.5 Flash 当前不是图像生成模型,也不是音频生成模型,也不是 Live API 模型,还没有在官方模型页列出 Computer Use 支持。这几个限制不是细枝末节,而是会直接改变产品架构的边界。
如果产品需要实时语音对话,应该看 Live API 路线;如果需要生成图片,应该看 Gemini image 或 Imagen 相关路线;如果需要浏览器或 UI 控制,应该选择明确支持 Computer Use 的模型。把 3.5 Flash 塞进这些输出或运行时里,只会让排查变得更难。
| 需求 | 是否该用 Gemini 3.5 Flash | 更稳妥的方向 |
|---|---|---|
| 从多模态输入生成文本答案 | 可以 | gemini-3.5-flash |
| 实时语音对话 | 不建议 | Live API 模型 |
| 图像生成 | 不建议 | Gemini image 或 Imagen 路线 |
| 音频生成 | 不建议 | Live 或音频生成路线 |
| UI / 浏览器控制 | 不建议 | 明确列出 Computer Use 的模型 |
| 最低成本批量抽取 | 先比较 | Flash-Lite、Batch、Flex 或其它低价模型 |
这个 stop rule 很重要:如果输出类型或运行时都不匹配,不要用“模型更聪明”去补。选模型时先确认输出类型、调用方式、价格模式和工具能力,再谈质量。
价格怎么读

2026 年 5 月 20 日的官方价格快照显示,Gemini 3.5 Flash Standard 价格为输入 $1.50 / 1M tokens、输出 $9.00 / 1M tokens。Batch 和 Flex 是输入 $0.75 / 1M tokens、输出 $4.50 / 1M tokens。Priority 是输入 $2.70 / 1M tokens、输出 $16.20 / 1M tokens。
这说明 3.5 Flash 的成本判断不能只看“Flash”两个字。Standard 是在线服务的正常测试路线;Batch/Flex 适合对延迟不敏感的离线评测、批处理和后台任务;Priority 是为更高优先级流量付出额外成本。输出 tokens 会很快成为主要账单,所以长答案、代码生成、报告生成和多轮修复任务必须单独估算。
| 模式 | 输入价格 | 输出价格 | 适用情况 |
|---|---|---|---|
| Standard | $1.50 / 1M | $9.00 / 1M | 在线请求、首轮评测、产品后端。 |
| Batch / Flex | $0.75 / 1M | $4.50 / 1M | 离线任务、批量评测、可等待工作流。 |
| Priority | $2.70 / 1M | $16.20 / 1M | 高优先级或排队风险更敏感的流量。 |
如果任务只是短文本分类、简单抽取或批量翻译,先比较 Flash-Lite 和其它低价模型。如果任务是代码智能体、长文档推理、工具链决策或故障恢复,要算完整工作流成本:更高的单 token 价格,可能通过减少重试、减少人工 review、减少错误工具调用而抵消。
免费额度、项目限额和 429 处理不要写成固定数字。它们会随模型、服务模式、项目、地区、账单状态和账户层级变化。本地可参考 Gemini API 免费额度指南,真正上线前仍要看当前项目的 AI Studio 或 Google Cloud 配置。
第一条 API 调用应该怎么测
第一轮测试不要用闲聊 prompt。应该直接拿你想让它解决的真实任务:代码智能体失败 trace、长 PDF 资料包、多模态工单、检索增强回答、结构化 JSON 输出,或者一条带工具调用的自动化流程。
tsimport { GoogleGenAI } from "@google/genai"; const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY }); const response = await ai.models.generateContent({ model: "gemini-3.5-flash", contents: [ { role: "user", parts: [ { text: "分析这段失败的代码智能体 trace,返回最可能的责任面、第一步验证动作和安全回滚方案。", }, ], }, ], }); console.log(response.text);
测试时把模型 ID、服务模式、输入 tokens、输出 tokens、工具调用次数、重试次数、结构化输出通过率和人工修改时间都记下来。只看最终答案会漏掉很多成本。一个模型可能答案更好,但输出过长;也可能单次更贵,但把三次失败重试变成一次成功,这两种情况的生产意义完全不同。
如果你需要在 Gemini Developer API 和 Vertex AI 之间做路线选择,本地的 Gemini API vs Vertex AI API 指南 更适合处理认证、IAM、区域、审计、批处理和企业治理问题。
迁移前的烟测清单

不要因为 3.5 Flash 新、强、正式,就直接替换已有默认模型。更稳妥的做法是挑真实任务做同题对照。
- 选出五个当前模型容易失败、成本过高或需要大量人工修复的任务。
- 用当前默认路线和
gemini-3.5-flash跑完全相同的输入。 - 对比答案质量、工具调用正确率、结构化输出通过率、延迟、token 使用、重试次数和人工 review 时间。
- 先按 Standard 价格算成本,再判断是否能放进 Batch 或 Flex。
- 只迁移明确提升的工作负载,并保留旧模型字符串作为回滚。
最适合作为第一批候选的是代码智能体 trace、长上下文研究包、多模态故障报告、带推理的文档抽取和可验证的工具链流程。最不适合第一批迁移的是极短分类、大规模低价翻译、实时语音、图像输出和只追求最低 token 成本的后台任务。
| 当前路线 | 什么时候测 3.5 Flash | 什么时候保留当前路线 |
|---|---|---|
| Gemini 3 Flash | 需要更强的智能体、代码或长上下文表现。 | 旧路线已经足够准确且更便宜。 |
| Flash-Lite | 质量问题、推理错误或人工修复成本高过节省的 token。 | 任务简单、量大、利润敏感。 |
| Flash Live | 业务从语音会话转向文本后端任务。 | 产品仍然以实时语音为核心。 |
| Pro 路线 | 非关键任务需要更快或更省的迭代。 | 正确性要求极高,Pro 明显值得。 |
常见问题
Gemini 3.5 Flash 已经正式发布了吗?
是。Google AI for Developers 的模型页已经列出 gemini-3.5-flash,并将它标为 GA/stable;Gemini API changelog 也记录了 2026 年 5 月 19 日的发布。上线前仍要重新检查官方页,因为价格、区域和能力支持可能变化。
API 模型 ID 是什么?
使用 gemini-3.5-flash。不要写成 gemini-3-flash-preview、gemini-3.5-flash-preview 或其它旧 ID,除非你的具体官方路线明确这么要求。
它最适合什么任务?
优先测试智能体编程、长链路工具调用、多模态输入理解、结构化输出、文件密集型任务、Google Search grounding、URL context,以及需要 1,048,576 token 输入窗口的工作流。
它能生成图片或音频吗?
不应该这样用。当前模型页列出的是文本输出,并没有把 Gemini 3.5 Flash 标成图像生成或音频生成模型。需要这类输出时,选择对应的生成路线。
它支持 Live API 或 Computer Use 吗?
当前检查的模型页没有把 Gemini 3.5 Flash 列为 Live API 或 Computer Use 路线。实时语音看 Live API;UI 或浏览器控制看明确支持 Computer Use 的模型。
它比 Gemini 3 Flash 更便宜吗?
不要这样假设。当前 Standard 价格为输入 $1.50 / 1M、输出 $9.00 / 1M,不能沿用旧 Flash 价格。预算前要看最新官方价格表,并按你的输入输出比例重新计算。
我应该从 Gemini 3 Flash 切换到 Gemini 3.5 Flash 吗?
只有在同题对照测试证明它能改善你的真实工作负载时才切。它很适合智能体、代码和长上下文任务的第一轮评测,但不是低价批量、实时语音或生成图片的通用替代品。
建议
把 Gemini 3.5 Flash 当成强能力 Flash 路线来评估,而不是当成所有 Flash 任务的低成本继承者。需要智能体编程、长上下文、多模态输入和工具链推理时,优先测试 gemini-3.5-flash;需要最低成本、实时语音、图像或音频输出、Computer Use 时,先选对应路线。
最终是否迁移,应由你自己的任务样本决定:同题输入、同样工具、同样 token 预算、同样验收标准。如果它减少失败、缩短人工 review、提升工具调用正确率,那它就可能值得;如果只是名字更新、价格更高、输出类型不匹配,那就不该替换现有路线。
