跳转到主要内容

Gemini 3.5 Flash 能力评估:官方模型 ID、适合场景、限制和迁移判断

A
12 分钟阅读AI 模型指南

Gemini 3.5 Flash 已可用作 `gemini-3.5-flash`,更适合智能体编程、长链路工具工作流和多模态输入理解,但不适合图像生成、音频生成、Live API、Computer Use 或最低成本批量任务。

Gemini 3.5 Flash 能力评估:官方模型 ID、适合场景、限制和迁移判断

截至 2026 年 5 月 20 日 UTC,Gemini 3.5 Flash 已经是 Gemini API 中的 GA/stable 模型,开发者调用时使用 gemini-3.5-flash。一句话判断:如果你的任务是智能体编程、长链路工具调用、多模态输入理解和较长上下文推理,它值得优先测试。

不要把它当成所有 Gemini Flash 场景的默认升级。需要图像生成、音频生成、Live API、Computer Use,或者最低成本的大规模简单流水线时,应该先看其它 Gemini 路线。模型能力强,不等于运行时契约适合。

判断适合先测 Gemini 3.5 Flash应该避开或先对比
能力路线智能体编程、工具链工作流、长上下文、多模态输入、结构化输出、快速迭代。批量低价抽取、简单翻译、实时语音、图像输出、音频输出、浏览器或 UI 控制。
官方契约代码、配置和日志里使用 gemini-3.5-flash不要沿用旧 Gemini 3 Flash 的价格、preview 假设或模型字符串。
迁移节奏已经使用 Gemini 3 Flash、Flash-Lite、Live 或 Pro,希望找到更强的智能体默认路线。没有同题、同工具、同 token 预算和同失败样本的对照测试前,不要直接替换生产默认。

在 2026 年 5 月 20 日的官方文档快照中,Gemini 3.5 Flash 支持文本、图像、视频、音频和 PDF 输入,输出为文本;输入窗口为 1,048,576 tokens,最大输出为 65,536 tokens。同期价格表列出的 Standard 价格为输入 $1.50 / 1M tokens、输出 $9.00 / 1M tokens。因此真正的问题不是“它强不强”,而是“它在智能体、代码和长上下文任务上的提升,是否值得你为这条路线付费”。

官方状态和模型 ID

Gemini 3.5 Flash 不是旧 Gemini 3 Flash 的中文别名,也不是传闻中的隐藏模型。Google AI for Developers 的模型页已经列出 gemini-3.5-flash,并将它标为稳定可用;Gemini API changelog 也记录了 2026 年 5 月 19 日的发布条目。对开发者来说,最重要的边界是:产品名可以写 Gemini 3.5 Flash,代码里应该写 gemini-3.5-flash

这点会直接影响集成风险。旧的 gemini-3-flash-preview、Flash-Lite、Live、Pro 都有自己的价格、上下文、输出类型和功能支持。看到 Flash 这个名字时,很多人会默认它便宜、快、可以覆盖之前的所有 Flash 任务,但 3.5 Flash 更像是一个面向智能体和代码任务强化过的 Flash 路线,而不是单纯最低价路线。

如果你的团队已经在维护 Gemini 模型路由,建议把模型名、服务模式、计费模式、是否走 Vertex AI、是否走 Batch/Flex/Priority 全部写进同一个路由配置。这样未来价格或能力变化时,不需要在业务代码里到处搜旧字符串。

旧版状态和传闻判断可以参考本地的 Gemini 3.2 Flash 状态说明。当前判断应以 3.5 Flash 的正式模型页、价格页、changelog 和你自己的评测结果为准。

它真正擅长什么

Gemini 3.5 Flash 能力矩阵

Gemini 3.5 Flash 最值得测试的场景,是任务同时需要推理、工具调用、长上下文和多模态输入。典型例子包括代码智能体、带工具的客服或研发助手、长 PDF 包分析、带截图或音频线索的问题排查、搜索增强回答、结构化输出校验,以及需要把多个材料压进一次上下文的工作流。

官方模型页列出的能力包括 Batch API、caching、code execution、file search、function calling、Google Maps grounding、Google Search grounding、structured outputs、thinking、URL context、Flex inference 和 Priority inference。换成工程语言,这意味着它不是只能做普通聊天,而是可以放进现代后端的工具链里参与真实任务。

输入类型也值得注意。它可以读文本、图像、视频、音频和 PDF,然后输出文本。这很适合“读复杂材料后给出可执行结论”的应用:看一组截图定位故障、读会议录音和文档生成行动项、检查代码 trace 后给出修复顺序、从多份 PDF 里抽取风险并生成结构化 JSON。

工作负载适配度原因
代码智能体和工具工作流高,值得优先测function calling、code execution、长上下文和结构化输出都直接相关。
多模态文档助手高,值得优先测PDF、图像、视频、音频和文本输入能合并到同一个判断里。
需要可验证答案的后端服务中高Google Search grounding、URL context 和 structured outputs 有助于减少漂移。
离线评测或批量分析中高,但要算账Batch/Flex 可以降低价格,但不能沿用旧 Flash 价格假设。
低价高量抽取先比较Flash-Lite 或旧低价路线可能更适合毛利。

因此,“Gemini 3.5 Flash 能力怎么样”的合理答案不是一个单独分数。更实际的答案是:它在复杂输入、工具链和长链路任务上值得认真测试;在简单、高量、价格敏感的任务上,先和更便宜的路线做对照。

哪些限制会让你选错模型

Gemini 3.5 Flash 当前不是图像生成模型,也不是音频生成模型,也不是 Live API 模型,还没有在官方模型页列出 Computer Use 支持。这几个限制不是细枝末节,而是会直接改变产品架构的边界。

如果产品需要实时语音对话,应该看 Live API 路线;如果需要生成图片,应该看 Gemini image 或 Imagen 相关路线;如果需要浏览器或 UI 控制,应该选择明确支持 Computer Use 的模型。把 3.5 Flash 塞进这些输出或运行时里,只会让排查变得更难。

需求是否该用 Gemini 3.5 Flash更稳妥的方向
从多模态输入生成文本答案可以gemini-3.5-flash
实时语音对话不建议Live API 模型
图像生成不建议Gemini image 或 Imagen 路线
音频生成不建议Live 或音频生成路线
UI / 浏览器控制不建议明确列出 Computer Use 的模型
最低成本批量抽取先比较Flash-Lite、Batch、Flex 或其它低价模型

这个 stop rule 很重要:如果输出类型或运行时都不匹配,不要用“模型更聪明”去补。选模型时先确认输出类型、调用方式、价格模式和工具能力,再谈质量。

价格怎么读

Gemini 3.5 Flash 价格和路线图

2026 年 5 月 20 日的官方价格快照显示,Gemini 3.5 Flash Standard 价格为输入 $1.50 / 1M tokens、输出 $9.00 / 1M tokens。Batch 和 Flex 是输入 $0.75 / 1M tokens、输出 $4.50 / 1M tokens。Priority 是输入 $2.70 / 1M tokens、输出 $16.20 / 1M tokens

这说明 3.5 Flash 的成本判断不能只看“Flash”两个字。Standard 是在线服务的正常测试路线;Batch/Flex 适合对延迟不敏感的离线评测、批处理和后台任务;Priority 是为更高优先级流量付出额外成本。输出 tokens 会很快成为主要账单,所以长答案、代码生成、报告生成和多轮修复任务必须单独估算。

模式输入价格输出价格适用情况
Standard$1.50 / 1M$9.00 / 1M在线请求、首轮评测、产品后端。
Batch / Flex$0.75 / 1M$4.50 / 1M离线任务、批量评测、可等待工作流。
Priority$2.70 / 1M$16.20 / 1M高优先级或排队风险更敏感的流量。

如果任务只是短文本分类、简单抽取或批量翻译,先比较 Flash-Lite 和其它低价模型。如果任务是代码智能体、长文档推理、工具链决策或故障恢复,要算完整工作流成本:更高的单 token 价格,可能通过减少重试、减少人工 review、减少错误工具调用而抵消。

免费额度、项目限额和 429 处理不要写成固定数字。它们会随模型、服务模式、项目、地区、账单状态和账户层级变化。本地可参考 Gemini API 免费额度指南,真正上线前仍要看当前项目的 AI Studio 或 Google Cloud 配置。

第一条 API 调用应该怎么测

第一轮测试不要用闲聊 prompt。应该直接拿你想让它解决的真实任务:代码智能体失败 trace、长 PDF 资料包、多模态工单、检索增强回答、结构化 JSON 输出,或者一条带工具调用的自动化流程。

ts
import { GoogleGenAI } from "@google/genai"; const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY }); const response = await ai.models.generateContent({ model: "gemini-3.5-flash", contents: [ { role: "user", parts: [ { text: "分析这段失败的代码智能体 trace,返回最可能的责任面、第一步验证动作和安全回滚方案。", }, ], }, ], }); console.log(response.text);

测试时把模型 ID、服务模式、输入 tokens、输出 tokens、工具调用次数、重试次数、结构化输出通过率和人工修改时间都记下来。只看最终答案会漏掉很多成本。一个模型可能答案更好,但输出过长;也可能单次更贵,但把三次失败重试变成一次成功,这两种情况的生产意义完全不同。

如果你需要在 Gemini Developer API 和 Vertex AI 之间做路线选择,本地的 Gemini API vs Vertex AI API 指南 更适合处理认证、IAM、区域、审计、批处理和企业治理问题。

迁移前的烟测清单

Gemini 3.5 Flash 迁移烟测清单

不要因为 3.5 Flash 新、强、正式,就直接替换已有默认模型。更稳妥的做法是挑真实任务做同题对照。

  1. 选出五个当前模型容易失败、成本过高或需要大量人工修复的任务。
  2. 用当前默认路线和 gemini-3.5-flash 跑完全相同的输入。
  3. 对比答案质量、工具调用正确率、结构化输出通过率、延迟、token 使用、重试次数和人工 review 时间。
  4. 先按 Standard 价格算成本,再判断是否能放进 Batch 或 Flex。
  5. 只迁移明确提升的工作负载,并保留旧模型字符串作为回滚。

最适合作为第一批候选的是代码智能体 trace、长上下文研究包、多模态故障报告、带推理的文档抽取和可验证的工具链流程。最不适合第一批迁移的是极短分类、大规模低价翻译、实时语音、图像输出和只追求最低 token 成本的后台任务。

当前路线什么时候测 3.5 Flash什么时候保留当前路线
Gemini 3 Flash需要更强的智能体、代码或长上下文表现。旧路线已经足够准确且更便宜。
Flash-Lite质量问题、推理错误或人工修复成本高过节省的 token。任务简单、量大、利润敏感。
Flash Live业务从语音会话转向文本后端任务。产品仍然以实时语音为核心。
Pro 路线非关键任务需要更快或更省的迭代。正确性要求极高,Pro 明显值得。

常见问题

Gemini 3.5 Flash 已经正式发布了吗?

是。Google AI for Developers 的模型页已经列出 gemini-3.5-flash,并将它标为 GA/stable;Gemini API changelog 也记录了 2026 年 5 月 19 日的发布。上线前仍要重新检查官方页,因为价格、区域和能力支持可能变化。

API 模型 ID 是什么?

使用 gemini-3.5-flash。不要写成 gemini-3-flash-previewgemini-3.5-flash-preview 或其它旧 ID,除非你的具体官方路线明确这么要求。

它最适合什么任务?

优先测试智能体编程、长链路工具调用、多模态输入理解、结构化输出、文件密集型任务、Google Search grounding、URL context,以及需要 1,048,576 token 输入窗口的工作流。

它能生成图片或音频吗?

不应该这样用。当前模型页列出的是文本输出,并没有把 Gemini 3.5 Flash 标成图像生成或音频生成模型。需要这类输出时,选择对应的生成路线。

它支持 Live API 或 Computer Use 吗?

当前检查的模型页没有把 Gemini 3.5 Flash 列为 Live API 或 Computer Use 路线。实时语音看 Live API;UI 或浏览器控制看明确支持 Computer Use 的模型。

它比 Gemini 3 Flash 更便宜吗?

不要这样假设。当前 Standard 价格为输入 $1.50 / 1M、输出 $9.00 / 1M,不能沿用旧 Flash 价格。预算前要看最新官方价格表,并按你的输入输出比例重新计算。

我应该从 Gemini 3 Flash 切换到 Gemini 3.5 Flash 吗?

只有在同题对照测试证明它能改善你的真实工作负载时才切。它很适合智能体、代码和长上下文任务的第一轮评测,但不是低价批量、实时语音或生成图片的通用替代品。

建议

把 Gemini 3.5 Flash 当成强能力 Flash 路线来评估,而不是当成所有 Flash 任务的低成本继承者。需要智能体编程、长上下文、多模态输入和工具链推理时,优先测试 gemini-3.5-flash;需要最低成本、实时语音、图像或音频输出、Computer Use 时,先选对应路线。

最终是否迁移,应由你自己的任务样本决定:同题输入、同样工具、同样 token 预算、同样验收标准。如果它减少失败、缩短人工 review、提升工具调用正确率,那它就可能值得;如果只是名字更新、价格更高、输出类型不匹配,那就不该替换现有路线。

分享文章:

laozhang.ai

一个 API,所有 AI 模型

AI 图片

Gemini 3 Pro Image

$0.05/张
官方2折
AI 视频

Sora 2 · Veo 3.1

$0.15/个
异步API
AI 对话

GPT · Claude · Gemini

200+ 模型
同官方价
已服务 10万+ 开发者
|@laozhang_cn|送$0.1