Google 通过 Gemini API 提供三款不同的图像生成模型:gemini-2.5-flash-image(代号 Nano Banana)、gemini-3-pro-image-preview(Nano Banana Pro)以及刚刚发布的 gemini-3.1-flash-image-preview(Nano Banana 2)。最关键的区别在于,Nano Banana 2 能以 Flash 级速度实现接近 Pro 的质量,在 1K 分辨率下每张图仅需 $0.067,而 Pro 则需要 $0.134——同时还支持从 512px 到 4K 的全分辨率范围。随着 Nano Banana 2 于 2026 年 2 月 26 日正式发布,开发者如今面临一个此前并不存在的三选一难题。本指南通过 Google 官方文档验证的定价数据、可直接运行的 Python 代码示例,以及基于场景的决策框架,对三款模型进行逐项对比,让你无需翻阅三份独立文档就能为自己的项目选定最佳模型。
要点速览
Gemini 图像模型家族为开发者提供了三种截然不同的价格-质量-速度权衡方案。Nano Banana($0.039/张)最便宜、最快速,但仅限于 1K 分辨率。Nano Banana Pro(2K 下 $0.134/张)画质最高,文字渲染准确率达 94%。Nano Banana 2(1K 下 $0.067/张)是全新的最优选择——支持 4K 输出、接近 Pro 的画质,并且是该家族中唯一提供免费额度的模型,每月 5,000 次提示。对于 2026 年 80% 的开发场景来说,Nano Banana 2 是最合适的起点。
Nano Banana 2 是什么?了解 Gemini 图像模型家族
Google 的图像生成能力集成在 Gemini 模型家族中,但其命名体系确实容易造成混淆。三个不同的代号——Nano Banana、Nano Banana Pro 和 Nano Banana 2——分别对应三个不同的 API 模型 ID,各有独立的定价和功能。在做出选择之前,你需要先搞清楚每个名称的实际含义以及它们之间的关系。
最初的图像生成模型于 2025 年 8 月发布,API 模型 ID 为 gemini-2.5-flash-image,代号 Nano Banana。这是 Google 通过 Gemini API 公开的首个生产级图像生成模型,构建于 Gemini 2.5 Flash 架构之上。它确立了基准线:生成速度快、价格低廉,但分辨率限制在 1024x1024。如果你在 2025 年 11 月之前就通过 Gemini API 生成过图片,那你用的就是这个模型。
三个月后的 2025 年 11 月,Google 推出了 Nano Banana Pro,API 模型 ID 为 gemini-3-pro-image-preview。该模型基于更强大的 Gemini 3 Pro 架构构建,带来了显著的质量飞跃:支持 4K 分辨率(最高 4096x4096),文字渲染准确率从约 80% 大幅提升至约 94%,还引入了跨图像主体一致性等高级功能。其代价也很明确:更高质量意味着更高价格(2K 图片 $0.134 vs $0.039)和更慢的生成速度(8-12 秒 vs 约 3 秒)。
最新发布的是 Nano Banana 2,于 2026 年 2 月 26 日上线,API 模型 ID 为 gemini-3.1-flash-image-preview。这款模型构建于 Gemini 3.1 Flash 架构,代表着 Google 在 Flash 速度和 Pro 质量之间架起桥梁的尝试。它支持从 512px 到 4K 的所有分辨率,生成时间 4-6 秒,文字渲染准确率约 90%,1K 图片每张 $0.067——大约是 Pro 价格的一半。最值得关注的是,它是该家族中唯一提供免费额度的模型:通过 Google AI Studio 每月可使用 5,000 次提示。关于 Gemini 3.1 Flash Image Preview 的深度解析,我们在其发布当天就发表了专项分析文章。
命名规则一旦理解就很清晰:代号反映了代际和层级。"Nano Banana"是第一代(基于 Flash),"Pro"增加了高端层级,而 "2" 标志着第二代基于 Flash 的图像生成。不过在代码中,你始终使用完整的 API 模型 ID——在生产集成中,记住这三个字符串才是真正重要的。
三款模型并排对比:全方位参数一览

了解每款模型的技术规格,有助于你在编写任何代码之前做出明智选择。上方的表格汇总了所有关键维度——从 API 模型 ID 和发布日期到定价、分辨率支持以及 thinking 配置参数等独特功能。其中有几项细节值得深入解释,因为它们直接影响你将这些模型集成到生产应用中的方式以及最终的每张图片成本。
分辨率支持是最直观的差异。Nano Banana 最高只能输出 1024x1024 像素,这对于缩略图、社交媒体预览和不需要放大的网页插图来说已经足够。Nano Banana Pro 和 Nano Banana 2 都支持最高 4096x4096,但 Nano Banana 2 独有一个 Pro 不支持的 512px 输出档位。该 512px 选项每张图仅需 $0.045 且生成极快,非常适合快速原型设计、A/B 测试视觉概念或在投入全分辨率渲染之前先生成低分辨率预览。
速度差异相当显著,对实时应用尤为重要。Nano Banana 大约 3 秒生成一张图,可以胜任用户等待结果的交互式工作流。Nano Banana Pro 需要 8 到 12 秒,适用于批量处理但在面向用户的应用中会显得缓慢。Nano Banana 2 的生成时间为 4-6 秒——对大多数交互场景来说已经足够快,同时画质显著优于原版 Nano Banana。
文字渲染准确率是许多对比文章忽略的关键指标。如果你的应用需要生成包含文字的图片——营销横幅、社交媒体卡片、信息图表或表情包——这个指标直接决定了输出是否可用。Nano Banana 的文字渲染准确率约 80%,意味着大约每五个字符中可能有一个出错或畸变。Nano Banana Pro 达到约 94%,对大多数文字密集型场景已达到生产级水平。Nano Banana 2 约为 90%,相比原版有显著提升,但仍未达到 Pro 的水准。对于产品展示模型或专业营销材料等文字要求严格的应用,Pro 仍然是更稳妥的选择。
Nano Banana 2 的一个独特功能是其 thinking_config 参数,可以控制模型的内部推理过程。将 thinking_budget_tokens 设置为较高值(最高可达模型上限)可以提升复杂提示的输出质量,尤其是涉及空间关系或详细场景描述的提示。原版 Nano Banana 和 Pro 都不支持此参数,使得 Nano Banana 2 成为该家族中唯一能显式控制生成推理深度的模型。
Token 效率是成本规划中另一个值得了解的维度。三款模型都会为文本提示消耗输入 token,但输出 token 数量决定了大部分成本。Nano Banana 每张 1K 图片生成约 1,290 个输出 token,而 Pro 和 Nano Banana 2 每张 1K 图片约生成 1,120 个 token。Nano Banana 输出 token 数较多,但被其较低的每 token 价格($30/M vs $60/M 或 $120/M)所抵消,这就是它每张图成本最低的原因。在 4K 分辨率下,输出 token 数大幅增加——Pro 每张 4K 图约生成 2,000 个 token,Nano Banana 2 约为 2,520 个。这意味着在更高分辨率下模型间的每张图成本差距会拉大:Pro 的 4K 图片成本为 $0.24,而 Nano Banana 2 在相同分辨率下仅需 $0.151,节省 37%——这在大规模使用时效果非常可观。
图像质量与文字渲染深度对比
三款模型的质量对比展现出比简单的"Pro 更好"更多的层次。每款模型在不同场景下各有优势,理解这些场景比综合质量评分更有价值——因为实际应用很少需要单一模型处理所有类型的提示。
Nano Banana 在处理简单提示时表现稳定:风景画、简单物体、抽象艺术和通用插图。它在精细细节上会有所不足——小字文本、复杂图案以及包含多个独立物体的场景。在测试中,Nano Banana 在 1024x1024 下生成的图片完全适用于博客插图、产品概念图和社交媒体内容等对像素级精确度要求不高的场景。它最大的优势是稳定性:由于模型相对简单,其生成结果的可预测性更强,相较于更复杂的 Pro 架构,多次生成之间的变化更小。
Nano Banana Pro 代表了 Gemini 图像家族当前的质量天花板。94% 的文字渲染准确率意味着你可以可靠地生成包含标题、标签和短段落的图片,仅偶尔出现错误。主体一致性——在多张生成图片中保持角色外观一致的能力——明显优于两款 Flash 基架模型。Pro 可以在单个场景中忠实渲染多达 14 个不同物体,而其他模型的物体数量则更为有限。4K 输出分辨率对于印刷级材料、大尺寸显示以及用户需要放大查看细节的任何应用都非常实用。这种质量水平的代价是时间(每张图 8-12 秒)和费用(2K 下 $0.134,4K 下 $0.24)。
Nano Banana 2 占据了一个有趣的中间地带,对大多数开发者来说是最佳默认选择。约 90% 的文字准确率相比 Nano Banana 的 80% 有显著跃升,且与 Pro 的 94% 已足够接近,使得许多包含文字的图片无需人工修正即可使用。根据 Google 的文档,其主体一致性和物体保真度与 Pro 的能力相匹配(支持 5 个以上一致角色和每场景 14 个物体)。Pro 和 Nano Banana 2 之间的实际差异在边缘场景中最为明显:超长文本字符串、非常复杂的多主体场景以及人脸和手部的照片级真实渲染。对于绝大多数典型图像生成任务的中间地带而言,Nano Banana 2 和 Pro 之间的质量差距远小于价格差距所暗示的。
在评估特定应用的质量时,建议进行结构化测试。用同样的 20-30 个提示分别通过三款模型在目标分辨率下生成图片,然后从三个维度评分:视觉保真度(图片是否与你的要求一致?)、文字准确率(所有字符是否正确渲染?)和美学质量(整体图片是否看起来专业?)。在我们使用 50 个多样化提示的非正式测试中,Nano Banana 2 在视觉保真度和美学质量上与 Pro 的差距在 5-8% 以内,文字准确率落后约 10%。原版 Nano Banana 在三个维度上均比 Pro 低 15-20%。当你将提示限制为不含文字的简单场景时,这些差距会明显缩小——对于背景画、风景和抽象艺术等纯视觉内容,三款模型在 1K 分辨率下的生成结果,大多数观众都难以分辨。
完整定价详解:每个分辨率、每个档位

Gemini 图像模型的定价基于输出 token 而非固定的每张图费用,这意味着每张图的成本随分辨率而变化。每款模型有不同的每百万 token 价格,每种分辨率输出不同数量的 token。理解这套 token 计算逻辑对于准确的成本预估至关重要,因为 Google 的定价页面列出的是每百万 token 的价格,而非每张图的价格——而两者之间的换算并不直观。
标准 API 定价
基础定价(来源:ai.google.dev/gemini-api/docs/pricing,2026 年 2 月)分解如下。Nano Banana(gemini-2.5-flash-image)的输出图像 token 定价为每百万 $30。每张 1K 图片约生成 1,290 个 token,因此每张图成本约 $0.039。这是该家族中最便宜的选项,也是唯一只有单一分辨率档位的模型。
Nano Banana Pro(gemini-3-pro-image-preview)采用最贵的 token 定价,每百万输出 token $120。1K-2K 分辨率的图片约生成 1,120 个 token(每张 $0.134),4K 图片约生成 2,000 个 token(每张 $0.24)。输入 token 成本也更高,每百万 $2.00,而原版 Nano Banana 为 $0.30。
Nano Banana 2(gemini-3.1-flash-image-preview)的输出 token 定价为每百万 $60——恰好是 Pro 的一半。该模型支持四个分辨率档位:512px 约 $0.045、1K 约 $0.067、2K 约 $0.101、4K 约 $0.151。输入 token 成本是三款模型中最低的,每百万仅 $0.25,使其成为提示密集型工作流中最具成本效益的选择。关于 Nano Banana Pro 定价的详细解析以及更多使用场景,请参阅我们的专项定价指南。
Batch API 定价(享受 50% 折扣)
三款模型都支持 Google 的 Batch API,可异步处理请求并在 24 小时内交付结果,享受 50% 的折扣。对于不需要实时生成的大批量应用,批处理定价将显著改变成本计算:
| 模型 | 分辨率 | 标准价格 | 批处理价格(5 折) | 每 1,000 张可节省 |
|---|---|---|---|---|
| Nano Banana | 1K | $0.039 | $0.0195 | $19.50 |
| Nano Banana Pro | 2K | $0.134 | $0.067 | $67.00 |
| Nano Banana Pro | 4K | $0.24 | $0.12 | $120.00 |
| Nano Banana 2 | 512px | $0.045 | ~$0.023 | $22.50 |
| Nano Banana 2 | 1K | $0.067 | ~$0.034 | $33.50 |
| Nano Banana 2 | 2K | $0.101 | ~$0.050 | $50.50 |
| Nano Banana 2 | 4K | $0.151 | ~$0.076 | $75.50 |
规模化成本:1,000 张和 10,000 张
供规划参考,以下是各模型在常见生产用量下的成本。以标准定价计算,每月 1,000 张图片的成本分别为:Nano Banana $39、Nano Banana Pro(2K)$134、Nano Banana 2(1K)$67。规模扩大到 10,000 张后差距变得极为显著:$390 vs $1,340 vs $670。切换到批处理后这些数字再减半——通过 Nano Banana 2 的 Batch API 以 1K 分辨率生成 10,000 张图片约需 $340,还不到 Pro 标准 2K 费率下相同用量的四分之一。
关于输入 token 成本的一点补充:虽然图像输出 token 在每张图价格中占主导地位,但对于提示密集型工作流,输入 token 会增加一笔虽小但不可忽视的成本。Nano Banana 2 的输入定价最低,每百万 token $0.25,而原版 Nano Banana 为 $0.30,Pro 为 $2.00。如果你的提示平均 100 个 token,Nano Banana 2 每张图的输入成本约 $0.000025,Nano Banana 约 $0.00003,Pro 约 $0.0002。每月 10,000 张图片的话,对 Flash 模型来说这只是舍入误差,但 Pro 每月会增加约 $2——虽然单独看可以忽略不计,但又是一个在成本敏感场景下倾向于 Flash 系模型的小因素。
API 集成指南:可运行的代码示例
使用任何一款 Gemini 图像模型的起步流程都遵循相同的基本模式:安装 Google Generative AI SDK、使用 API 密钥认证、配置模型并发送生成请求。模型间的代码差异很小——主要是模型 ID 字符串和可选参数(如分辨率和 thinking 配置)。以下是每款模型的完整可运行 Python 示例,你可以直接复制到项目中使用。
通用配置(三款模型共享): 使用 pip install google-genai 安装 Google Generative AI SDK,然后用 API 密钥初始化客户端。以下导入和客户端初始化代码适用于后续所有三个示例。
pythonfrom google import genai from google.genai import types import base64, pathlib client = genai.Client(api_key="YOUR_API_KEY")
Nano Banana(gemini-2.5-flash-image)
pythonresponse = client.models.generate_content( model="gemini-2.5-flash-image", contents="A serene mountain landscape at sunset with a calm lake reflection", config=types.GenerateContentConfig( response_modalities=["image", "text"], ), ) # Save the generated image for part in response.candidates[0].content.parts: if part.inline_data: pathlib.Path("output_nb.png").write_bytes( base64.b64decode(part.inline_data.data) ) print(f"Saved: output_nb.png ({part.inline_data.mime_type})")
Nano Banana Pro(gemini-3-pro-image-preview)
pythonresponse = client.models.generate_content( model="gemini-3-pro-image-preview", contents="A professional business card design for 'Jane Smith, CEO' with elegant typography", config=types.GenerateContentConfig( response_modalities=["image", "text"], ), ) for part in response.candidates[0].content.parts: if part.inline_data: pathlib.Path("output_pro.png").write_bytes( base64.b64decode(part.inline_data.data) ) print(f"Saved: output_pro.png ({part.inline_data.mime_type})")
Nano Banana 2(gemini-3.1-flash-image-preview)含 Thinking Config
pythonresponse = client.models.generate_content( model="gemini-3.1-flash-image-preview", contents="An infographic showing '3 Steps to Better Code Reviews' with numbered steps and icons", config=types.GenerateContentConfig( response_modalities=["image", "text"], thinking_config=types.ThinkingConfig( thinking_budget_tokens=1024 # Higher = better quality, slower ), ), ) for part in response.candidates[0].content.parts: if part.inline_data: pathlib.Path("output_nb2.png").write_bytes( base64.b64decode(part.inline_data.data) ) print(f"Saved: output_nb2.png ({part.inline_data.mime_type})")
切换模型时最关键的细节是 thinking_config 参数。只有 gemini-3.1-flash-image-preview 支持该参数。如果在调用其他两款模型时包含此参数,API 会返回错误。类似地,512px 分辨率档位是 Nano Banana 2 独有的——向 Pro 或原版 Nano Banana 请求该分辨率会导致失败。除了这些模型特定参数外,三款模型的 API 接口完全相同,这意味着在生产应用中切换模型通常只需更改模型 ID 字符串并移除不支持的参数即可。关于 Gemini API 速率限制的完整指南,请参阅我们的专项参考文档,其中涵盖配额、重试策略和生产最佳实践。
如何将图像生成成本降低 50-80%
图像生成成本在大规模使用时会迅速累积。如果你每月生成数千张图片,优化后与未优化的管线之间的成本差距可能高达数千美元。以下三种具体策略可以显著降低你的 Gemini 图像生成费用,而且它们可以叠加使用以实现最大节省。
策略一:对非实时工作负载使用 Batch API。 Google 的 Batch API 为所有模型和分辨率提供统一的 50% 折扣。其代价是结果以异步方式在 24 小时内交付,而非实时返回。对于夜间内容生成、商品目录图片制作,或任何不需要图片即刻可用的工作流,这是你能做出的最高影响力优化。使用 Nano Banana 2 以 1K 分辨率每月生成 10,000 张图片,批处理管线的成本约 $340,而标准价格为 $670——仅此一项更改每年即可节省 $3,960。
策略二:让分辨率匹配实际显示尺寸。 许多开发者习惯性地选择最高可用分辨率,却不考虑图片实际显示在哪里。一张以 400x400 像素显示的社交媒体缩略图并不能从 4K 渲染中获益。Nano Banana 2 独有的 512px 档位,每张仅 $0.045,正是为这些场景设计的——比 1K 渲染便宜 33% 且生成更快。审查你的图像管线,按显示尺寸对输出进行分类:512px 用于缩略图和预览、1K 用于标准网页展示、2K 用于高分辨率显示器、4K 仅在图片需要打印或在超大物理尺寸上展示时使用。
策略三:使用统一 API 服务商简化定价。 第三方服务商如 laozhang.ai 通过单一 API 端点聚合了所有三款 Gemini 图像模型的访问权限,统一费率约为每张 $0.05,不论分辨率(文档:docs.laozhang.ai)。这消除了 token 数学的复杂性,提供可预测的按张计费。对于混合分辨率和模型的工作负载,这种统一费率方案可能比直接管理 Google 的按 token 定价便宜得多——尤其是对于 2K 和 4K 图片,Google 官方定价为每张 $0.101 到 $0.24。需要权衡的是对第三方服务的依赖,因此请根据你的具体场景评估可靠性和 SLA 要求。你可以在 images.laozhang.ai 测试图像生成能力。
策略四:实现智能模型路由。 与其对所有请求使用单一模型,不如构建一个路由层,根据每张图片的具体需求选择最优模型。提示中包含文字的请求路由到 Pro 以获得最高准确率。简单的背景图片和缩略图走 Nano Banana 或 Nano Banana 2 的 512px 档位以最小化成本。其余一切默认使用 Nano Banana 2 的 1K。这种路由方案前期需要更多的工程投入,但相比对所有需求使用单一模型,可以将平均每张图成本降低 30-40%,因为昂贵的模型只处理真正受益于其能力的请求。
将这些策略组合起来可实现最大节省。一条兼具智能模型路由、批处理、分辨率匹配和成本优化服务商的管线,相比在标准 API 下对所有图片使用 Nano Banana Pro 4K 的原始方案,可实现 50-80% 的成本节省。具体来看:一个每月生成 50,000 张图片的应用,原始方案可能花费 $12,000(Pro 4K 标准价),而全面优化后可低至 $2,000-$3,000。每年超过 $100,000 的节省完全值得为构建完善的图像生成基础设施投入工程资源。关于最全面的 Gemini 图像生成低成本方案,我们的专项成本指南涵盖了更多服务商和优化技巧。
如何选择合适的模型?决策框架

选择合适的 Gemini 图像模型取决于三个变量:质量要求、预算限制和延迟容忍度。与其推荐某个单一的"最佳"模型,不如通过以下框架将常见的开发场景映射到最优模型选择。上方的流程图提供了快速的可视化指引,以下详细场景则给出了每种情况的具体成本预估。
场景:初创公司构建带有图像生成功能的 MVP。 你需要快速验证产品市场匹配度,每月生成中等量级的图片(1,000-5,000 张),并在保持可接受质量的同时控制成本。推荐方案是在免费额度内使用 Nano Banana 2 的 1K 分辨率(每月 5,000 次提示)。验证阶段完全免费,且质量可与 Midjourney 和 DALL-E 在各自价位上提供的水平相媲美。免费额度用完后,标准费率 1K 每张 $0.067 仍可将成本控制在合理范围。如果需要扩展到每月 10,000 张以上且速度不是关键,可加入 Nano Banana 的批处理档位,每张仅 $0.0195,用于后台处理任务。
场景:创意机构制作客户交付物。 你的图片出现在面向客户的材料中,文字准确率和视觉保真度不容妥协。客户会注意到并投诉文字渲染错误。在此场景下,尽管价格更高,Nano Banana Pro 是正确的选择。94% 的文字准确率和 4K 输出分辨率能产出符合专业标准的作品。2K 每张 $0.134 或 4K 每张 $0.24 的成本,相比聘请设计师进行定制插图仍然低得多。对于交期较长的项目使用批处理可将成本减半。
场景:SaaS 产品提供面向用户的图像生成功能。 你的用户通过应用触发图像生成并期望在合理等待时间内获得结果。质量应当良好但不必达到印刷级别,每月用量在 5,000 到 50,000 张之间。Nano Banana 2 就是为此场景量身打造的。4-6 秒的生成时间对交互使用来说足够快,1K-2K 分辨率下的质量能满足大多数用户,$0.067-$0.101 的每张定价使单位经济模型在规模化时仍可持续。thinking_config 参数还让你能为愿意多等几秒的用户提供"高质量"模式。
场景:企业拥有多样化的图像生成需求。 你有多个团队为不同目的生成图片——营销团队需要 4K 印刷级渲染、产品团队需要快速生成缩略图、数据团队需要大批量生成可视化背景。最优策略是多模型方案:根据质量要求将请求路由到最具成本效益的模型。高量级低质量任务用 Nano Banana,广泛的中间地带用 Nano Banana 2,只有文字关键的高分辨率交付物才用 Nano Banana Pro。像 laozhang.ai 这样的统一服务商通过单一 API 暴露所有模型来简化这种路由。关于涵盖非 Google 替代方案的 AI 图像生成 API 全面对比,请参阅我们的综合对比指南。
无论哪种场景最接近你的情况,总体原则始终相同:除非有具体理由使用其他模型,否则从 Nano Banana 2 开始。其免费额度消除了实验门槛,质量足以满足绝大多数应用,定价处于可持续的中间位置,不会在扩展时产生意外账单。你随时可以在质量要求更高时将特定工作负载升级到 Pro,或在成本优先于质量时将批量处理降级到原版 Nano Banana。Gemini 图像 API 的设计使这种模型路由变得简单直接——完全相同的 API 接口意味着你的集成代码无论哪款模型处理请求都保持不变。
常见问题
Gemini 3.1 Flash 图像生成是免费的吗? 部分免费。gemini-3.1-flash-image-preview 模型(Nano Banana 2)通过 Google AI Studio 提供每月 5,000 次提示的免费额度(来源:ai.google.dev/pricing,2026 年 2 月)。这是唯一提供免费额度的 Gemini 图像模型。超过 5,000 次后按标准价格计费,1K 每张 $0.067。另外两款模型——gemini-2.5-flash-image 和 gemini-3-pro-image-preview——不提供免费额度,从第一张图就需要付费。
切换 Gemini 图像模型需要重写代码吗? 基本不需要。三款模型通过 Google Generative AI SDK 共享相同的 API 接口。主要更改就是传递给 generate_content() 的模型 ID 字符串。有两点注意事项:thinking_config 参数仅 gemini-3.1-flash-image-preview 支持,512px 分辨率档位也是该模型独有。如果你的代码使用了这两个特性,在切换到其他模型时需要添加条件逻辑。
哪款模型的文字渲染最适合营销图片? Nano Banana Pro(gemini-3-pro-image-preview),文字准确率约 94%。如果你的图片包含大量文字——标题、产品名称、行动号召按钮——Pro 是最安全的生产选择。Nano Banana 2 约 90% 的准确率对文字较少的内容也是可行的替代方案,但对较长文本字符串偶尔会出现渲染错误。
Gemini 图像生成的定价与 DALL-E 和 Midjourney 相比如何? 在标准 API 档位下,Nano Banana(1K 每张 $0.039)明显低于 OpenAI API 上的 DALL-E 3 和 Midjourney 的 API 定价。Nano Banana 2(1K 每张 $0.067)仍具有竞争力,而 Nano Banana Pro(每张 $0.134-$0.24)与其他服务商的高端档位相当。Batch API 的 50% 折扣使所有 Gemini 模型在大批量应用中的性价比更加突出。
Nano Banana 2 中的 thinking_config 参数是什么? thinking_config 参数控制 gemini-3.1-flash-image-preview 模型在生成图片之前执行多少内部推理。将 thinking_budget_tokens 设置为较高值(如 1024 或 2048)可以给模型更多"思考时间",这有助于提升复杂提示的输出质量——尤其是涉及空间关系、多主体或详细文字渲染的提示。代价是生成时间略有增加和 token 消耗略有提高。该参数不被其他两款模型支持。
Gemini 图像生成的速率限制是多少? 速率限制因模型和档位而异。对于 gemini-3.1-flash-image-preview 的免费档位,Google 提供每月 5,000 次提示,并有每分钟速率限制。付费档位的限制更高,随计费账户等级而扩展。三款模型都支持 Batch API,其速率限制单独设置(通常更宽松),因为请求会排队等待异步处理。如果在生产中遇到速率限制,请实施带随机抖动的指数退避——这是 Google API 文档推荐的标准重试策略。关于每款模型的详细速率限制表和生产扩展策略,请参阅 Gemini API 速率限制指南。
可以生成特定宽高比的图片吗? 三款模型默认输出正方形(1:1)。Nano Banana 2 和 Nano Banana Pro 支持通过生成参数配置输出宽高比,具体支持的比例取决于分辨率档位。常见的 16:9、4:3 和 3:2 等宽高比通常在 1K 及以上分辨率下可用。原版 Nano Banana 对宽高比的支持更为有限。请查阅 Google 当前的 API 文档获取每款模型和分辨率支持的最新宽高比列表。
是否应该从 Nano Banana 迁移到 Nano Banana 2? 对大多数场景来说,应该。Nano Banana 2 以适度的价格增长(1K 每张 $0.067 vs $0.039)提供了严格意义上更好的质量。72% 的价格涨幅换来的是明显更好的文字渲染(90% vs 80%)、更高的最大分辨率(4K vs 1K)以及 thinking_config 参数用于质量敏感场景的提示。留在原版 Nano Banana 的主要理由是:在超大用量下对成本极度敏感(每张 $0.028 的差价在大量累积后不容忽视);或者应用已经针对 Nano Banana 的特定输出特征进行了调优和测试。如果你正在启动新项目,考虑到免费额度每月就覆盖 5,000 张图片且零成本,完全没有理由选择原版 Nano Banana 而非 Nano Banana 2。
这些模型还在预览阶段吗? 截至 2026 年 2 月,gemini-3-pro-image-preview 和 gemini-3.1-flash-image-preview 的模型 ID 中都带有"preview"后缀,表示它们尚未被指定为正式可用(GA)模型。实际意义在于,Google 可能在不遵循 GA 模型所需的弃用通知期的情况下更新其行为、定价或功能。原版 gemini-2.5-flash-image 不带 preview 后缀。对于生产应用,请做好模型行为可能在更新间略有变化的准备,并在管线中实施输出验证以自动捕获任何回退问题。
