Gemini Image 是 Google 推出的 AI 图像生成能力,涵盖 Nano Banana 2、Nano Banana Pro、Gemini 2.5 Flash Image 等多个模型。国内开发者可以通过 API 中转服务在无需翻墙的情况下直接调用这些模型,实现从文字到高质量图片的生成。本文将从 API 申请到代码实现,提供一份覆盖全流程的实操教程。
要点速览
Gemini Image 目前提供 4 个主要模型用于图像生成,价格从 $0.02 到 $0.24 不等。国内开发者由于网络和地区限制无法直接访问 Google API,但可以通过 laozhang.ai 等 API 中转服务实现国内直连。整个接入流程只需 5 分钟:注册中转平台、获取 API Key、用标准 OpenAI 格式调用即可生成图片。本教程覆盖从零开始的完整流程,包括 Python 代码示例、4 大模型的选型对比、安全过滤器处理方案和 Batch API 成本优化策略。无论你是想将 AI 图片生成集成到产品中的开发者,还是希望低成本使用 AI 绘图的个人用户,都能在这篇教程中找到适合自己的方案。
Gemini Image 全系列模型解析

Google 的 AI 图像生成能力并非只有一个模型,而是一个包含多个定位不同的模型家族。理解每个模型的特点和适用场景,是选对方案的第一步。截至 2026 年 3 月,Gemini Image 家族包含以下四个主要模型,它们在速度、质量和价格上各有侧重。
Nano Banana 2(gemini-3.1-flash-image-preview) 是目前最受开发者欢迎的图像生成模型。它于 2026 年 2 月发布,定位为高效率的"Flash 级"图像生成器。Nano Banana 2 支持 14 种不同的宽高比(从 1:1 到 21:9),分辨率覆盖 0.5K 到 4K,默认 1024x1024 的图片价格约为 $0.067(ai.google.dev/pricing,2026-03-15 验证)。它的生成速度通常在 4-6 秒之间,非常适合需要快速批量出图的场景。在 AI Arena 排行榜上,Nano Banana 2 位居文本到图像生成的第一名,文字渲染准确率达到 87-96%(spectrumailab benchmark),说明它在图中文字处理方面也有不错的表现。
Nano Banana Pro(gemini-3-pro-image-preview) 是家族中的高端型号,专为需要最高画质的专业场景设计。它支持 1K、2K 和 4K 三档分辨率,其中 1K/2K 分辨率的价格为 $0.134/图,4K 分辨率为 $0.24/图(Google AI Overview,2026-03-15 验证)。Nano Banana Pro 内置了"Thinking"高级推理能力,能够更精确地理解复杂指令,在文字渲染方面的准确率高达 94-96%(spectrumailab benchmark)。如果你的应用场景对图片质量要求很高(比如电商产品图、设计素材),Nano Banana Pro 是更好的选择,尽管价格也相应更高。
Gemini 2.5 Flash Image 是一个较早推出的基础模型,默认 1024x1024 图片价格约 $0.039(ai.google.dev/pricing)。它的优势在于价格较低,且在 Google AI Studio 中有一定的免费额度(具体数量动态变化)。作为入门级选择,Gemini 2.5 Flash Image 适合预算有限的个人用户或原型验证阶段的开发者。需要注意的是,它在图像质量和文字渲染能力上与 Nano Banana 2 和 Pro 存在一定差距。
Imagen 4 Fast 则是 Google 传统图像生成模型线的最新版本,价格仅为 $0.02/图(ai.google.dev/pricing,Vertex AI),是四个模型中最便宜的。但 Imagen 4 的 API 调用方式与 Gemini 系列不同,功能上也不支持对话式图像编辑和多模态交互。如果你只需要简单的文字生成图片功能,且对成本非常敏感,Imagen 4 Fast 是值得考虑的选项。如果你想深入了解这些模型之间的详细差异,可以参考我们的Gemini 全系列图像模型对比文章。
| 模型 | Model ID | 价格(1K图) | 速度 | 分辨率 | 适用场景 |
|---|---|---|---|---|---|
| Nano Banana 2 | gemini-3.1-flash-image-preview | $0.067 | 4-6秒 | 0.5K-4K | 日常批量出图 |
| Nano Banana Pro | gemini-3-pro-image-preview | $0.134 | 8-12秒 | 1K-4K | 专业高质量图 |
| Gemini 2.5 Flash | gemini-2.5-flash-image | $0.039 | 3-5秒 | 1K | 入门/原型验证 |
| Imagen 4 Fast | imagen-4-fast | $0.02 | 2-4秒 | 1K | 低成本简单生成 |
国内开发者为什么需要 API 中转
国内开发者在使用 Gemini Image API 时面临三重障碍,这些障碍在实际开发中往往比技术问题本身更令人头疼。
第一重障碍是网络访问限制。Google 的 API 服务端点 generativelanguage.googleapis.com 在中国大陆无法直接访问。即使你已经拥有 API Key,在没有代理的情况下发送的请求也会因为 DNS 解析失败或连接超时而无法到达 Google 服务器。这意味着在生产环境中,你不能简单地将 Gemini API 集成到面向国内用户的应用中——你的服务器也无法直接调用这些 API。对于需要在云服务器上运行 AI 图像生成任务的开发者来说,这是一个根本性的问题。
第二重障碍是地区策略限制。即使解决了网络问题(比如使用香港或日本的服务器),Google 也会对 API 请求的来源地区进行检查。某些功能在特定地区可能被限制或不可用。更重要的是,Google AI Studio 的注册和 API Key 创建过程本身就需要在受支持的地区完成,这对没有海外账号的开发者来说是第一个拦路虎。
第三重障碍是支付方式限制。使用 Gemini API 的付费功能需要在 Google Cloud 中绑定信用卡并启用 Billing。Google Cloud 对中国大陆发行的信用卡支持有限,Visa 和 Mastercard 虽然理论上可用,但实际支付过程中经常遇到验证失败的情况。这一点在 V2EX 和 LINUX DO 等开发者社区中被反复讨论,很多开发者表示"注册容易付费难"。
面对这三重障碍,目前主流的解决方案有三种:自建 Cloudflare Workers 反向代理(免费但需要技术能力且稳定性不保证)、使用 Docker+Nginx 在海外服务器部署代理(需要维护服务器)、以及使用商业 API 中转服务(如 laozhang.ai,开箱即用,支持支付宝/微信支付)。对于大多数开发者来说,商业 API 中转是最省时省力的选择,特别是当你需要在生产环境中保证服务稳定性时。
5 分钟快速开始:获取 API Key 并生成第一张图

从零到生成第一张 AI 图片,只需要 4 个步骤。这里以 laozhang.ai 中转服务为例,展示最快的接入路径。整个过程不需要翻墙,不需要 Google 账号,不需要信用卡。
第一步:注册 laozhang.ai 账号并获取 API Key。 访问 laozhang.ai 注册账号,使用邮箱即可完成注册。注册后系统会自动赠送免费体验额度。在控制台的"API 密钥"页面点击"创建密钥",复制生成的 API Key 并妥善保管。这个 Key 就是你后续调用所有 AI 模型的凭证。
第二步:安装依赖。 laozhang.ai 的 API 完全兼容 OpenAI SDK 格式,所以你只需要安装 OpenAI 的 Python 库即可:
bashpip install openai
第三步:编写代码生成第一张图片。 以下是一个最简单的 Python 示例,使用 Nano Banana 2 模型生成一张图片:
pythonfrom openai import OpenAI import base64 client = OpenAI( api_key="你的laozhang.ai_API_Key", base_url="https://api.laozhang.ai/v1" ) response = client.chat.completions.create( model="gemini-3.1-flash-image-preview", messages=[ { "role": "user", "content": "生成一张可爱的卡通猫咪坐在月亮上的插画,风格清新,色彩柔和" } ] ) for part in response.choices[0].message.content: if hasattr(part, 'image_url'): image_data = base64.b64decode(part.image_url.url.split(',')[1]) with open('my_first_image.png', 'wb') as f: f.write(image_data) print("图片已保存为 my_first_image.png")
第四步:运行代码。 保存上面的代码为 generate.py,然后在终端执行:
bashpython generate.py
几秒钟后,你就能在当前目录看到生成的图片文件。整个过程就是这么简单——没有复杂的认证流程,没有网络配置,直接写代码就能用。如果你使用的是 curl 或其他语言,核心逻辑完全一样:将 base_url 指向 https://api.laozhang.ai/v1,使 用 laozhang.ai 的 API Key,调用标准的 Chat Completions 接口即可。
Python 图片生成完整教程
掌握了基础的生成方法后,让我们深入了解更多实用的功能。Gemini Image API 不仅可以从文字生成图片,还支持图片编辑、多分辨率控制和批量生成等高级功能。
指定分辨率和宽高比
Nano Banana 2 支持 14 种宽高比和多种分辨率。你可以在提示词中直接指定:
pythonresponse = client.chat.completions.create( model="gemini-3.1-flash-image-preview", messages=[ { "role": "user", "content": "生成一张16:9比例的科技感城市夜景,分辨率2048x1152,风格赛博朋克" } ], extra_body={ "image_resolution": "2k" # 可选: 0.5k, 1k, 2k, 4k } )
图片编辑(以图生图)
Gemini Image 支持基于已有图片进行编辑,这是它相比传统图像生成 API 的一大优势。你可以上传一张图片,然后用文字描述你想要的修改:
pythonimport base64 # 读取本地图片 with open("original.png", "rb") as f: image_base64 = base64.b64encode(f.read()).decode() response = client.chat.completions.create( model="gemini-3.1-flash-image-preview", messages=[ { "role": "user", "content": [ { "type": "image_url", "image_url": { "url": f"data:image/png;base64,{image_base64}" } }, { "type": "text", "text": "把这张图片的背景改成夕阳海滩,保持前景人物不变" } ] } ] )
这种对话式的图片编辑能力使得 Gemini Image 非常适合需要迭代修改的场景。你可以在同一个对话中连续发送编辑指令,模型会记住之前的上下文,逐步调整图片直到满意为止。
批量生成多张图片
当你需要一次性生成多张图片时,可以利用 Python 的异步特性来提高效率。以下示例展示了如何并发生成 5 张不同风格的图片:
pythonimport asyncio from openai import AsyncOpenAI async_client = AsyncOpenAI( api_key="你的API_Key", base_url="https://api.laozhang.ai/v1" ) async def generate_image(prompt, filename): response = await async_client.chat.completions.create( model="gemini-3.1-flash-image-preview", messages=[{"role": "user", "content": prompt}] ) # 保存图片... print(f"已生成: {filename}") async def batch_generate(): prompts = [ ("一只橘猫在阳光下打盹", "cat_nap.png"), ("雪山下的日式庭院", "japanese_garden.png"), ("复古风格的咖啡店内景", "vintage_cafe.png"), ("太空站窗外的地球", "earth_view.png"), ("水彩风格的向日葵田", "sunflower.png"), ] tasks = [generate_image(p, f) for p, f in prompts] await asyncio.gather(*tasks) asyncio.run(batch_generate())
需要注意的是,并发请求需要考虑 API 的速率限制。Gemini Image API 的速率限制因模型和账户等级而异,一般在 10-60 RPM(每分钟请求数)之间。如果你遇到 429 错误,说明请求频率过高,需要在请求之间加入适当的延迟。
模型选型指南:NB2 vs NBP vs Imagen 4 怎么选

面对四个不同的模型,很多开发者会陷入选择困难。实际上,每个模型的定位非常清晰,关键在于你的核心需求是什么。以下是基于不同场景的选型建议,帮助你快速做出决定。
日常开发和原型验证:选 Nano Banana 2。 如果你正在开发一个需要集成 AI 图片生成功能的应用,Nano Banana 2 是最平衡的选择。$0.067/图的价格在可接受范围内,4-6 秒的生成速度能满足实时交互的需求,14 种宽高比覆盖了几乎所有常见的应用场景。更重要的是,它在 AI Arena 排行榜上位居第一,说明综合质量在同级别模型中处于领先水平。对于大多数开发场景,你不需要考虑其他模型——NB2 就够了。
专业设计和商业用途:选 Nano Banana Pro。 当图片质量是第一优先级时,比如电商产品摄影、品牌设计素材、需要在印刷品上使用的图片,Nano Banana Pro 的 4K 超清分辨率和 94-96% 的文字渲染准确率是其他模型无法替代的。虽然 $0.134-$0.24/图的价格较高,但对于商业级应用来说,一张高质量的 AI 生成图片远比雇摄影师拍摄(通常 $25-150/张)便宜得多。如果你需要了解更多关于不同 AI 图像模型的价格对比,包括 GPT Image 和 FLUX 系列的对比,可以参考Gemini vs GPT Image vs FLUX 价格对比。
极致成本控制:选 Imagen 4 Fast。 如果你的应用每天需要生成数千张甚至上万张图片,且对图片质量要求不那么严格(比如社交媒体头像生成、简单的装饰性图片),Imagen 4 Fast 的 $0.02/图是最经济的选择。它比 NB2 便宜约 70%,适合大规模批量场景。不过需要注意,Imagen 4 的 API 接口与 Gemini 系列不完全相同,不支持对话式编辑,功能相对有限。
预算非常有限的个人用户:选 Gemini 2.5 Flash Image。 它的价格介于 Imagen 4 和 NB2 之间,且在 AI Studio 中有一定的免费额度。如果你只是偶尔需要生成一些图片用于个人用途,Gemini 2.5 Flash Image 是成本最低的入门选择。
通过 laozhang.ai 中转服务调用这些模型,价格更加统一和优惠——大多数模型的生成价格为 $0.05/图(约合人民币 0.35 元),不分分辨率,这比 Google 官方价格便宜了 25-80%。特别是 Nano Banana Pro 的 4K 图片,官方价格 $0.24/图而通过 laozhang.ai 只需 $0.05/图,相当于官方 2 折的价格。详细的价格信息可以查阅 laozhang.ai 文档。
| 使用场景 | 推荐模型 | 单图成本 | laozhang.ai 价格 | 关键理由 |
|---|---|---|---|---|
| 日常开发 | NB2 | $0.067 | $0.05 | 速度快、质量好、比例全 |
| 专业设计 | NBP | $0.134-$0.24 | $0.05 | 4K超清、文字精准 |
| 大规模批量 | Imagen 4 | $0.02 | - | 极致低价 |
| 个人入门 | Gemini 2.5 Flash | $0.039 | $0.05 | 有免费额度 |
高级技巧与成本优化
掌握了基本的图片生成方法后,以下几个进阶技巧能帮你在实际项目中更高效地使用 Gemini Image。
Batch API:成本直降 50%
Google 提供了 Batch API(批量处理接口),允许你提交一批请求并在 24 小时内获取结果。作为回报,所有 token 价格享受 50% 的折扣。这意味着 NB2 的价格从 $0.067 降到约 $0.034/图,NBP 从 $0.134 降到约 $0.067/图。对于不要求实时响应的场景(比如每晚批量生成第二天需要的营销素材),Batch API 是最有效的成本优化手段。如果你想了解 Batch API 的详细用法和更多成本优化策略,推荐阅读Batch API 成本优化完整指南。
安全过滤器处理
使用 Gemini Image API 时,你可能会遇到图片被安全过滤器拦截的情况。Gemini 的安全系统分为两层:第一层(Layer 1)是可配置的内容安全过滤器,你可以通过设置 harm_block_threshold 来调整敏感度;第二层(Layer 2)是不可配置的策略过滤器,用于阻止版权、名人肖像等内容,这一层无法通过任何设置绕过。
当你收到 blockReason: OTHER 或 finishReason: IMAGE_SAFETY 的响应时,通常是触发了安全过滤器。建议的处理方式是:首先检查你的提示词是否包含可能被误判的敏感词汇;然后尝试重新措辞,使用更中性的描述方式。特别是对于服装和时尚相关的图片,使用"产品优先"的描述方式(先描述产品特征,而不是人物特征)能有效降低被误判的概率。如果你在实际使用中频繁遇到 blockReason: OTHER 错误,可以参考我们的blockReason OTHER 完整解决方案,里面有详细的分层处理策略。
多分辨率策略
不同场景需要不同分辨率的图片。一个实用的策略是:在开发和预览阶段使用 0.5K 或 1K 分辨率(成本最低),确认效果满意后再用同样的提示词生成 2K 或 4K 的高清版本。这样既节省了调试阶段的成本,又能保证最终输出的质量。在 Nano Banana 2 中,分辨率可以通过 API 参数控制:0.5K 约 $0.045/图,1K 约 $0.067/图,2K 约 $0.101/图,4K 约 $0.151/图(ai.google.dev/pricing,2026-03-15 验证)。
提示词优化技巧
好的提示词是获得高质量图片的关键。以下几个技巧可以显著提升生成效果:保持描述具体明确("一只橘色缅因猫坐在窗台上"比"一只猫"好得多);指定风格关键词(水彩、油画、赛博朋克、像素风等);控制构图("居中构图"、"三分法"、"鸟瞰视角"等);注明光照条件("金色黄昏光"、"工作室灯光"等)。如果你需要在图片中包含文字,Nano Banana Pro 的文字渲染能力最强,建议将文字内容用引号明确标出,并指定字体风格和位置。
常见问题与故障排除
问:生成的图片是空白或者没有返回图片数据怎么办?
这个问题通常有两个原因:一是安全过滤器拦截了内容但没有返回明确的错误信息(常见于 Gemini 2.5 Flash Image),建议改用 Nano Banana 2 并检查提示词内容;二是网络超时导致响应不完整,可以在代码中增加 timeout 参数(建议设为 60 秒以上)。
问:NB2 和 NBP 的免费额度是多少?
截至 2026 年 3 月,Nano Banana 2 和 Nano Banana Pro 的图片生成功能没有免费额度。Google AI Studio 中的免费额度仅限于文本对话功能。图像生成需要启用 Billing 并按量付费。通过 laozhang.ai 使用则按其平台定价计费,新注册用户会获得赠送额度。
问:429 错误(Rate Limit)怎么处理?
429 错误表示你的请求频率超过了限制。处理方式包括:在请求之间添加延迟(推荐 1-2 秒/请求);使用指数退避重试策略;如果是生产环境,考虑使用多个 API Key 轮询。Gemini Image API 的速率限制通常在 10-60 RPM 之间,具体取决于模型和账户等级。
问:如何在 ComfyUI 中使用 Gemini Image?
Gemini Image 可以集成到 ComfyUI 工作流中,目前社区维护了多个节点插件。安装和配置方法请参考我们的ComfyUI 集成 Gemini Image 教程,里面有完整的安装步骤和工作流示例。
问:通过中转 API 调用会影响图片质量吗?
不会。API 中转服务只是将你的请求转发到 Google 的服务器,模型的运算和图片的生成仍然在 Google 的基础设施上完成。中转服务不会对图片进行任何处理或压缩,你获得的图片质量与直接调用 Google API 完全一致。唯一的区别是网络延迟可能略有增加(通常增加 100-300ms),但对于图片生成这种本身需要数秒的操作来说,这个延迟几乎可以忽略不计。
总结与下一步
Gemini Image 为国内开发者提供了强大的 AI 图像生成能力,通过 API 中转服务的方式完全解决了网络访问和支付障碍。本教程涵盖了从零开始的完整流程:理解 4 个模型的定位和价格差异,通过 laozhang.ai 在 5 分钟内完成接入,使用 Python 代码实现图片生成、编辑和批量处理,以及通过 Batch API 和多分辨率策略优化成本。
如果你是第一次使用 Gemini Image,建议从 Nano Banana 2 开始——它在速度、质量和价格之间取得了最佳平衡。当你的需求升级到专业级时,再切换到 Nano Banana Pro 获取更高画质。所有这些操作只需要更改代码中的 model 参数,其他部分完全不需要修改。
开始你的 AI 图像生成之旅:访问 laozhang.ai 注册账号,获取免费体验额度,用本教程中的代码示例生成你的第一张 AI 图片。更多技术细节和 API 参数说明,请查阅 laozhang.ai 开发文档。
