Gemini 图片生成：全部 7 个模型、免费使用与 API 完整指南（2026）

AI Free API Team

•2026年3月26日•24 分钟阅读•AI 图片生成

Google 的 Gemini 平台提供 7 个不同的图片生成模型和 3 种使用路径——从 Gemini 应用的完全免费体验到每张低至 $0.02 的企业级 API 接入。本完整指南涵盖所有模型（从 Nano Banana 到 Imagen 4 Ultra）、5 分钟内生成第一张图片的方法、含月度成本计算的定价详解，以及显著提升输出质量的提示词工程技巧。

Gemini 图片生成：全部 7 个模型、免费使用与 API 完整指南（2026）

Google 的 Gemini 平台已悄然成为 2026 年最强大且最具性价比的 AI 图片生成生态系统之一。凭借两大产品系列中的七个不同模型——对话式 Gemini Native 系列（代号"Nano Banana"）和专用的 Imagen 4 系列——加上从免费消费级应用到生产级 API 的三种完全不同的使用路径，整个生态十分丰富但对新手来说确实令人困惑。本指南以截至 2026 年 3 月经 Google 官方文档验证的最新数据为依据，在一篇文章中覆盖所有模型、所有价格层级和所有使用方式，帮你理清全部脉络。

要点速览

以下是关于 Gemini 图片生成你需要了解的核心信息：

7 个可用模型：Nano Banana（$0.039）、Nano Banana 2（$0.045-0.151）、Nano Banana Pro（$0.134+）、Imagen 4 Fast（$0.02）、Imagen 4（$0.04）、Imagen 4 Ultra（$0.06）——以及消费级 Gemini 应用内置模型
免费使用确实存在：Gemini 应用（每天 20 张）和 Google AI Studio 网页端（每天约 500 张）均免费且无需绑定信用卡
API 没有免费额度用于图片生成——每次 API 调用从第一张图片起即计费
核心区别：Nano Banana 模型支持对话式编辑和参考图片。Imagen 4 模型仅支持文生图但价格更低
最高分辨率：4K（仅 Nano Banana 2 和 Pro 支持）——这是目前所有主流 AI 图片生成器中最高的原生分辨率
最佳起步选择：Nano Banana 2（gemini-3.1-flash-image-preview），在质量、功能和成本之间取得最佳平衡

什么是 Gemini 图片生成——全部 7 个模型详解

Gemini 全部 7 个图片生成模型的完整对比，包含定价与功能特性

Google 通过两个本质不同的产品系列提供 AI 图片生成功能，理解这一区别是做出正确模型选择的最关键概念。Gemini Native 系列（品牌名"Nano Banana"）在对话式 AI 交互中生成图片——你可以描述想要的内容、获取图片，然后通过自然语言告诉模型修改特定元素。Imagen 4 系列是专用的文生图系统，接收提示词并返回图片，没有对话式编辑能力。两个系列都可以通过同一个 Gemini API 访问，但它们服务于不同的使用场景，且定价结构也不同。

Gemini Native 系列包含三个自推出以来快速迭代的模型。最初的 Nano Banana（gemini-2.5-flash-image）是首个为 Gemini 平台带来原生图片生成能力的模型，以每张 $0.039 的价格提供 1K 分辨率输出，并完整支持对话式编辑。Nano Banana 2（gemini-3.1-flash-image-preview）于 2026 年 2 月 26 日发布，代表了一次重大飞跃，支持 4K 分辨率、改进的文字渲染精度，以及最多 14 张参考图片以保持风格一致性（ai.google.dev，2026 年 3 月）。这个模型目前是大多数开发者启动新项目时的推荐默认选择。Nano Banana Pro（gemini-3-pro-image-preview）定位高端，以 1K 分辨率下约 $0.134 每张的价格提供 Gemini Native 系列中最高质量的输出，具备与 Nano Banana 2 相同的 4K 能力和参考图片支持，但在视觉保真度和提示词遵循精度上明显更优。如需深入了解这些模型在具体指标上的对比，请参阅我们的 Gemini 图片模型详细对比。

Imagen 4 系列代表 Google 的专用图片生成技术，目前已全面发布三个层级。Imagen 4 Fast（imagen-4.0-fast-generate-001）以每张仅 $0.02 的价格成为速度和成本冠军——这是整个 Gemini 生态系统中最便宜的选项。标准版 Imagen 4（imagen-4.0-generate-001）每张 $0.04，在文字渲染和构图细节方面有所提升。Imagen 4 Ultra（imagen-4.0-ultra-generate-001）每张 $0.06，提供 Imagen 系列中最高的质量，支持 2K 分辨率输出。所有 Imagen 4 模型都包含 SynthID 水印以符合负责任 AI 的合规要求，并支持改进的排版功能，使其可用于创建海报、邀请函和其他文字密集型视觉内容（Google Developers Blog，2026 年 3 月）。你需要理解的关键限制是：Imagen 4 模型无法编辑现有图片——它们只能从文字提示词生成。如果你需要修改、优化或通过对话迭代改进图片，必须使用 Nano Banana 模型。

模型	API ID	每张价格	最高分辨率	编辑	参考图片	最适用场景
Nano Banana	gemini-2.5-flash-image	$0.039	1K	支持	14	经济型编辑
Nano Banana 2	gemini-3.1-flash-image-preview	$0.045-0.151	4K	支持	14	默认首选
Nano Banana Pro	gemini-3-pro-image-preview	$0.134+	4K	支持	14	最高质量
Imagen 4 Fast	imagen-4.0-fast-generate-001	$0.02	2K	不支持	0	速度+成本
Imagen 4	imagen-4.0-generate-001	$0.04	2K	不支持	0	均衡之选
Imagen 4 Ultra	imagen-4.0-ultra-generate-001	$0.06	2K	不支持	0	高端质量

3 种图片生成方式——Gemini 应用 vs AI Studio vs API

Gemini 图片生成的三种使用路径，从入门到开发者

关于 Gemini 图片生成最常见的困惑来源之一，就是存在三种完全不同的使用方式，每种方式的功能、限制和定价都不同。了解哪种路径适合你的需求，可以节省大量时间，避免遇到意料之外的限制时产生挫败感。

Gemini 应用位于 gemini.google.com，是最简单的入口，只需一个 Google 账号即可使用。打开应用后，你可以选择图片生成工具，然后用自然语言描述你想要的内容。该应用使用 Nano Banana 2 作为底层模型，让你无需任何技术设置就能使用 Google 最新的对话式图片生成能力。免费版每天允许生成约 20 张 1K 分辨率的图片，对于个人创意项目、社交媒体内容和日常实验来说完全够用。对话式编辑功能意味着你可以生成图片后通过后续消息告诉 Gemini 修改特定元素——"让天空更加戏剧化"、"移除左边的人物"、"改成水彩风格"——这使它成为一个对任何人都极为友好的创意工具，无论技术背景如何。

Google AI Studio 位于 aistudio.google.com，既是一个强大的测试平台，也是通往 API 的桥梁。通过 AI Studio 的网页界面，你可以访问所有 Gemini Native 模型（不仅仅是 Nano Banana 2），配置分辨率设置，并排测试不同的提示词，而且重要的是，当你准备将图片生成集成到自己的应用中时，可以在这里生成 API 密钥。网页端的免费额度每天允许约 500 次图片生成——比 Gemini 应用慷慨得多——并且包括最高 4K 的所有分辨率选项。使用网页端无需绑定信用卡。关键区别在于，这个免费额度仅适用于网页交互界面；一旦你以编程方式使用 API 密钥，就会从第一张图片开始计费。如需了解如何最大化免费使用，请参阅我们的 Gemini 图片免费额度指南和完整免费限额详解。

Gemini API 提供对全部七个图片生成模型的完整编程访问，是生产应用、自动化管线和大批量生成的首选路径。API 遵循标准 REST 规范，通过 generativelanguage.googleapis.com 访问，并通过 Python、JavaScript、Go 和 Java 的官方 SDK 提供支持。API 图片生成没有免费额度——每次调用都按模型的每张图片费率计费。Batch API 以 24 小时处理窗口为代价，所有模型可享 50% 折扣，非常适合非实时性需求的工作负载。速率限制因模型和账户层级而异，生产级访问支持比预览模型更高的吞吐量。如需完整的 API 集成指南（含代码示例和最佳实践），请参阅我们的 Gemini 图片 API 详细指南。

完整定价指南——从免费到企业级

Gemini 图片生成定价，从免费层到企业级，含月度成本计算器

Gemini 图片生成的定价跨度极大——从完全免费到企业规模的 API 计费——正确的选择完全取决于你的使用量、质量要求以及是否需要编辑功能。以下所有定价数据均经 ai.google.dev 官方定价页面验证，该页面最后更新于 2026 年 3 月 25 日。

免费路径为非生产用途提供了真正的价值。Gemini 应用每天 20 张免费图片足以满足个人创意探索，Google AI Studio 每天约 500 次网页端免费生成为开发者在承诺 API 支出之前提供了充足的测试环境。很多开发者容易忽略的关键细节是：API 本身没有免费图片生成额度。不同于 Gemini 文本生成 API 提供的慷慨免费配额，每一次 API 图片生成调用都从第一个请求开始计费。这意味着你的原型设计和提示词工程应该在 AI Studio 的免费网页端完成，然后再开始进行 API 调用。

在生产级 API 使用方面，成本计算很直观，但因模型选择不同而差异显著。在低端，Imagen 4 Fast 每张仅 $0.02，意味着 1,000 张图片每月仅需 $20——对于生产工作负载来说极为实惠。默认推荐的 Nano Banana 2 在 1K 分辨率下每张 $0.045，1,000 张图片每月 $45。升级到 Nano Banana 2 的 4K 分辨率，成本增至每张 $0.151，即 1,000 张图片 $151。高端的 Nano Banana Pro 在 1K 下约 $0.134 每张，1,000 张图片达到 $134。Batch API 以 24 小时处理窗口为代价，所有模型的成本减半——使 Imagen 4 Fast 在批量模式下仅需每张 $0.01，这是目前最便宜的 AI 图片生成价格之一。

第三方 API 提供商提供了另一种定价结构，在某些场景下可能更具性价比。通过 laozhang.ai 等平台，Nano Banana Pro 的访问价格约为每张 $0.05（所有分辨率统一价）——比官方 1K 定价便宜约 63%，比官方 4K 定价更是大幅降低。这些平台通过 OpenAI 兼容端点提供聚合访问，这意味着对于曾使用过任何主流 AI API 的开发者来说，集成代码都很熟悉。如需所有定价选项的详细对比（包括第三方提供商），请参阅我们的 Nano Banana 2 定价指南。

快速上手——5 分钟内生成你的第一张图片

从零到生成第一张图片的最快路径取决于你是否熟悉编程。对于非技术用户，Gemini 应用提供了最低门槛的体验。打开 gemini.google.com，用任意 Google 账号登录，然后输入你想要的图片描述。尽量具体——不要写"一只狗"，而是写"一只金毛幼犬坐在向日葵田里，金色时刻的光线，柔和的背景虚化"。你提供的关于主体、场景、光线、风格和构图的细节越多，结果就越好。图片出现后，你可以通过后续消息来优化它，要求 Gemini 调整颜色、添加或移除元素、改变视角或应用不同的艺术风格。这种迭代过程是 Gemini Native 方式相对于独立文生图系统的核心优势之一。

对于想要编程访问的开发者，路径从 Google AI Studio 开始。创建或选择一个项目，导航到 API 密钥部分并生成密钥。安装你首选语言的 Google GenAI SDK——Python 用户执行 pip install google-genai——然后只需几行代码即可生成第一张图片。响应结构与文本生成有一个重要区别：图片结果不是在 response.text 中，而是以 base64 编码的数据嵌入在 response.candidates[0].content.parts 中，通过 MIME 类型标识。你的代码需要解码这个 base64 数据并写入文件。分辨率通过 image_size 参数控制，接受字符串值："512"、"1K"、"2K" 或 "4K"（注意大写 K——小写会被拒绝）。新项目的默认模型应该是 gemini-3.1-flash-image-preview（Nano Banana 2），它为大多数使用场景提供了质量、功能和成本的最佳平衡。

提示词工程——真正提升效果的技巧

针对 Gemini 图片生成的有效提示词遵循一些 Nano Banana 模型处理指令的特有原则，理解这些细微差别可以在不增加单张图片成本的前提下显著提升输出质量。

具体性是最具影响力的单一因素。 模糊的提示词产生平庸的结果。与其从宏观层面描述你想要什么，不如描述你关心的具体视觉属性。这包括主体（什么）、场景（在哪里）、光线（如何照明）、构图（相机角度、取景）和风格（摄影、插画、绘画感）。像"一只猫"这样的提示词可能返回任何东西；而"一只虎斑猫睡在阳光明媚的图书馆里的一把复古皮革扶手椅上，温暖的午后阳光透过高窗洒入，平视角度拍摄，浅景深，美术摄影风格"则给模型提供了产出具体且引人注目作品所需的约束。根据 Google 自己的提示词工程指南（developers.googleblog.com，2026 年 3 月），使用摄影和电影语言——如广角镜头、微距拍摄、低角度视角、85mm 人像镜头、荷兰倾斜等术语——能为模型提供直接转化为视觉结构的构图线索。

思考功能可以解锁复杂构图。 Nano Banana 2 和 Nano Banana Pro 都支持可控的思考级别（"minimal" 或 "high"），决定模型在生成图片之前投入多少推理。对于简单的主题，最小思考可以更快出图。对于包含多个交互元素、空间关系或文字渲染需求的复杂场景，将思考设置为高可以让模型在落笔之前更仔细地规划构图。这在包含文字的图片中尤其有价值——文字一直是 AI 图片生成器的历史弱项，而 Gemini 的思考能力在此提供了显著优势。

参考图片彻底改变了一致性的游戏规则。 Nano Banana 模型在单次请求中可接受最多 14 张参考图片，这使得纯文字提示词无法实现的风格迁移、角色一致性和构图引导成为可能。如果你需要一系列风格一致的图片——用于博客、社交媒体活动或产品线——上传建立所需美学风格的参考图片可以大幅减少后续每次生成所需的提示词工程量。这种多图片输入能力是 Gemini Native 模型独有的，Imagen 4 系列不具备此功能。

API 集成——代码示例与最佳实践

对于将 Gemini 图片生成集成到生产应用的开发者而言，API 通过文档完善的端点提供可靠、可扩展的访问。以下代码模式代表了使用官方 Google GenAI SDK 的最常见集成场景。

基本的文生图需要初始化带有 API 密钥的客户端、指定模型和生成配置，并处理 base64 编码的图片响应。关键的架构决策是使用 Gemini Native 端点（支持对话式编辑和参考图片）还是 Imagen 端点（更简单且更便宜，但仅限一次性生成）。对于大多数生产应用，从 Gemini 端点开始使用 Nano Banana 2 提供最大的灵活性，同时可以在成本优化比编辑能力更重要时，将特定请求路由到 Imagen 4 Fast。

python
from google import genai
from google.genai import types

client = genai.Client(api_key="YOUR_API_KEY")


response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents="A serene mountain lake at dawn with mist rising, photorealistic",
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
        image_size="2K"  # "512", "1K", "2K", or "4K"
    )
)

# 解析响应——图片在带有 inline_data 的 parts 中
for part in response.candidates[0].content.parts:
    if part.inline_data:
        with open("output.png", "wb") as f:
            f.write(part.inline_data.data)

在生产部署中，实现一个根据需求将请求路由到最具性价比模型的路由层是一项最佳实践，可以在不牺牲关键质量的前提下降低 50% 以上的成本。简单的生成请求可以路由到每张 $0.02 的 Imagen 4 Fast，而编辑工作流和依赖参考图片的请求则路由到 Nano Banana 2 或 Pro。第三方聚合平台如 laozhang.ai 通过单一 API 密钥和 OpenAI 兼容端点提供对多个 Gemini 图片模型的统一访问，从而简化了这一过程，详细文档见 docs.laozhang.ai。

Batch API 值得在任何不需要实时结果的工作负载中实施。通过接受 24 小时处理窗口，你可以自动获得任何模型每张价格的 50% 折扣。对于后台任务，如生成产品图片、创建社交媒体内容日历或处理批量创意请求，这可以在没有任何质量损失的情况下将图片生成成本减半。

常见问题——关于 Gemini 图片生成的热门疑问

Gemini 图片生成是免费的吗？

部分免费。Gemini 应用（gemini.google.com）每天提供约 20 张免费图片，Google AI Studio 的网页界面每天提供约 500 次免费生成——两者都无需绑定信用卡。但是，Gemini API 没有免费图片生成额度。每次编程式 API 调用都从第一张图片开始计费，最低为 Imagen 4 Fast 的 $0.02。

我应该从哪个模型开始？

Nano Banana 2（gemini-3.1-flash-image-preview）是大多数用户的推荐起点。它在质量、功能（包括 4K 输出、编辑和参考图片）和成本（1K 图片每张 $0.045）之间提供了最佳平衡。如果你需要绝对最便宜的选项且不需要编辑功能，Imagen 4 Fast 每张 $0.02 是经济之选。

Gemini 能生成人物图片吗？

Gemini 图片生成对生成可识别真实人物的照片级图片有所限制。模型包含安全过滤器，可能会阻止被认为试图生成深度伪造或特定公众人物图片的请求。对于虚构角色和插画风格的普通人物，生成通常不会遇到问题。关于这些限制的详细信息，请参阅我们的 Gemini 人物限制完整指南。

Nano Banana 和 Imagen 4 有什么区别？

根本区别在于功能范围。Nano Banana 模型（Gemini Native）支持对话式编辑、参考图片、多轮优化以及文本+图片混合生成。Imagen 4 模型仅支持文生图——它们无法编辑现有图片或使用参考图片。Imagen 4 更便宜（$0.02-0.06 vs $0.039-0.151+）且具有出色的文字渲染能力，非常适合不需要编辑的一次性生成场景。

Gemini 支持 4K 图片生成吗？

支持，但仅通过 Nano Banana 2 和 Nano Banana Pro 模型。在 API 配置中设置 image_size="4K" 即可。原始 Nano Banana 模型最高支持 1K，Imagen 4 模型最高支持 2K。4K 选项每张图片成本更高（Nano Banana 2 为 $0.151），但输出的细节明显更丰富，适合印刷和大幅面展示。

Gemini 图片生成与 DALL-E 和 Midjourney 相比如何？

Gemini 的核心优势在于成本（最低 $0.02 vs DALL-E 的 $0.04+）、最高分辨率（原生 4K vs DALL-E 的 1024x1024）、对话式编辑能力，以及通过 AI Studio 提供的慷慨免费额度。DALL-E 3 在复杂构图的提示词遵循方面更强，而 Midjourney 在艺术和摄影风格的美学方面仍然是标杆。Gemini 支持最多 14 张参考图片以保持风格一致性，这在三个平台中是独一无二的。

要点速览

以下是关于 Gemini 图片生成你需要了解的核心信息：

- 7 个可用模型：Nano Banana（$0.039）、Nano Banana 2（$0.045-0.151）、Nano Banana Pro（$0.134+）、Imagen 4 Fast（$0.02）、Imagen 4（$0.04）、Imagen 4 Ultra（$0.06）——以及消费级 Gemini 应用内置模型 - 免费使用确实存在：Gemini 应用（每天 20 张）和 Google AI Studio 网页端（每天约 500 张）均免费且无需绑定信用卡 - API 没有免费额度用于图片生成——每次 API 调用从第一张图片起即计费 - 核心区别：Nano Banana 模型支持对话式编辑和参考图片。Imagen 4 模型仅支持文生图但价格更低 - 最高分辨率：4K（仅 Nano Banana 2 和 Pro 支持）——这是目前所有主流 AI 图片生成器中最高的原生分辨率 - 最佳起步选择：Nano Banana 2（gemini-3.1-flash-image-preview），在质量、功能和成本之间取得最佳平衡

什么是 Gemini 图片生成——全部 7 个模型详解

Gemini Native 系列包含三个自推出以来快速迭代的模型。最初的 Nano Banana（gemini-2.5-flash-image）是首个为 Gemini 平台带来原生图片生成能力的模型，以每张 $0.039 的价格提供 1K 分辨率输出，并完整支持对话式编辑。Nano Banana 2（gemini-3.1-flash-image-preview）于 2026 年 2 月 26 日发布，代表了一次重大飞跃，支持 4K 分辨率、改进的文字渲染精度，以及最多 14 张参考图片以保持风格一致性（ai.google.dev，2026 年 3 月）。这个模型目前是大多数开发者启动新项目时的推荐默认选择。Nano Banana Pro（gemini-3-pro-image-preview）定位高端，以 1K 分辨率下约 $0.134 每张的价格提供 Gemini Native 系列中最高质量的输出，具备与 Nano Banana 2 相同的 4K 能力和参考图片支持，但在视觉保真度和提示词遵循精度上明显更优。如需深入了解这些模型在具体指标上的对比，请参阅我们的 Gemini 图片模型详细对比。

Imagen 4 系列代表 Google 的专用图片生成技术，目前已全面发布三个层级。Imagen 4 Fast（imagen-4.0-fast-generate-001）以每张仅 $0.02 的价格成为速度和成本冠军——这是整个 Gemini 生态系统中最便宜的选项。标准版 Imagen 4（imagen-4.0-generate-001）每张 $0.04，在文字渲染和构图细节方面有所提升。Imagen 4 Ultra（imagen-4.0-ultra-generate-001）每张 $0.06，提供 Imagen 系列中最高的质量，支持 2K 分辨率输出。所有 Imagen 4 模型都包含 SynthID 水印以符合负责任 AI 的合规要求，并支持改进的排版功能，使其可用于创建海报、邀请函和其他文字密集型视觉内容（Google Developers Blog，2026 年 3 月）。你需要理解的关键限制是：Imagen 4 模型无法编辑现有图片——它们只能从文字提示词生成。如果你需要修改、优化或通过对话迭代改进图片，必须使用 Nano Banana 模型。

3 种图片生成方式——Gemini 应用 vs AI Studio vs API

Gemini 应用位于 gemini.google.com，是最简单的入口，只需一个 Google 账号即可使用。打开应用后，你可以选择图片生成工具，然后用自然语言描述你想要的内容。该应用使用 Nano Banana 2 作为底层模型，让你无需任何技术设置就能使用 Google 最新的对话式图片生成能力。免费版每天允许生成约 20 张 1K 分辨率的图片，对于个人创意项目、社交媒体内容和日常实验来说完全够用。对话式编辑功能意味着你可以生成图片后通过后续消息告诉 Gemini 修改特定元素——"让天空更加戏剧化"、"移除左边的人物"、"改成水彩风格"——这使它成为一个对任何人都极为友好的创意工具，无论技术背景如何。

Google AI Studio 位于 aistudio.google.com，既是一个强大的测试平台，也是通往 API 的桥梁。通过 AI Studio 的网页界面，你可以访问所有 Gemini Native 模型（不仅仅是 Nano Banana 2），配置分辨率设置，并排测试不同的提示词，而且重要的是，当你准备将图片生成集成到自己的应用中时，可以在这里生成 API 密钥。网页端的免费额度每天允许约 500 次图片生成——比 Gemini 应用慷慨得多——并且包括最高 4K 的所有分辨率选项。使用网页端无需绑定信用卡。关键区别在于，这个免费额度仅适用于网页交互界面；一旦你以编程方式使用 API 密钥，就会从第一张图片开始计费。如需了解如何最大化免费使用，请参阅我们的 Gemini 图片免费额度指南和完整免费限额详解。

Gemini API 提供对全部七个图片生成模型的完整编程访问，是生产应用、自动化管线和大批量生成的首选路径。API 遵循标准 REST 规范，通过 generativelanguage.googleapis.com 访问，并通过 Python、JavaScript、Go 和 Java 的官方 SDK 提供支持。API 图片生成没有免费额度——每次调用都按模型的每张图片费率计费。Batch API 以 24 小时处理窗口为代价，所有模型可享 50% 折扣，非常适合非实时性需求的工作负载。速率限制因模型和账户层级而异，生产级访问支持比预览模型更高的吞吐量。如需完整的 API 集成指南（含代码示例和最佳实践），请参阅我们的 Gemini 图片 API 详细指南。

完整定价指南——从免费到企业级

快速上手——5 分钟内生成你的第一张图片

对于想要编程访问的开发者，路径从 Google AI Studio 开始。创建或选择一个项目，导航到 API 密钥部分并生成密钥。安装你首选语言的 Google GenAI SDK——Python 用户执行 pip install google-genai——然后只需几行代码即可生成第一张图片。响应结构与文本生成有一个重要区别：图片结果不是在 response.text 中，而是以 base64 编码的数据嵌入在 response.candidates[0].content.parts 中，通过 MIME 类型标识。你的代码需要解码这个 base64 数据并写入文件。分辨率通过 image_size 参数控制，接受字符串值："512"、"1K"、"2K" 或 "4K"（注意大写 K——小写会被拒绝）。新项目的默认模型应该是 gemini-3.1-flash-image-preview（Nano Banana 2），它为大多数使用场景提供了质量、功能和成本的最佳平衡。

提示词工程——真正提升效果的技巧

具体性是最具影响力的单一因素。模糊的提示词产生平庸的结果。与其从宏观层面描述你想要什么，不如描述你关心的具体视觉属性。这包括主体（什么）、场景（在哪里）、光线（如何照明）、构图（相机角度、取景）和风格（摄影、插画、绘画感）。像"一只猫"这样的提示词可能返回任何东西；而"一只虎斑猫睡在阳光明媚的图书馆里的一把复古皮革扶手椅上，温暖的午后阳光透过高窗洒入，平视角度拍摄，浅景深，美术摄影风格"则给模型提供了产出具体且引人注目作品所需的约束。根据 Google 自己的提示词工程指南（developers.googleblog.com，2026 年 3 月），使用摄影和电影语言——如广角镜头、微距拍摄、低角度视角、85mm 人像镜头、荷兰倾斜等术语——能为模型提供直接转化为视觉结构的构图线索。

思考功能可以解锁复杂构图。 Nano Banana 2 和 Nano Banana Pro 都支持可控的思考级别（"minimal" 或 "high"），决定模型在生成图片之前投入多少推理。对于简单的主题，最小思考可以更快出图。对于包含多个交互元素、空间关系或文字渲染需求的复杂场景，将思考设置为高可以让模型在落笔之前更仔细地规划构图。这在包含文字的图片中尤其有价值——文字一直是 AI 图片生成器的历史弱项，而 Gemini 的思考能力在此提供了显著优势。

参考图片彻底改变了一致性的游戏规则。 Nano Banana 模型在单次请求中可接受最多 14 张参考图片，这使得纯文字提示词无法实现的风格迁移、角色一致性和构图引导成为可能。如果你需要一系列风格一致的图片——用于博客、社交媒体活动或产品线——上传建立所需美学风格的参考图片可以大幅减少后续每次生成所需的提示词工程量。这种多图片输入能力是 Gemini Native 模型独有的，Imagen 4 系列不具备此功能。

API 集成——代码示例与最佳实践

常见问题——关于 Gemini 图片生成的热门疑问

Gemini 图片生成是免费的吗？

我应该从哪个模型开始？

Nano Banana 2（gemini-3.1-flash-image-preview）是大多数用户的推荐起点。它在质量、功能（包括 4K 输出、编辑和参考图片）和成本（1K 图片每张 $0.045）之间提供了最佳平衡。如果你需要绝对最便宜的选项且不需要编辑功能，Imagen 4 Fast 每张 $0.02 是经济之选。

Gemini 能生成人物图片吗？

Nano Banana 和 Imagen 4 有什么区别？

Gemini 支持 4K 图片生成吗？

支持，但仅通过 Nano Banana 2 和 Nano Banana Pro 模型。在 API 配置中设置 image_size="4K" 即可。原始 Nano Banana 模型最高支持 1K，Imagen 4 模型最高支持 2K。4K 选项每张图片成本更高（Nano Banana 2 为 $0.151），但输出的细节明显更丰富，适合印刷和大幅面展示。

Gemini 图片生成与 DALL-E 和 Midjourney 相比如何？

#Gemini图片生成 #Nano Banana #AI图片API #Google AI

分享文章:

laozhang.ai

一个 API，所有 AI 模型

文档

AI 图片

Gemini 3 Pro Image

$0.05/张

官方2折

AI 视频

Sora 2 · Veo 3.1

$0.15/个

异步API

AI 对话

GPT · Claude · Gemini

200+ 模型

同官方价

已服务 10万+ 开发者·失败不扣费·企业级稳定·支付宝/TG支付

|@laozhang_cn|送$0.1