ChatGPT 和 Gemini 很容易把一张工作表风格的图片做得“差一点就能用”,然后恰好破坏最不能错的部分:文字、颜色块、表格线、边距和答题区域。核心原因不是某个模型突然不会画图,而是图片生成先生成像素,不会自动保留一个真正的表格、幻灯片或可编辑工作表文件。
先不要问“到底 ChatGPT 好还是 Gemini 好”。更稳的做法是先判断坏在哪里,再把容易出错的部分交给正确的工具。
| 坏掉的部分 | 通常意味着什么 | 第一修复路径 | 停止继续提示的规则 |
|---|---|---|---|
| 文字错误 | 模型把文字当成图案纹理,而不是最终文案。 | 缩短标签、放大字号,最后在可编辑文本层放准确文案。 | 拼写错误只是换位置、换形状时就停。 |
| 颜色异常 | 色块、边缘、填充或压缩光晕没有被锁定。 | 先定义色板,文字和色块分层,再按最终尺寸检查对比度。 | 品牌色或语义颜色不一致时就停。 |
| 工作表布局漂移 | 输出是在模仿网格,而不是保存真实行列、边距和打印边界。 | 在表格、幻灯片或设计工具里重建网格,让 AI 只负责背景或插画。 | 单元格、对齐、留白必须精确时就停。 |
| 多轮编辑漂移 | 改好一个地方,又带坏另一个本来正确的地方。 | 用参考图或蒙版只改局部,必要时重建分层源文件。 | 新修复不断破坏旧正确区域时就停。 |
实用规则只有一句:让 AI 起草视觉方向,但把准确文字、颜色 token 和工作表几何结构放进可编辑图层。
快速答案
ChatGPT、OpenAI 的图片路线、Gemini 和 Gemini 图片路线都能生成或编辑图片,但这和维护一个真实文档模型是两件事。真实文档模型里有单元格、文本框、色板、对齐约束、页面边距和导出设置;生成图片里只有像素。模型可能知道“练习 worksheet 应该有标题、方框、箭头、颜色区和空白答题栏”,但它不一定能在每一轮编辑里保留准确句子、准确色值和准确行列间距。
因此,缩略图看起来像成品并不等于可以发布。你需要先分工。
| 如果任务需要 | 让图片模型负责 | 让编辑器、表格或设计工具负责 |
|---|---|---|
| 快速概念稿 | 背景、风格、图标、粗分区 | 最终文案和导出规格 |
| 课堂工作表 | 主题氛围、小插画、示例图 | 行列、答题框、编号和打印边距 |
| 颜色编码说明图 | 构图和图标风格 | 色板、对比度、标签和图例 |
| 客户交付手册 | 版式方向和视觉草图 | 品牌色、字体、审批文案 |
| ChatGPT 与 Gemini 对比 | 同一提示词下的候选图 | 评分表和并排校验 |
把像素图当成表格文件,是这类问题反复发生的根源。它不是表格文件,而是一张“看起来像工作表”的图。
先诊断损坏,不要马上重跑提示词

很多人失败后会立刻加一句“请修复文字,不要改其他地方”。这有时有效,但对工作表通常不够,因为第二次生成会重新解释整张图。更稳的是先把错误分桶。
| 损坏类型 | 可见症状 | 为什么单靠提示词经常失败 | 更好的第一步 |
|---|---|---|---|
| 文字损坏 | 错别字、少字、怪字形、标签被切断、大小写不一致 | 模型是在像素里画文字,小字、重复字和密集说明很脆弱。 | 减少文字、放大标签,或在图片外添加最终文字。 |
| 颜色损坏 | 色块上出现白边、光晕、色温漂移、渐变脏、分类颜色不一致 | 调色板是生成图的一部分,不是被锁住的设计 token。 | 明确色板和对比度,再用真实编辑器校验。 |
| 布局损坏 | 网格歪、行距不等、单元格合并、边距漂移、列不齐 | 模型是视觉近似网格,不维护电子表格约束。 | 在排版、幻灯片或表格工具里重建行列。 |
| 迭代漂移 | 修一个标签时,旁边图片、边框或色块被改掉 | 多轮编辑可能重新解释整图或相邻区域。 | 用蒙版/参考图做小范围编辑,或停止并分层重建。 |
这也是为什么“换 Gemini 试试”或“换 ChatGPT 试试”不是完整修复方案。不同路线确实会有差异,同提示词对比也有价值;但只要脆弱部分是准确文案、品牌色或网格几何,模型切换不会改变这些精度的归属。
为什么文字会坏
生成图里的文字同时承担两个任务:看起来像排版,并且承载准确语言。图片模型在“像排版”上进步很快,但在密集、小字号、重复标签、多语言或复杂版面中,准确语言仍然不稳定。一个大标题可能没问题,二十个答题框、长说明、编号和细小标签就不是同一个难度。
使用分层文字策略:
| 文字类型 | 是否适合留在生成图里 | 更稳的流程 |
|---|---|---|
| 一个短标题 | 大而简单时通常可接受 | 生成后按最终尺寸逐字校对。 |
| 分区标签 | 有时可接受 | 标签保持短、高对比、每个都检查。 |
| 完整工作表说明 | 风险高 | 把源文案保存在文档或幻灯片编辑器。 |
| 答案、价格、日期、姓名、法律或医学文字 | 不要依赖像素生成 | 生成后用可编辑文本层添加。 |
| 翻译或多语言文字 | 风险更高 | 先写好本地语言,再放到最终设计工具。 |
如果你想让 ChatGPT 或 Gemini 先做 worksheet 概念,可以要求“保留大块空白答题框”“只放短标签”“为最终说明文字预留位置”。然后把正式说明放回真实文档。这样模型不需要同时当画师、排版师和校对员,错误会少很多。
中文工作表还要额外注意:汉字笔画密、字号一小就容易变形;中英混排、拼音、编号、标点和空格也更容易在二次编辑中漂移。不要把中文长句塞进彩色小框里生成,先让模型画框和插画,再用真实字体放文字。
为什么色块会出现白条、光晕或错误填充
颜色问题不一定影响可读性,但会影响含义。工作表里红色、绿色、蓝色区块通常不是装饰,而是题型、步骤、风险或答案状态的一部分。如果模型在文字周围加白底、把绿色变成青色、让同一类色块深浅不一,读者就可能误解任务。
把颜色当作设计 token,而不是形容词。
| 颜色问题 | 要检查什么 | 修复方式 |
|---|---|---|
| 彩色框里的文字周围有白条 | 模型是否为了可读性伪造了标签底色 | 把文字层和色块层分开,或先生成空色块后加标签。 |
| 分类色不一致 | 提示词是否只写了“明亮”“柔和”等模糊词 | 使用明确色名、色值和图例。 |
| 对比度不足 | 最终导出尺寸下文字是否仍能读 | 在编辑器里提高对比度,不要重生成整图。 |
| 边缘光晕或压缩痕迹 | 背景纹理、导出压缩或小字叠色是否导致脏边 | 从干净源文件导出,避免纹理上放小字。 |
| 编辑后调色板漂移 | 模型是否重新解释了整张图 | 只蒙版编辑局部,或手动重建色块。 |
提示词可以帮忙,例如“使用四个纯色色块、无纹理、无渐变、无发光、色块内不要文字”。但如果色块本身承载教学或品牌含义,最终还是应该在幻灯片、Figma、Canva、Keynote、PowerPoint 或表格工具里锁定。
为什么工作表布局会漂移
工作表看起来简单,实际上约束很多:行、列、等距、页边距、编号、答题空间、阅读顺序、打印比例、裁切边界。图片模型能模仿这些结构,却不会自动保留底层几何。
布局停止规则很直接:如果有人要打印、填写、批改、翻译或反复复用这张工作表,就不要把网格留成生成像素。
让模型负责:
- 视觉主题
- 小插画和图标
- 背景风格
- 分区灵感
- 示例场景
让排版工具负责:
- 最终行列
- 答题框
- 横线和网格
- 页边距
- 打印尺寸
- 真实字体
- PDF 或 PNG 导出设置
这不是否定 AI,而是把快的创意层留下,把必须可检查的精度层拿回来。
修复阶梯

从破坏最小的修复开始,不要一上来重画整张图。
| 步骤 | 适用情况 | 具体做法 | 何时升级 |
|---|---|---|---|
| 简化提示词 | 图基本对,但要求过载 | 减少文字、减少元素、放大标签、让区域更清晰 | 同类错误继续随机出现 |
| 加参考图 | 某个旧版本构图正确 | 上传最好版本,要求保留结构和比例 | 仍然改坏无关区域 |
| 用蒙版或选区 | 只坏了一个框、标签或颜色 | 只修坏掉的局部,不重生成整图 | 局部修复产生附近伪影 |
| 覆盖准确文字 | 设计可用但文字错 | 生成无最终文字或占位文字,再用编辑器放准确文字 | 文字需要后续翻译或修改 |
| 重建工作表层 | 行列、边距、打印边界重要 | 在表格、幻灯片、文档或设计工具里重做网格 | 已有可控源文件 |
| 最终校验 | 看起来像成品 | 查拼写、对比度、色板、网格、裁切、导出尺寸 | 按真实使用尺寸通过 |
这个阶梯的价值在于节省时间。每次重新生成都可能修好一个地方,同时破坏另一个已经正确的地方。当错误开始“移动”,就该把模型从最终排版工具的位置上撤下来。
ChatGPT、Gemini、API 和编辑器是不同工作面
模型名称不是完整流程。ChatGPT 应用、OpenAI 图片 API、Responses API 图片工具、Gemini 应用、Gemini API、第三方图片编辑器暴露的控制项不同。有的更方便蒙版,有的更适合批量同提示词测试,有的可以更明确控制输出尺寸或比例,有的保留对话上下文更完整。
但这些差异不会把一张 raster 图片变成锁定的工作表源文件。
公平比较 ChatGPT 和 Gemini 时,至少保持这些条件一致:
| 测试项 | 为什么重要 |
|---|---|
| 同一份源文案 | 否则你比较的是提示词质量,不是模型表现。 |
| 同一画布比例 | 画布变化会改变工作表几何。 |
| 同一信息密度 | 稀疏海报和密集 worksheet 不是同一任务。 |
| 同一导出目标 | 社媒图、PDF 讲义和打印工作表需要不同校验。 |
| 同一评分表 | 分开统计文字、颜色、网格和无关漂移错误。 |
如果你做生产集成,需要日志、同提示词对比或批量评测,API 路线会更好。如果你只做一张课堂讲义,图片模型生成概念后接设计工具,往往更快也更稳。正确路线取决于最脆弱的部分由谁负责。
发布或分享前的最终校验

请按真实使用场景校验。聊天窗口预览里看起来没问题,不代表放进 PDF、课堂打印、LMS 上传或手机截图时仍然没问题。
| 检查项 | 通过标准 | 失败时怎么做 |
|---|---|---|
| 文字 | 每个字、数字、标点、大小写都在最终尺寸下正确 | 把文字移到可编辑层后重新导出 |
| 颜色 | 色彩含义在所有框、图例和示例里一致 | 在编辑器里锁色板并重建填充 |
| 布局 | 行列、答题区、边距和阅读顺序对齐 | 用排版或表格工具重建网格 |
| 裁切 | 画布边缘没有切掉重要内容 | 先调页面尺寸,再做下一次 AI 编辑 |
| 导出 | PNG、PDF 或其他格式符合用途 | 从源文件导出,不从聊天预览另存 |
| 复用 | 源文案和版式以后还能修改 | 保留可编辑 master 文件 |
最后的问题不是“AI 做得漂不漂亮”,而是“读者能不能不猜就完成这张工作表”。如果答案是否定的,修复还没结束。
中文工作表的额外校验
中文场景要多做一层本地校验,因为很多失败不是单纯的“模型不会写字”,而是中文排版、教学材料和截图式交付叠在一起。比如一个英语练习 worksheet 可能只要保留空框,中文说明却常常需要更长句子、全角标点、序号、括号、拼音或中英混排。只要这些元素被压进一个小色块,生成器就更容易把笔画、空格和标点画成近似形状。
| 中文检查点 | 为什么容易错 | 更稳的处理 |
|---|---|---|
| 汉字笔画 | 小字号下笔画会粘连或缺笔 | 生成图里只保留短标签,正文用真实字体排版 |
| 中英混排 | 英文、数字、括号和中文标点的间距容易漂移 | 在幻灯片或设计工具里统一字体和间距 |
| 拼音和音标 | 声调、空格、斜线容易被画错 | 不放进生成像素,使用可编辑文本层 |
| 题号和答题区 | 编号、行距、横线必须可批改 | 用表格或文档工具生成真实行列 |
| 色彩含义 | 红绿蓝可能代表难度或答案状态 | 用固定色板和图例,不让模型临时改色 |
如果最终要交给学生、客户或同事,建议保留两个版本:一个是 AI 生成的视觉草稿,另一个是可编辑 master 文件。master 文件里至少要有真实文本、真实色块、真实网格和导出设置。这样后续改题、改语言、改字号时,不需要重新赌一次生成结果。
还要把“截图式交付”和“源文件交付”分开。截图式交付只适合一次性预览,不能保证以后改一个词、换一套题、替换一个色块时仍然稳定。源文件交付至少应该包含可复制的文字、可选中的色块、可调整的行列和可重复导出的页面尺寸。如果客户或老师只看到一张漂亮 PNG,很容易以为它已经是可编辑 worksheet;实际修改时才发现每个字、每条线、每个颜色都锁死在像素里。这个风险应该在制作阶段就解决,而不是等到交付后再补救。
中文最终校验可以按三遍走:第一遍只读文字,逐字检查题干、选项、说明、单位、标点和编号;第二遍只看颜色,确认同一含义的色块完全一致,浅色背景上的深色文字有足够对比;第三遍只看版面,检查答题线、表格列宽、页边距和打印比例。三遍分开看,比一边看整体效果一边找错更可靠。
如果这张图来自 ChatGPT 或 Gemini 的多轮对话,还要把“最后一次正确版本”单独保存,不要只保留最新版本。多轮编辑中经常出现前一轮文字正确、后一轮颜色正确、再后一轮布局正确但文字又坏掉的情况。把每轮结果用文件名标出用途,例如 concept-text-ok、colors-ok、layout-ok,最后在编辑器里组合可用部分。这样比继续要求模型“保持其他地方不变”更可控。对需要长期维护的工作表,最好再保存一份纯文本题干和一份表格结构说明,避免半年后只能对着一张 PNG 猜原始内容。
还有一个交付边界要提前说清:AI 图可以作为视觉方向确认稿,但不要把它当成唯一生产源。如果后续会改课程版本、改年级、改品牌色或换语言,交付包里必须包含可编辑源文件和最终导出文件。只有 PNG 的交付适合一次性展示,不适合长期维护。可恢复性本身就是质量标准:别人接手时应该能找到原文、字体、色板、网格尺寸和导出尺寸,而不是重新描述一遍图片再生成。交付前最好让未参与生成的人按清单复查一次,并记录最终采用的是哪一版。不要只留截图。
常见问题
为什么 ChatGPT 图片生成会把文字弄坏?
因为模型需要把准确语言渲染成像素,尤其在小字号、重复标签、密集排版或彩色框里更容易出错。短大标题有时可用,但最终说明、答案、姓名、数字和翻译文字应该放在可编辑文本层。
为什么 Gemini 生成图片会改颜色或色块?
Gemini 可以生成和编辑视觉构图,但生成图中的色块仍然是像素。只要颜色有教学、品牌或状态含义,就应该定义色板、分离文字和填充,并在最终编辑器里检查。
Gemini 做工作表一定比 ChatGPT 好吗?
不一定。同一提示词下某个模型可能更好,但模型切换不是精确工作表的主要修复。公平比较需要同源文案、同画布比例、同信息密度和同评分表。
可以安全地用 AI 做 worksheet 吗?
可以,但要分层。让 ChatGPT 或 Gemini 做视觉概念、插画、背景和粗分区;把最终文案、答题框、颜色标签和打印几何交给工作表、幻灯片、文档或设计工具。
什么时候应该停止继续提示?
当错误只是换位置、修一个框又坏另一个框、准确文案必须可靠、或布局需要真实行列时,就应该停止重生成。把 AI 输出当概念层,精确元素转到可编辑工具里。
API 会比网页应用更稳吗?
API 适合同提示词测试、日志、模型对比和生产集成;网页应用适合快速视觉探索。但如果最终要保留文字、颜色和工作表几何,仍然需要可编辑排版层。
