前言:一个让设计师”又爱又恨”的问题终于解决了
作为一个经常和AI绘图打交道的人,我最怕别人问我:”能用AI画一个带中文的海报吗?”
不是画不出来,是画出来的东西会让你血压飙升。
“宫保鸡丁”变成”宫保X口口”,”鱼香肉丝”变成一堆不知所云的符号,”秘制小汉堡”更是直接放飞自我——这就是过去三年里,AI绘图在中文渲染上的”经典表现”。
4月23日深夜,OpenAI甩出了两颗炸弹,其中一颗就是ChatGPT Images 2.0。
这一次,AI终于”会写字”了。

一、Images 2.0到底升级了什么
1.1 从”翻译式”到”通用模型”的架构革命
在说具体能力之前,我觉得有必要解释一下为什么这次升级意义重大。
过去三年,主流文生图模型(包括DALL-E系列)采用的是两段式管线:
- 语言模型先把你的文字描述”翻译”一遍
- 扩散模型再根据翻译结果去”画”图像
问题出在哪?中文有几千个汉字,每个字都是独立的信息量,但模型在训练数据里看到的中文素材本来就少。结果就是AI在”像素级别重建文字”时,几乎必然出错。
Images 2.0的核心调整是:将图像生成整合进GPT-4o自回归架构,文本与图像共用同一套Token表征空间。
用人话来说就是:模型”知道”每个文字的含义,不再凭感觉”画”出文字的纹理。
1.2 三个核心能力升级
能力一:中文渲染从”不可用”到”能用了”
这是本次升级最受关注的方向。
实测结果(来源:各大科技媒体):
| 测试场景 | 结果 |
|---|---|
| 杂志封面多个中文标题 | 一次生成基本到位 |
| 米粒上生成微缩文字(75×30像素) | 成功(需多次迭代) |
| 文字密度约2500字输出 | 成功 |
| 6×6机器人矩阵(颜色×材质×编号) | 100%满足 |
| PhotoShop界面图标像素级复刻 | 成功 |
当然,也有翻车的时候——10×10矩阵出现了材质区分失败、头部错位、编号重复等问题。但整体来说,中文渲染能力已经从”不可用”跃升到了”能用了”的级别。
能力二:”思考模式”让AI学会”先想后画”
Images 2.0引入了一个可选的”思考模式”,启用后系统会:
- 先联网搜索相关信息
- 分析上传素材
- 推演图像结构
- 再执行生成
这意味着什么?你可以一次性输出最多8张图像,而且能够保持角色、道具、风格跨图一致性。
不过要注意,这种推理机制成本不低。实测用户反馈,一句简单指令也可能触发大量Token消耗。所以日常轻量任务建议使用标准模式,只有在需要复杂一致性控制时才开启思考模式。
能力三:更强的指令跟随能力
复杂指令常被选择性忽略?空间关系错乱?这些问题在Images 2.0中都得到了改善。
根据官方数据,Images 2.0在Image Arena排行榜中直接登顶,超越了谷歌的Image 3,一举拿下242分的巨大领先优势。
二、DALL-E 2和DALL-E 3即将退役
有一个细节值得单独说说。
就在Images 2.0发布的同一天,OpenAI宣布:DALL-E 2和DALL-E 3将于5月12日全面退役。
连亲儿子都不要了,侧面说明Images 2.0确实有底气跟过去的自己说再见了。
这对于还在使用DALL-E 2/DALL-E 3 API的开发者来说是个提醒——需要尽快迁移到gpt-image-2 API了。
三、真实体验:我用Images 2.0画了什么
3.1 杂志封面测试
拿一张雷科技团队的出发合照——几个人站成一排,对着镜头微笑,背景是一辆大巴车。然后输入:
“做一本《雷科技》科技杂志封面,封面是这几个人。”
不到一分钟,ChatGPT就把一本完整的杂志封面做好了。
关键在于,别的生图AI被这样操作时,基本都会把原来的合照当作草稿全部”重画”一遍,导致人脸变得不像本人。但Images 2.0不仅保持了人物的长相和姿态一致,甚至连杂志标题、副标题、日期、文章提要这些中文信息,都准确地渲染出来了。
接着我又试了试更模糊的要求:
“日期改成2026年3月””人的姿势可以变一下,这样太死板”
Images 2.0依然顺利输出,没有翻车。
3.2 极限测试:米粒上写字
这是虎嗅/知危编辑部的极限测试项目:
在金属绣花针的针尖平面上生成”新京报AI研究院”六个楷体字。
放大后,六个字清晰可见,金属光泽和微雕质感分明。
这已经不是”AI画画”的范畴了——这是在二维平面上模拟微观雕刻工艺,靠的是模型对像素级细节的控制力。
四、谁适合用Images 2.0
4.1 内容创作者
中文字体渲染不再拖后腿,海报、UI等素材从”需要改动”向”可以直接用”靠拢。
- 小红书配图
- 公众号封面
- 营销海报设计
- 产品展示图
4.2 开发者
API(gpt-image-2)将图像生成变为可嵌入工作流的组件,Adobe、Figma、Canva等已在测试接入。
- 支持最高2K分辨率
- 按质量和分辨率阶梯计费
- 可嵌入现有产品
4.3 普通用户
免费用户每天能生成约5张图片,付费用户(Plus、Pro、Business)还能用更强的”思考模式”。
五、安全隐患:文字生成太准,反而是问题
一个硬币有两面。
过去,扩散模型生成的错乱文字本身就是一种”防伪标识”——一眼就能看出是AI画的。现在,模型产出的文字已足够精确,普通人肉眼难以分辨。
统计显示,AI虚假新闻截图的传播速度比传统PS快约17倍。
当前AI检测技术落后于生成技术大约两个代际。专业AI系统(包括ChatGPT自身和Gemini)都无法可靠识别由Images 2.0生成的UI伪造图像。
OpenAI已经在努力:所有通过gpt-image-2 API生成的图像均嵌入C2PA元数据水印。但该水印目前只在支持的平台和程序内有效,对截图、二次转发等场景基本无解。
所以如果你在朋友圈看到库克给小米代言的广告截图,建议先别急着转发——它大概率就是AI在整活。
六、竞争对手会如何回应
Images 2.0的发布在业内引发了连锁反应。
值得观察的后续节点:
- 谷歌Nano-banana系列如何回应242分的巨大差距
- Midjourney V7是否会在推理和文字方向跟进
- 社交媒体和新闻机构会推出怎样的AI图像验证机制
不过有一点是确定的:AI绘图工具的竞争焦点,已经从”能不能生成好看的图”转向”能不能精确控制”。ControlNet、IP-Adapter这类控制工具的权重在持续上升。
结语
Images 2.0是图像模型进化的一个重要节点。
它不是所有问题的终点——空间理解仍然会出错,高频场景下的伪造风险缺少有效防控,推理能力在复杂度越过边界时急剧衰减。
但它确实是AI绘图能力的一次实质性飞跃。
对于中文创作者来说,这意味着一个曾经让人头疼的问题终于得到了解决。而对于整个行业来说,Images 2.0证明了一件事:架构创新与系统设计的重要性,正在超过资源堆叠。
一个13人的团队用4个月完成了这次代际跃迁,打破了”大模型=大团队”的刻板印象。
这,或许才是最有意思的地方。

发表回复