GPT4o已成为文生图王者
2024年5月,OpenAI推出了多模态大杀器GPT-4o,能聊文本、看图片、听音频,简直是个“全能选手”。 到了2025年3月26日,OpenAI又给它加了个大招——原生的图像生成和修改功能。 这下,GPT-4o不仅会说话,还能“画画”和“修图”了!
按理说大模型能画图已经不是什么新鲜事,从谷歌 Gemini 到 Grok、甚至豆包都支持这些功能,而且一度风靡社交网络。但我想说的是,GPT-4o 一经推出又是王者,还得是 OpenAI!
首先是, 它支持非常长而详细的提示词描述, 这就让生成的图片非常精准,这已经不是简单的说一句话来画图,而是提交了一份 PRD 了,比如:
magnetic poetry on a fridge in a mid century home:
Line 1: "A picture"
Line 2: "is worth"
Line 3: "a thousand words,"
Line 4: "but sometimes"Large gap
Line 5: "in the right place"
Line 6: "can elevate"
Line 7: "its meaning.
"The man is holding the words "a few" in his right hand and "words" in his left.

这个是用来生成一个冰箱上的字母贴的,可怕的是,这里精确的定义了 每一行以及人物手中出现哪些字母 。 不知道你发现没有手中拿着一个 words。
再来看一个生成四格漫画的,可以精确定义每一格的具体内容:
制作一个包含四个面板的图像,并在边框周围留出一些空白:
一个小蜗牛在一个华丽的汽车展厅的柜台。销售员为了看到他,不得不将身体远远探过桌子。
特写镜头,蜗牛看起来非常严肃。他说:“我想要你最快的跑车……而且我希望你在车门、引擎盖和车顶上涂上大大的字母‘S’。”
销售员挠着头。“嗯……我们可以这样做,但为什么要涂‘S’呢?”
突然切换到一辆红色模糊的车在高速公路上疾驰。跑车上覆盖着巨大的‘S’。人行道上的人们指着车大笑:“哇!看那辆S车!”

下面这个图也一样,白板上出现的每一个字,人物身上的 logo 以及白板中出现的影子,都是精确定义的:

甚至还能在生成图的基础上让它 更换视角 ,比如上图更换为拍照者的自拍视角(和被拍人击掌):

下面这种图比较复杂,提示词描述了两个 20 岁的女巫,一个灰色挑染头发、一个波浪形赤褐色头发在阅读路牌。人物手里拿着扫帚、另一个拿着魔毯,然后是路牌上的详细信息:例如,街道清扫时间、停车许可证要求、车辆分类、拖车规则),中间还有一些荒谬的标志:(将其改写为合法的路牌)“C 区禁止女巫使用扫帚停车”和“仅允许魔毯装卸(15 分钟限制)”和“仅允许驯鹿凭许可证停车(12 月 24 日至 25 日)

可以看到,除了使用非常大段而且精确的提示词描述外, GPT-4o 还支持非常精准的文字渲染。 正如官方所说:一图胜千言,但有时在正确的位置生成几个文字可以提升图像的含义。4o 将精确的符号与图像融合的能力将图像生成转变为视觉交流的工具。你可以用它来生成一张菜单、或者是一个邀请函:


我们似乎很难在之前出现的产品里面找到这么强大的功能,但4o 的强大还不止于此!
对于一张生成的图,我们往往会需要多次进行修改,最终达到自己的理想状态,因此 通过对话式进行多轮图像生成和修改成为一个必要的功能, 4o 当然也支持,而且非常强大!
比如,提示词:详细解释牛顿棱镜实验的信息图

“现在从一个人的视角看,他在华盛顿广场公园的一张圆形咖啡桌上,在笔记本上画了这个图。“

再来一次,“现在展示同一个场景,年轻的艾萨克·牛顿正坐在桌边,手拿棱镜演示实验,但没有笔记本”

你甚至可以用它一步步 制作游戏 ,比如我们生成了一只猫:

现在,“ 给这只猫一顶侦探帽和一副单片眼镜 ”:

接下来, “将这个创意转化为一款采用 4K 游戏引擎制作的 AAA 级视频游戏,并加入一些用户界面元素作为画面叠加层,这些元素源自一款神秘的 RPG 游戏。在画面顶部,我们可以看到角色的生命条和迷你地图;而在底部,则可以看到各种法术图标。这些界面元素风格统一且具有清晰的图标设计。“

将画面更新为一幅 16:9 比例的风景图,并在用户界面上添加更多法术图标。调整视角,以第三人称视角展示这只猫漫步于一座蒸汽朋克风格的曼哈顿城中。通过精心设计的光影对比和冷色调色彩,打造出如顶级 AAA 游戏般令人惊艳的视觉效果。

最后一步 :当玩家打开菜单时,创建用户界面,我们看到猫的角色档案,包括他的装备,以及另一页显示活跃任务(这应该与我们在图像中描述的宇宙世界构建相关联)。

到这里一个游戏的场景就生成了,不仅支持了复杂的多轮图片生成和修改, 更关键的是在多轮中保持了图像的一致性 ,这非常难得!
我们在上述的例子中,其实已经展示了 4o 一个非常强大的功能,就是 指令遵循 。GPT‑4o 能够根据详细的提示进行创作,并高度关注细节。当其他系统在处理 5-8 个物体时已显吃力, GPT‑4o 却能应对多达 10-20 个不同物体。 由于物体与其特征及相互关系的紧密结合,GPT‑4o 在图像生成时拥有更高的可控性。
比如下面这个例子,这个贴纸一共有 16 个图标,4o 可以在一个指令里面定义每一个图标的具体内容:(提示词见官方网站)

这有点让人叹为观止了,还有这个“请给我看一下里面只有一滴红酒的酒杯“

不得不说,这也太精准了。
GPT‑4o 能够分析用户上传的图像并从中学习, 将这些图像的细节无缝整合到其生成图像的上下文中 ,从而影响图像生成的结果。
比如先生成了一张电锯的照片:

然后:为这款链锯制作一个广告,场景是一位祖母在感恩节的餐桌上使用它来切火鸡。别忘了加上一条标语。

这真有点化腐朽为神奇的感觉,以后设计师都不需要了?直接就能生成广告图了。
还有一个有趣的例子, 就是将图片(或一幅画)变成真实的照片风格, 比如一副中国画:

现在使用提示词: 把这个场景拍摄成一张照片,使用单反相机(DSLR)拍摄。

这就太好玩了,很多古代的名画势必要焕发新生了。
还有一个有趣的是将草图或线稿变成真实的照片感:

只需要一句提示词就可以完成: 把它变成照片

通过原生图像生成, 4o 能够将其知识在文本和图像之间建立联系,从而生成一个感觉更智能且更高效的模型 。在实际中,这似乎大大增强了海报类的生成,因为里面需要融入大量的知识,同时有需要通过图像来展示:

很多 AI 工具虽然能够生成图片,但是总感觉 AI 味太重(说的就是你,豆包!),但 GPT-4o 支持照片真实感与风格 :通过在各种图像风格上进行训练,模型能够令人信服地创建或转换图像,达到高度逼真的效果。

提示词:一张抓拍风格的狗仔照片,照片中卡尔·马克思正慌张地穿过美国购物中心的停车场。他不安地回头张望,脸上满是惊恐,显然是在躲避镜头。他手里紧攥着好几个装满奢侈品的亮光购物袋。外套在他身后随风飘扬,其中一个袋子晃来晃去,似乎他正大步流星地走着。背景模糊不清,隐约可见一些车辆和灯火通明的商场入口,营造出一种匆忙的动感。相机闪光灯的强光部分使照片过曝,为画面增添了一丝混乱和八卦小报的感觉。

提示词:生成一张2006年6月下旬某个星期六在多伦多农贸市场的逼真照片。那是一个晴朗美好的夏日,人们正在市场中购物、享用三明治。照片的焦点应定格在一个身着牛仔连体裤、正喝着草莓香蕉奶昔的年轻亚洲女孩身上,其余背景可做模糊处理。照片风格应仿若2006年时期的数码相机所拍摄,并带有类似打印照片的日期时间戳。照片的宽高比应设置为3:2

提示词:生成一张宝丽来风格的抓拍照片,照片中是四位20岁出头、来自不同背景的朋友,他们身处一家略显破旧的酒吧。照片的光线运用了非常直接且强烈的闪光,营造出鲜明的阴影,使照片呈现出一种过曝且复古的即显胶片质感。色彩应稍显柔和,以唤起人们对21世纪初聚会的怀旧之情。整体风格随意且略带感性。照片中不包含边框、标志或文字。他们身后的墙上有一些有趣的涂鸦。图像应具有很高的清晰度和细节(几乎无颗粒感)。照片中的能量感应该是欢快且混乱的。他们要么调皮地做着鬼脸,要么微笑着,要么假装看起来很严肃。其中一人应以一种嬉闹的方式将朋友的头锁住。他们的嘴巴是闭着的。
通过上面这些具体的例子,我们发现 GPT-4o 确实非常强大,它能够让你使用非常详细及复杂的提示词,对“文字”可以进行非常精准的控制,可以盛大大段的文字,同时非常完美的支持多轮图片修改,而且保持了图片的一致性。基于 GPT 本身对文字生成和语义理解的强大,GPT-4o 在处理文字和图片融合的场景时,表现得异常强大,这对于海报制作、广告图制作效果明显。最后,它能生成非常逼真的图像,那种 AI 味彻底消除了。
不得不说,GPT-4o 在图像生成领域,再次成为王者!


共有 0 条评论