GPT4o已成为文生图王者

shadowrocket • 2026年1月25日 am10:24 • shadowrocket, shadowrocket下载, shadowrocket网站

2024年5月，OpenAI推出了多模态大杀器GPT-4o，能聊文本、看图片、听音频，简直是个“全能选手”。到了2025年3月26日，OpenAI又给它加了个大招——原生的图像生成和修改功能。这下，GPT-4o不仅会说话，还能“画画”和“修图”了！

按理说大模型能画图已经不是什么新鲜事，从谷歌 Gemini 到 Grok、甚至豆包都支持这些功能，而且一度风靡社交网络。但我想说的是，GPT-4o 一经推出又是王者，还得是 OpenAI！

首先是，它支持非常长而详细的提示词描述，这就让生成的图片非常精准，这已经不是简单的说一句话来画图，而是提交了一份 PRD 了，比如：

magnetic poetry on a fridge in a mid century home:

Line 1: "A picture"

Line 2: "is worth"

Line 3: "a thousand words,"

Line 4: "but sometimes"Large gap

Line 5: "in the right place"

Line 6: "can elevate"

Line 7: "its meaning.

"The man is holding the words "a few" in his right hand and "words" in his left.

这个是用来生成一个冰箱上的字母贴的，可怕的是，这里精确的定义了每一行以及人物手中出现哪些字母。不知道你发现没有手中拿着一个 words。

再来看一个生成四格漫画的，可以精确定义每一格的具体内容：

制作一个包含四个面板的图像，并在边框周围留出一些空白：

一个小蜗牛在一个华丽的汽车展厅的柜台。销售员为了看到他，不得不将身体远远探过桌子。

特写镜头，蜗牛看起来非常严肃。他说：“我想要你最快的跑车……而且我希望你在车门、引擎盖和车顶上涂上大大的字母‘S’。”

销售员挠着头。“嗯……我们可以这样做，但为什么要涂‘S’呢？”

突然切换到一辆红色模糊的车在高速公路上疾驰。跑车上覆盖着巨大的‘S’。人行道上的人们指着车大笑：“哇！看那辆S车！”

下面这个图也一样，白板上出现的每一个字，人物身上的 logo 以及白板中出现的影子，都是精确定义的：

甚至还能在生成图的基础上让它更换视角，比如上图更换为拍照者的自拍视角（和被拍人击掌）：

下面这种图比较复杂，提示词描述了两个 20 岁的女巫，一个灰色挑染头发、一个波浪形赤褐色头发在阅读路牌。人物手里拿着扫帚、另一个拿着魔毯，然后是路牌上的详细信息：例如，街道清扫时间、停车许可证要求、车辆分类、拖车规则），中间还有一些荒谬的标志：（将其改写为合法的路牌）“C 区禁止女巫使用扫帚停车”和“仅允许魔毯装卸（15 分钟限制）”和“仅允许驯鹿凭许可证停车（12 月 24 日至 25 日）

可以看到，除了使用非常大段而且精确的提示词描述外， GPT-4o 还支持非常精准的文字渲染。正如官方所说：一图胜千言，但有时在正确的位置生成几个文字可以提升图像的含义。4o 将精确的符号与图像融合的能力将图像生成转变为视觉交流的工具。你可以用它来生成一张菜单、或者是一个邀请函：

我们似乎很难在之前出现的产品里面找到这么强大的功能，但4o 的强大还不止于此！

对于一张生成的图，我们往往会需要多次进行修改，最终达到自己的理想状态，因此通过对话式进行多轮图像生成和修改成为一个必要的功能， 4o 当然也支持，而且非常强大！

比如，提示词：详细解释牛顿棱镜实验的信息图

“现在从一个人的视角看，他在华盛顿广场公园的一张圆形咖啡桌上，在笔记本上画了这个图。“

再来一次，“现在展示同一个场景，年轻的艾萨克·牛顿正坐在桌边，手拿棱镜演示实验，但没有笔记本”

你甚至可以用它一步步制作游戏，比如我们生成了一只猫：

现在，“ 给这只猫一顶侦探帽和一副单片眼镜 ”：

接下来， “将这个创意转化为一款采用 4K 游戏引擎制作的 AAA 级视频游戏，并加入一些用户界面元素作为画面叠加层，这些元素源自一款神秘的 RPG 游戏。在画面顶部，我们可以看到角色的生命条和迷你地图；而在底部，则可以看到各种法术图标。这些界面元素风格统一且具有清晰的图标设计。“

将画面更新为一幅 16:9 比例的风景图，并在用户界面上添加更多法术图标。调整视角，以第三人称视角展示这只猫漫步于一座蒸汽朋克风格的曼哈顿城中。通过精心设计的光影对比和冷色调色彩，打造出如顶级 AAA 游戏般令人惊艳的视觉效果。

最后一步：当玩家打开菜单时，创建用户界面，我们看到猫的角色档案，包括他的装备，以及另一页显示活跃任务（这应该与我们在图像中描述的宇宙世界构建相关联）。

到这里一个游戏的场景就生成了，不仅支持了复杂的多轮图片生成和修改，更关键的是在多轮中保持了图像的一致性，这非常难得！

我们在上述的例子中，其实已经展示了 4o 一个非常强大的功能，就是指令遵循。GPT‑4o 能够根据详细的提示进行创作，并高度关注细节。当其他系统在处理 5-8 个物体时已显吃力， GPT‑4o 却能应对多达 10-20 个不同物体。由于物体与其特征及相互关系的紧密结合，GPT‑4o 在图像生成时拥有更高的可控性。

比如下面这个例子，这个贴纸一共有 16 个图标，4o 可以在一个指令里面定义每一个图标的具体内容：（提示词见官方网站）

这有点让人叹为观止了，还有这个“请给我看一下里面只有一滴红酒的酒杯“

不得不说，这也太精准了。

GPT‑4o 能够分析用户上传的图像并从中学习，将这些图像的细节无缝整合到其生成图像的上下文中，从而影响图像生成的结果。

比如先生成了一张电锯的照片：

然后：为这款链锯制作一个广告，场景是一位祖母在感恩节的餐桌上使用它来切火鸡。别忘了加上一条标语。

这真有点化腐朽为神奇的感觉，以后设计师都不需要了？直接就能生成广告图了。

还有一个有趣的例子，就是将图片（或一幅画）变成真实的照片风格，比如一副中国画：

现在使用提示词：把这个场景拍摄成一张照片，使用单反相机（DSLR）拍摄。

这就太好玩了，很多古代的名画势必要焕发新生了。

还有一个有趣的是将草图或线稿变成真实的照片感：

只需要一句提示词就可以完成：把它变成照片

通过原生图像生成， 4o 能够将其知识在文本和图像之间建立联系，从而生成一个感觉更智能且更高效的模型。在实际中，这似乎大大增强了海报类的生成，因为里面需要融入大量的知识，同时有需要通过图像来展示：

很多 AI 工具虽然能够生成图片，但是总感觉 AI 味太重（说的就是你，豆包！），但 GPT-4o 支持照片真实感与风格：通过在各种图像风格上进行训练，模型能够令人信服地创建或转换图像，达到高度逼真的效果。

提示词：一张抓拍风格的狗仔照片，照片中卡尔·马克思正慌张地穿过美国购物中心的停车场。他不安地回头张望，脸上满是惊恐，显然是在躲避镜头。他手里紧攥着好几个装满奢侈品的亮光购物袋。外套在他身后随风飘扬，其中一个袋子晃来晃去，似乎他正大步流星地走着。背景模糊不清，隐约可见一些车辆和灯火通明的商场入口，营造出一种匆忙的动感。相机闪光灯的强光部分使照片过曝，为画面增添了一丝混乱和八卦小报的感觉。

提示词：生成一张2006年6月下旬某个星期六在多伦多农贸市场的逼真照片。那是一个晴朗美好的夏日，人们正在市场中购物、享用三明治。照片的焦点应定格在一个身着牛仔连体裤、正喝着草莓香蕉奶昔的年轻亚洲女孩身上，其余背景可做模糊处理。照片风格应仿若2006年时期的数码相机所拍摄，并带有类似打印照片的日期时间戳。照片的宽高比应设置为3:2

提示词：生成一张宝丽来风格的抓拍照片，照片中是四位20岁出头、来自不同背景的朋友，他们身处一家略显破旧的酒吧。照片的光线运用了非常直接且强烈的闪光，营造出鲜明的阴影，使照片呈现出一种过曝且复古的即显胶片质感。色彩应稍显柔和，以唤起人们对21世纪初聚会的怀旧之情。整体风格随意且略带感性。照片中不包含边框、标志或文字。他们身后的墙上有一些有趣的涂鸦。图像应具有很高的清晰度和细节（几乎无颗粒感）。照片中的能量感应该是欢快且混乱的。他们要么调皮地做着鬼脸，要么微笑着，要么假装看起来很严肃。其中一人应以一种嬉闹的方式将朋友的头锁住。他们的嘴巴是闭着的。

通过上面这些具体的例子，我们发现 GPT-4o 确实非常强大，它能够让你使用非常详细及复杂的提示词，对“文字”可以进行非常精准的控制，可以盛大大段的文字，同时非常完美的支持多轮图片修改，而且保持了图片的一致性。基于 GPT 本身对文字生成和语义理解的强大，GPT-4o 在处理文字和图片融合的场景时，表现得异常强大，这对于海报制作、广告图制作效果明显。最后，它能生成非常逼真的图像，那种 AI 味彻底消除了。

不得不说，GPT-4o 在图像生成领域，再次成为王者！

THE END

shadowrocket shadowrocket下载 shadowrocket网站小火箭小火箭下载小火箭节点科学上网

二维码

GPT4o再更新性能超越45成本却只有130

< <上一篇

DeepSeek低调发布V30324性能比肩Claude35

下一篇>>

搜索内容

GPT4o已成为文生图王者

取消回复

共有 0 条评论

节点推荐

标签

热门文章

GPT4o已成为文生图王者

⭐ 好用的翻墙软件下载-小火箭高速节点推荐 ⭐

⭐ 好用的翻墙软件下载-小火箭高速节点推荐 ⭐

取消回复

共有 0 条评论

节点推荐

标签

热门文章