免费使用，GPT-4o多模态生图功能上线使用教程

你是否已经习惯了用ChatGPT进行文本交流？现在，它又掌握了一项新技能——直接生成超逼真的图片了！

升级点

这次升级的核心在于ChatGPT已经整合了全新的图像生成功能，而驱动这项强大能力的是最新的 GPT-4o 模型。与以往不同的是，GPT-4o 的技术原理与传统的扩散模型（Diffusion）不同，它采用了类似人类写作的 “自回归”（autoregressive）模式：从图片左上角开始逐步绘制到右下角，每一步都基于之前绘制的内容展开。这种模式显著提升了细节的精准度和文字渲染的效果。

OpenAI 研究负责人 Gabriel Goh 透露，这个过程整整迭代了近一年，上百名人类训练员参与了细节纠错，以提升 AI 的画图水准。

怎么使用？

目前，有两个主要渠道可以使用 GPT-4o 的图像生成功能：

ChatGPT: 当你在 ChatGPT 中选择画图功能时，如果看到选项已经更新，那就意味着你正在使用 GPT-4o 而不是之前的 DALL-E 3。你可以直接通过文字描述你的需求，让 ChatGPT 生成图像，甚至可以通过对话逐步完善和修改图像。

免费使用，GPT-4o多模态生图功能上线使用教程

Sora 网站: GPT-4o 的全模态能力也融合进了 Sora 中，在 Sora 上使用的一个好处是速度极快，并且可能没有 ChatGPT 上的流量限制。然而，目前在 Sora 上生成的图片可能无法进行多轮对话修改。

免费使用，GPT-4o多模态生图功能上线使用教程

本次升级同时面向 ChatGPT 免费版、Plus、Pro 及 Team 所有用户开放。但需要注意的是，免费版每日的图片生成数量仍然有限制（此前 DALL-E 为每天 3 张，GPT-4o 具体数字暂未公布，但预计相似）。

目前，GPT-4o 生成图片的速度略慢于之前的 DALL-E 3，但 OpenAI 表示，这点延迟完全值得，因为 “图片质量和知识整合的提升远超等待几秒带来的不便。”

先来看个在ChatGPT里的简单案例：

免费使用，GPT-4o多模态生图功能上线使用教程

中文字的效果非常的好！简直是一改往日AI出图展示中文字的印象！

GPT-4o 的“画图”功能有哪些亮点与缺点？

GPT-4o 的图像生成能力带来了诸多令人惊喜的提升，主要体现在以下几个方面：

更准确的细节和复杂的组合能力: GPT-4o 在复杂元素组合（binding）上表现出色，过去 AI 难以准确绘制多个颜色、形状的物体，但 GPT-4o 能够准确处理 10-20 个物体及属性，让画面呈现更高精度的细节，满足复杂场景的需求。
文字生成能力跃升，告别乱码困扰: 过去 AI 生成的图片上文字常常出现错字、乱码等问题，影响实用性。 GPT-4o 专门解决了这个痛点，可以稳定地生成清晰准确的文本。无论是餐厅菜单、科学示意图，还是品牌宣传海报，现在用 ChatGPT 一键搞定，效果堪比专业设计师。
更强的知识整合能力，随手生成高质量科普内容: GPT-4o 能够从大模型中直接获取知识，生成与现实世界知识相符的图像。只需一句简单的提示，比如“牛顿的三棱镜实验”，无需解释更多细节，它就能准确还原实验场景。
全新的多轮生成方式: 图像生成现在是 GPT-4o 的原生功能，可以通过自然对话来逐步完善图像，并保持内容一致。例如，在设计游戏角色时，角色的外观可以在多次迭代和调整中保持连贯一致。
强大的指令遵循能力: GPT-4o 的图像生成可以遵循非常详细的提示词，并且十分注重细节。
优秀的上下文学习能力: GPT-4o 可以分析和学习用户上传的图像，将其细节无缝集成到上下文中，用于指导后续的图像生成。例如，可以上传一张风格插画，然后要求 GPT 生成一个相同风格的其他物体。
逼真的照片级效果和多样的风格: 通过对大量不同风格的图像进行训练，GPT-4o 能够以令人信服的方式创建或转换图像。无论是莫奈风格的猫，还是幻想风格的海豚地铁，它都能轻松驾驭。
更智能和高效: 内置的图像生成功能使 GPT-4o 能够连接文本和图像之间的知识，使其在图像生成方面表现得更智能、更高效。

当然，GPT-4o 的图像生成并非完美，仍然存在一些缺点

对于长图像，可能会出现裁剪问题
模型可能产生幻觉，胡编乱造
难以准确渲染超过 20 个不同的概念
在多语言文本渲染方面，处理非拉丁语言（比如中文）可能不够准确
对特定部分要求编辑，可能会出现 bug等等

尽管如此，GPT-4o 原生多模态的出现，以其几乎成熟的质量，预示着图像生成的新纪元 . 如此高的生成质量和丝滑的多模态对话，已经不仅仅是能否使用的问题，而是能否彻底改变现有的 AI 绘图生态以及人们进行 AI 绘图的交互方式。这无疑是 AI 时代，也是我们所有人的时代。

除了娱乐，还可以有哪些商业价值？

全新的 GPT-4o 不仅仅局限于娱乐、科普，更是企业商用的新利器，例如：

设计团队可快速生成品牌 LOGO 和透明背景贴图
餐厅老板一分钟做好菜单、宣传海报
办公场景可直接生成演示文档和高质量图表
可以用于快速生成科普插画
能够根据对话内容生成菜单、婚礼邀请函等实用图像
可以根据现实知识生成可以直接使用的鸡尾酒配方图、披萨制作流程图、动量定理和冲量定理的信息图等等等

总而言之，GPT-4o 的强大图像生成能力可以减少对专业绘图工具和设计师的依赖，极大地提高内容创作和营销效率。

安全问题及反思

在享受 GPT-4o 强大功能的同时，OpenAI 也高度重视安全与版权问题，并采取了多项措施:

禁止生成色情内容、儿童不当图像
禁止去除水印、禁止模仿在世艺术家作品
所有生成图片都含有 C2PA 元数据，标记为 AI 生成，便于追踪来源
OpenAI 在数据训练中已获得 Shutterstock 等公司的授权，也提供艺术家内容的主动“退出”机制，保障版权与合规

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

免费使用，GPT-4o多模态生图功能上线使用教程

用AI打造美女视频账号，教你制作火爆全网的AI美女视频

清明时节海报制作教程，用AI工具快速搞定节日海报

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

用AI打造美女视频账号，教你制作火爆全网的AI美女视频

清明时节海报制作教程，用AI工具快速搞定节日海报

prompt分享，如何使用AI写一篇爆款公众号文章？

我们在使用ChatGPT、文心一言等AI工具的时候，如何才能写出一个好提示词？

ChatGPT写论文，使用ChatGPT论文润色整体逻辑及具体步骤

AI一键生成爆款治愈系漫画图文，在线AI生图零基础轻松掌握

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注