DALL-E 101:它是什么及其工作原理
已发表: 2024-04-18DALL-E 是创新的生成式人工智能平台之一,模糊了人类和计算机生成创造力之间的界限。 以下是 DALL-E 的概述、如何使用它以及如何让它为您所用。
目录
- 什么是 DALL-E?
- 谁创造了 DALL-E?
- DALL-E的演变
- DALL-E 的工作原理
- DALL-E 是免费的吗?
- 如何使用 DALL-E
- 用例和应用
- DALL-E 的好处
- DALL-E的缺点
- 结论
什么是 DALL-E?
DALL-E 是一个生成式 AI 平台,可将文本提示转化为图像。 DALL-E 可以处理自然语言,因此您不需要任何特殊的编码或图像编辑能力即可使用它。 您可以输入描述所需图像的主题、风格、框架和其他特征的提示,DALL-E 将生成与您的描述相匹配的视觉表示。 它还可以编辑现有图像。
DALL-E 这个名字的灵感来源于两个著名人物的名字的组合:西班牙超现实主义艺术家萨尔瓦多·达利和 2008 年皮克斯同名电影中的机器人瓦力。
谁创造了 DALL-E?
OpenAI(ChatGPT 背后的同一家公司)创建了 DALL-E。 OpenAI是一家成立于2015年的人工智能研究公司。
Open AI于2021年1月发布了DALL-E。2022年9月发布了DALL-E 2,2023年10月发布了DALL-E 3。
DALL-E 是如何演变的?
OpenAI 于 2020 年发布了首款图像生成工具,DALL-E 就是从那里发展而来的。 OpenAI 首次涉足图像生成领域,称为 Image GPT。 图像 GPT 提供了 GPT 模型可以创建图像的第一个证据。
然后是 DALL-E。 DALL-E 的第一次迭代基于 GPT-3 版本(OpenAI 于 2020 年发布的大型语言模型 (LLM)),适用于图像生成。
DALL-E 创建可信的图像并完成多项任务,其中包括:
- 修改对象的多个特征,例如球体的颜色和纹理
- 了解取景,例如特写镜头和广角镜头
- 从多个角度创建同一对象的图像
- 了解地理信息和历史时期
什么是 DALL-E 2?
下一版本 DALL-E 2 生成的图像分辨率是 DALL-E 生成图像的四倍。 它可以更有效地处理构图和对象放置,使阴影和灯光等元素显得更加真实。 DALL-E 2 还引入了两个用于修改现有图像的新功能:修复和修复。
- 修复是指擦除图像的一部分并使用人工智能用其他东西填充空白区域。 例如,您可以从照片背景中删除建筑物并用树替换它。
- 外画是指使用 AI 扩展图像的边界。 例如,如果您有一张公园里的狗的特写图像,并希望将其放大以显示远处的城市天际线,DALL-E 2 可以通过外画来实现这一点。
什么是 DALL-E 3?
DALL-E 3 在多个方面比其前身有了重大改进。 对于初学者来说,它更擅长解释提示。 以前的版本会跳过文字和描述。 您必须擅长快速工程才能获得您想要的图像。 DALL-E 3 可以更好地理解细微差别和上下文,并且可以遵循更复杂的提示。 它的响应更加准确,图像更加连贯。 最终,它的输出更好地符合人们的需求。
DALL-E 3 还包括更复杂的安全措施。 例如,它可以防止露骨、攻击性或歧视性图像。 为了防止人们创建侵犯版权和知识产权的图像,DALL-E 3 不会生成类似于活着的公众人物或模仿流行艺术家和品牌风格的图像。 DALL-E 3 还允许创作者选择不将他们的图像用于训练未来的模型。
纳入现有的人工智能工具
DALL-E 3 本身包含在 ChatGPT 和 Designer 中的 Microsoft Image Creator(以前称为 Bing Image Generator)中。
这意味着,如果您拥有高级 ChatGPT 订阅,您可以在与聊天机器人对话的过程中生成图像。 有了这个功能,您不必只编写简单的提示。 您可以提出问题或给出指示,ChatGPT 可以将它们交给 DALL-E 来生成图像。
例如,您可能会说:“我刚搬到亚利桑那州,每个人都在谈论一种叫做 haboob 的东西。 那看起来像什么?” ChatGPT 可以处理您的问题并生成 DALL-E 提示。 然后,DALL-E 将创建哈布布图像,这是发生在亚利桑那州等干燥地区的沙尘暴。
ChatGPT 还将详细说明您的提示,以便向 DALL-E 提供更多详细信息。 如果您编写的提示是“以复古摄影风格创建两只猫坐在椅子上的图像”,ChatGPT 可能会将您的提示改进为:“创建两只猫坐在椅子上的黑白复古照片”。绿色沙发椅。 一只猫是虎斑猫,另一只猫全身都是灰色的。 两只猫并排坐着。”
DALL-E 的工作原理
在基础层面上,DALL-E 使用深度学习来理解图像和文本之间的关系,允许模型为文本提示输出新图像。 DALL-E 背后的特定生成人工智能模型正在不断发展。
达尔-E 1
DALL-E 1(也称为 DALL-E)使用 OpenAI 的 LLM GPT-3 的一个版本,该版本经过训练可以根据文本描述生成图像。 该模型基于变压器架构。 正如 ChatGPT 通过逐个预测每个单词来生成文本一样,DALL-E 的原始版本通过预测每个像素来生成图像。
DALL-E 1 为单个提示生成许多候选输出。 第二个人工智能系统称为 CLIP(对比语言图像预训练),用于选择最佳系统。 CLIP 与 DALL-E 1 一样,都是在大型图像和标题数据集上进行训练的。 然而,CLIP 的目标是了解给定图像和文本标题的相关程度。
达尔-E 2
DALL-E 2 使用扩散模型而不是 LLM 生成图像,以提高图像质量和准确性。
这种方法训练模型拍摄噪声图像,其中像素以随机方式扭曲,并逐渐消除噪声以显示清晰的图像。 然后,您可以为模型提供一组像素加噪声(代表一些底层图像特征,例如“戴高礼帽的猫”),模型将从头开始构建新图像。
DALL-E 2 使用 CLIP 来理解用户提示中的文本并将其映射到图像特征。 该信息被传递到扩散模型,使其能够生成适合用户提示的输出。
达尔-E 3
人们对 DALL-E 2 和 DALL-E 3 之间的架构差异知之甚少。这是因为 OpenAI 尚未公开共享此信息。 然而,DALL-E 3 几乎肯定使用扩散模型,因为这被广泛认为是最先进的图像生成技术。
据推测,DALL-E 3 使用更先进的扩散技术,并且可能使用 LLM(而不是像 CLIP 这样的较小模型)来理解图像和文本之间的关系。
DALL-E 可以免费使用吗?
DALL-E 可通过付费 ChatGPT 订阅获得,该订阅为个人和企业提供多个级别。
您可以使用 Designer 中的 Microsoft Image Creator(以前称为 Bing Image Generator)免费访问 DALL-E。 Image Creator 也可以通过 Microsoft 的聊天机器人 Copilot 获得。
使用 DALL-E 的技巧
以下是使用 DALL-E 获得最佳结果的一些技巧:
具有描述性
您的提示越精确,DALL-E 的输出就越好。
- 提供对主要主题的清晰描述; 例如,“蓝色超细纤维沙发”而不仅仅是“沙发”。
- 解释场景,例如“在热带海滩上”、“在 1970 年代的房子里”或“在小学体育馆内”。
- 详细描述任何动作,例如“太阳正在落山”、“一只狗正在打瞌睡”或“一只风筝正在飞翔”。
- 描述图像格式,例如“真实感”、“绘画”或“铅笔素描”。
- 告诉DALL-E你想要哪种风格; 例如,“黑白”、“抽象”或“装饰艺术”。
- 包括相机角度和焦距,例如“鸟瞰图”、“特写”或“广角”。
- 提供照明细节,例如“深度阴影”、“闪光灯”或“背光”。
- 描述心情; 例如,“浪漫”、“坚韧”或“梦幻”。
进行实验
没有教科书或完美的方法来使用 DALL-E。 获得所需结果的最佳方法是采用实验方法来使用它。
- 对提示进行细微调整,看看是否能获得更好的结果。 尝试使用相同单词的变体,看看它是否会改变您的结果。
- 找到细节的适当平衡。 如果您的提示太详细,DALL-E 可能不知道哪些是最重要的。 尝试一下提示的复杂性,找到你的最佳点。
- 为错误和失败做好准备。 DALL-E 可能会偏离轨道。 将每一次失败的回应视为学习的机会。 找出什么不起作用与找出什么起作用同样重要。
DALL-E 用例和应用
人们将 DALL-E 用于商业和个人环境中的许多应用。
营销和商业沟通
- 为博客、社交媒体帖子和网站创建图像
- 设计广告,例如传单和海报
- 设计标志和品牌元素
- 创造独一无二的照片
- 设计产品包装
概念化
- 设计实体产品
- 渲染建筑模型
- 构思其他创意项目,例如动画、故事板和室内设计
- 测试不同风格的创意
教育内容
- 创建信息图表和图表等视觉辅助工具
- 描绘历史事件
- 可视化肉眼无法看到的科学过程,例如化学反应
- 创建适合个别学生的特定需求、兴趣或学习风格的图像
艺术与设计
- 为您的家居或派对装饰创作定制艺术品
- 为书籍、专辑或电影设计封面艺术
- 创作艺术品并通过 T 恤、书签和印刷品等产品进行销售
- 创建参考图像以用作其他艺术媒介(例如时装设计)的灵感
- 设计元素(例如背景纹理)以融入其他形式的艺术品中
修改现有图像
- 向图像添加更多主题
- 调整背景
- 更改纵横比
- 强调某些物体
- 删除一个对象并用其他对象替换它
使用 DALL-E 的好处
DALL-E 提供了许多优势,包括从多种响应中进行选择的能力、将该平台与其他人工智能工具一起使用以及消除艺术和设计的障碍。
每个提示生成多个图像
DALL-E 每个提示都会生成四张图像,因此您可以选择最适合您喜好的一张。 它稍微修改了每个图像的提示,并对其进行扩展以添加更多细节。
例如,如果您输入“黑暗小巷的漫画书风格图像”之类的通用提示,DALL-E 将改写您的提示并添加细节,例如场景中的建筑物风格、图像的框架或主要颜色。 您可以通过单击每个图像来查看 DALL-E 的提示变化。
与 ChatGPT 和 Microsoft Copilot 集成
您可以通过您可能已经在使用的聊天机器人访问 DALL-E。 在一个工具内生成文本和图像非常方便。 此外,由于这些是聊天机器人,因此您生成的图像可以成为较长对话的一部分。
例如,假设您一直在使用 ChatGPT 创建婴儿送礼会的议程。 在这种情况下,您还可以使用 DALL-E 制作邀请函图像。 由于这都是一次对话的一部分,ChatGPT 可以将您议程的一些详细信息合并到邀请中。
让设计变得更加触手可及
设计软件和摄影设备可能价格昂贵且学习起来具有挑战性。 DALL-E 使图像生成对于普通人来说更容易。
- 小企业主可以创建自定义品牌资产,例如以前无法访问的照片和产品图像。
- 木工和雕刻等领域的爱好者可以起草其概念的可视化效果,而无需投资昂贵的软件。
- 来自代表性不足群体或具有特殊爱好的个人和组织可以创建符合他们兴趣的图像。
DALL-E的缺点
尽管 DALL-E 具有多种功能,但它也有一些局限性。
不可预测性
由于 DALL-E 从头开始生成每个图像,因此它可能是不可预测的。 假设您对对象放置或品牌标准有特定要求。 在这种情况下,DALL-E 可能并不总是将这些标准纳入其结果中。
此外,稍微调整提示可能会导致明显不同的输出。 当更改 DALL-E 已经创建的图像时,这尤其具有挑战性。
偏见
所有生成式人工智能都会处理偏见,DALL-E 也不例外。 DALL-E 可能会生成反映种族、性别、阶级甚至某些语言或国家/地区偏见的响应。 DALL-E 主要根据来自美国的数据进行训练,因此它通常反映美国文化、价值观和偏见。
使用某些形容词可能会导致刻板的结果。 例如,如果提示包含情感或敏感等词语,则输出可能与女性相关联。 与此同时, “强硬”或“知识分子”等词语可能会带来以男性为特征的结果。
成本
除非您使用 Microsoft Image Creator,否则 DALL-E 需要付费,这可能会很不方便,具体取决于您的偏好。
如果您更喜欢使用 ChatGPT 而不是 Microsoft 的 AI 平台,则必须付费才能访问 DALL-E。
DALL-E 和 AI 图像生成的下一步是什么?
您可以使用 DALL-E 激发创意头脑风暴、简化设计流程,或者只是享受乐趣。 它是众多生成式人工智能平台之一,可让您以新的方式进行创作。 由于它与 ChatGPT 和 Microsoft Image Creator 等现有 AI 平台集成,因此您可以在一个工具中创建图像并生成文本。
使用 DALL-E 时,请务必注意,所有生成式 AI 都容易产生有偏见的响应。 了解 DALL-E 的局限性可以让您找到使用它的最佳方法并获得您想要的图像。
新的功能、特性和竞争对手不断涌现。 任何想要使用生成式人工智能的人——无论是出于商业、个人还是教育目的——都应该密切关注最新的发展。 我们将继续报道生成人工智能的重大变化,因此请关注 Grammarly 博客以了解最新动态。