生成式人工智能模型的解释
已发表: 2024-04-15当您想到生成式人工智能模型时,您可能会想到近年来引起轰动的大型语言模型(LLM)。然而,生成式人工智能本身可以追溯到几十年前,而法学硕士只是最新的演变。除了法学硕士之外,许多不同类型的生成式人工智能模型也用于不同的生成式人工智能工具和用例,例如用于图像生成的扩散模型。
在本文中,我们将解释什么是生成式 AI 模型、它们是如何开发的,并深入探讨当今一些最常见的生成式 AI 模型,足以让您对这些模型有一个概念性的了解,这些模型会给您留下深刻的印象。朋友和同事,无需参加机器学习 (ML) 大学课程。
什么是生成式人工智能模型?
生成式人工智能模型是人工智能系统的一个子集,专门创建反映训练数据特征的新的原创内容。通过学习数据中的模式和关系,这些模型可以生成类似于源材料的风格、语气和细微差别的文本、图像、声音或视频等输出。这种能力将生成式人工智能置于创新的核心,通过解释输入数据并将其转换为新颖的创作,允许跨不同领域的创造性和动态应用。
生成式人工智能模型如何工作
生成式 AI 模型通过利用一种复杂的 ML 算法(称为神经网络)来发挥作用。神经网络包含多层互连的节点,每个节点都由一段计算机代码表示。这些节点执行较小的单独任务,但共同有助于做出复杂的决策,反映了人脑中的神经元功能。
为了说明这一点,请考虑一个负责区分馅饼和蛋糕图像的神经网络。该网络在粒度级别上分析图像,将其分解为像素。在非常基础的层面上,网络中会有不同的节点致力于理解不同的像素和像素组。也许有些人会看看甜点中是否有分层,而另一些人会确定是否有糖霜或硬皮。每个节点都存储有关馅饼与蛋糕的特征的信息,每当新图像发挥作用时,它都会通过每个节点进行处理以输出最终预测。
在生成人工智能的背景下,这一原则不仅限于简单的识别,还延伸到新的原创内容的创建。生成模型不只是识别特征,而是使用神经网络来理解所训练数据的底层模式和结构。这个过程涉及神经网络内复杂的交互和调整,由旨在优化生成输出的创造力和准确性的算法引导。
生成式人工智能模型是如何开发的?
生成式人工智能模型的开发涉及一系列复杂且相互关联的步骤,通常由研究人员和工程师团队执行。这些模型,例如 OpenAI 的 GPT(生成式预训练变压器)和其他类似架构,旨在生成模仿其训练数据分布的新内容。
以下是该过程的逐步分解:
1数据收集
数据科学家和工程师首先确定其项目的目标和要求,这指导他们收集广泛且适当的数据集。他们经常使用公共数据集,这些数据集提供大量文本或图像来满足他们的需求。例如,ChatGPT (GPT-3.5) 的训练涉及处理 570GB 的数据,相当于公共互联网资源中的 3000 亿个单词,包括几乎所有维基百科的内容。
2型号选择
选择正确的模型架构是开发生成式人工智能系统的关键一步。该决策取决于手头任务的性质、可用数据的类型、所需的输出质量和计算限制。本文稍后将更详细地讨论具体架构,包括 VAE、GAN 以及基于变压器和扩散模型。在此阶段,重要的是要了解新模型通常从预先存在的架构框架开始。这种方法利用经过验证的结构作为基础,允许根据当前项目的独特要求进行改进和创新。
3模型训练
使用第一步收集的数据集来训练所选模型。训练生成式人工智能模型通常需要大量的计算能力,需要使用 GPU(图形处理单元)和 TPU(张量处理单元)等特殊硬件。虽然训练方法因模型架构而异,但所有模型都会经历一个称为超参数调整的过程。这是数据科学家调整某些性能设置以获得最佳结果的地方。
4评估与微调
最后,在现实世界中评估或测试模型性能。评估生成式人工智能模型与评估传统的机器学习模型不同,因为生成式人工智能创建了全新的输出,而该输出的质量往往是主观的。指标根据模型创建的内容而有所不同,生成式人工智能的评估技术通常包括使用人类评估者,并且可能采用让生成式人工智能模型相互评估的策略。评估阶段的学习通常会应用到模型的微调甚至重新训练中。模型的性能经过验证后,即可投入生产。
生成式人工智能模型的类型
基于我们对生成式 AI 模型和为其提供动力的神经网络的基础知识,我们现在准备深入研究 2010 年代初期以来出现的特定类型的模型架构。我们将探讨每种模型的独特优点和缺点以及它们的实际应用。
以下是我们将讨论的模型的简要概述:
- 变分自动编码器(VAE)擅长学习复杂的数据分布,通常用于图像生成和编辑等任务。
- 生成对抗网络(GAN)以其创建高度逼真的图像的能力而闻名,并在各种创意应用中变得流行。
- 扩散模型是一类较新的模型,它通过逐渐添加然后去除噪声的过程生成高质量样本。
- 语言模型擅长理解和生成人类语言,这使得它们对于聊天机器人和文本完成等应用非常有用。
- 基于 Transformer 的模型最初是为自然语言处理 (NLP) 任务而设计的,但由于其处理顺序数据的强大能力,已适用于生成模型。
让我们更深入地研究这些架构,以了解它们的工作原理以及它们的最佳应用场景。
变分自动编码器 (VAE)
变分自动编码器由 Max Welling 和 Diederik P. Kingma 于 2013 年发明。它们依赖于这样一个事实:神经网络可以对模型在训练步骤中学习的高级概念进行编码。这有时被称为原始数据的“压缩”或“投影”。
例如,如果模型查看蛋糕的图像,它可能会将其转换为包含图像所有特征(洒水、糖霜颜色、海绵层等)的编码。这种编码看起来像一组数字,对于模型,但不是人类。它可以由另一个神经网络进行解码,以尝试重新创建原始图像 - 尽管它会存在一些间隙,因为编码是一种压缩。这种类型的模型,编码器和解码器一起工作,称为自动编码器。
变分自动编码器对自动编码器的想法进行了改进,以生成新的输出。在生成编码时,VAE 使用概率而不是离散数。毕竟,生奶油算作糖霜吗?有时是的;有时不。
事实证明,如果你训练一个神经网络来创建这些概率编码并训练另一个神经网络来解码它们,你可以获得一些非常有趣的结果。解码器可以对变分编码“空间”中的点进行采样,并创建全新的输出,这些输出仍然看起来很真实,因为它们保留了训练数据的概率关系。
优点和缺点
变分自动编码器使用无监督学习,这意味着模型可以从原始数据中自行学习,而不需要人类标记不同的特征或结果。此类模型在创建与原始内容略有不同的内容方面尤其成功。由于它们如何使用编码,还可以根据训练数据的特征向它们发出具体指令:“向我展示一款代表蛋糕和馅饼之间完美中间点的甜点。”也就是说,VAE 针对可能的结果进行优化,因此它们不太可能擅长创建非常原创或突破性的内容。
关于 VAE 的一个常见抱怨是,由于编码和解码涉及压缩,从而导致信息丢失,因此它们会产生噪声(即模糊)图像。
使用案例
变分自动编码器适用于各种数据,尽管它们主要用于生成图像、音频和文本。一个有趣的应用是异常检测:在数据集中,VAE 可以找到偏离标准最多的数据点,因为这些点将具有最高的重建误差,这意味着它们将与 VAE 编码的概率最远。
生成对抗网络(GAN)
生成对抗网络由 Ian Goodfellow 于 2014 年开发。虽然在此之前神经网络已经能够生成图像,但结果往往是模糊且不令人信服的。 GAN 背后的核心问题(和见解)是:如果两个神经网络相互对抗会发生什么?其中一个称为生成器,被训练如何生成新内容,而另一个称为鉴别器,则被训练以了解真实内容和虚假内容之间的区别。
生成器创建候选图像并将其显示给鉴别器。根据反馈,生成器相应地更新其预测,越来越擅长“欺骗”鉴别器。一旦它能在 50% 的时间内欺骗鉴别器(就像在真假之间抛硬币一样好),反馈训练循环就会停止。然后,GAN 的生成器部分就可以进行评估和生产了。
自 2014 年以来,针对不同用例开发了数百种 GAN 变体,以平衡 GAN 固有的优点和缺点。
优点和缺点
生成对抗网络和 VAE 最初引发了人们对生成人工智能潜力的广泛关注。他们使用无监督学习,因此模型会自行变得更好,而无需研究人员告诉它其输出是好是坏。生成对抗网络的学习速度也非常快;与其他现有解决方案首次发布时相比,它们可以用更少的训练数据(数百张图像而不是数千张图像)获得良好的结果。
然而,GAN 通常很难创建与其训练数据不相似的内容——它们是模仿者,而不是创造者。有时他们可能会“过度拟合”他们的训练数据,例如当 GAN 创建包含字母的猫照片图像时,因为他们看到了很多猫表情包。
训练 GAN 是一项挑战。在训练期间必须同时处理两个网络。当判别器太好时,也会出现问题,导致训练周期永无止境,或者如果判别器不够好,则会导致不良结果。它们还可能遭受所谓的模式崩溃,即它们无法产生不同的输出,因为生成器学习了一些欺骗鉴别器的方法,并专注于这些策略以排除其他策略。
使用案例
生成对抗网络主要用于生成与原始内容非常相似的内容。例如,他们可以制作令人信服的人脸或逼真的室内或风景照片,用于图库摄影或视频游戏。他们还可以创建经过某种方式更改的图像,例如将图像从彩色更改为黑白或使图像中的脸部变老。也就是说,并非所有 GAN 都会生成图像。例如,一些 GAN 已被用于生成文本到语音的输出。
扩散模型
扩散模型也在 2010 年代中期出现,提供了一些突破,并在 2020 年代初提供了更好的性能。它们为 DALL-E、Stable Diffusion 和 Midjourney 等图像生成工具提供支持。
扩散模型的工作原理是向图像引入高斯噪声,通过一系列步骤对其进行扭曲,然后训练模型来反转这些步骤并将“噪声”图像转换为清晰图像。 (“高斯噪声”仅意味着使用概率钟形曲线随机添加噪声。)
您可以将噪声图像视为有点像 VAE 编码,而且 VAE 和扩散模型确实是相关的。例如,酸橙派的训练数据图像最终会得到非常相似的噪声版本。但即使是相同的噪声图像也不会每次都对相同的事物进行“去噪”,因为模型一路上都会做出有根据的猜测。
您可能已经弄清楚生成部分的作用。如果您为模型提供噪声空间中图像的表示,它将能够对图像进行去噪,并得出全新的清晰图片。这有点像解码器如何从编码中采样。但有一个重要的区别:一路上没有任何压缩。因此,没有真正的数据丢失,并且生成的图像质量更高。
从文本提示到图像的生成式人工智能工具借助一个单独的模型来实现这一点,该模型了解“独角兽主题生日蛋糕”之类的东西如何映射到不同的图像特征。然后将这些特征的噪声版本反转以显示清晰的图像。
优点和缺点
扩散模型不会压缩训练数据,因此它们能够创建非常逼真的高质量图像。然而,与其他模型相比,它们需要更多的资源和时间来训练。也就是说,训练本身更加简单,因为它们不会遇到 GAN 的模式崩溃和对抗网络的其他缺点。它们也不会像 VAE 那样遭受数据丢失(并导致输出质量较低)的问题。
使用案例
扩散模型主要用于图像、声音和视频生成。没有固有的原因表明它们也不能用于生成文本,但到目前为止,基于 Transformer 的模型对于自然语言更加有效。
语言模型
语言模型是指生成自然语言概率模型的任何机器学习技术。当今最著名的语言模型类型是 LLM,它接受大量原始数据的训练,并使用基于转换器的架构来生成文本。 (下一节将详细介绍变压器。)
在基于 Transformer 的模型出现之前,大多数最先进的语言模型都使用循环神经网络 (RNN)。 RNN 在节点之间的互连中引入小循环,以便除了像传统前馈神经网络 (FNN) 一样从当前信号中学习之外,节点还可以从最近的信号中学习。这对于处理或生成自然语言(例如文本流或语音输入)非常重要。与图像不同,语言具有高度的语境性——我们如何解释它取决于之前发生的事情。
优点和缺点
由于“语言模型”指的是如此大的一组模型,因此很难概括它们的优缺点。语言建模的挑战包括这样一个事实:语言是如此高维——任何给定语言中都存在大量不同的单词,并且某些组合可能永远不会出现在训练数据中。
此外,语言在很大程度上取决于序列中之前出现的上下文,要求网络以某种方式处理或表示该上下文。满足这一需求的能力使得具有长期和短期记忆的 RNN 以及随后可以处理整个句子的 Transformer 成为最先进的语言模型架构。
使用案例
语言模型可用于翻译、摘要、语法纠错、语音识别以及更多任务。它们被用来在许多应用程序中生成新的创意文本内容,并被证明能够进行高级推理,例如分析数据和解决逻辑难题。有趣的是,研究发现法学硕士的一项新兴能力是空间意识和创建基本绘图的能力,即使他们完全接受文本训练。
基于变压器的模型
Transformers 由 Google 和多伦多大学的研究人员于 2017 年发明,彻底改变了深度学习领域。像 ChatGPT 这样的 LLM 是基于 Transformer 的模型,Google 搜索结果也由 Transformer 提供支持。
基于 Transformer 的模型使用其训练数据来学习不同单词之间的关系。例如,它可能会了解到蛋糕和派在概念上相似,而蛋糕和斗篷没有直接关系。它还可能了解到slice可以链接到cake和pie ,特别是如果这些词出现得很接近的话。
在分析文本时,该模型使用这种基线理解来构建类似于大型电子表格的内容。它可以查找文本中的任意两个单词,并得到它们可能的相关程度的答案。
通过利用这些上下文线索,变压器模型可以熟练地解释语言并预测对话中的潜在连续性。例如,如果有人在一个片段中提到蛋糕,然后在下一个片段中讨论他们的生日,则模型会根据已建立的语言联系预测最终会提到蜡烛或派对。
优点和缺点
在分析和生成语言方面,Transformer 比它们的前身 RNNS 有一些优势。他们可以通过网络并行处理文本,而不是顺序处理每个单词。这使得它们能够更快、更高效地在非常大的数据集上进行训练。他们还可以在单词之间建立联系,无论它们相距多远,从而使他们能够利用文本中的更多上下文。
然而,Transformers 需要大量数据才能表现良好,并且对于较小的数据集,更传统的神经网络架构可能会工作得更好。
使用案例
变形金刚有许多生成式人工智能应用。虽然基于变压器的模型通常用于生成文本或语音,但研究人员正在探索它们在图像生成中的用途,因为它们的计算强度低于扩散模型。
最著名的是,法学硕士是基于变压器的模型。语言模型仅使用该架构的解码器部分。提示作为编码(我们之前提到的一组数值、概率和注意力数据)输入到模型中。该模型使用自注意力机制并并行查看提示中的所有单词来解码输入。该模型的目标是输出句子中下一个单词的预测。
除了在自然语言处理中生成文本之外,Transformer 还有许多应用。事实上,它们最初的构想是将文本从一种语言翻译或转换为另一种语言。 Grammarly 致力于使用 Transformer 纠正语法错误的研究。
结论
生成式人工智能模型在过去十年中取得了长足的进步。我们希望您现在能够更多地了解这些模型的演变、它们的工作原理以及它们如何应用于不同的用例。然而,本文仅触及表面,省略了许多重要细节,旨在为普通读者提供概述。我们鼓励您通过研究这些模型所依据的研究论文,并从概率和统计的角度更多地了解它们的工作原理,继续了解这些模型背后的数学和科学。