少样本学习解释:用最少的数据改变人工智能

已发表: 2025-01-13

与需要大量数据集的传统方法不同,小样本学习 (FSL) 正在改变机器学习 (ML),使模型能够从少数示例中学习并生成准确的输出。本指南探讨了 FSL 的工作原理、应用、与零样本学习 (ZSL) 的比较及其挑战和潜力。

目录

  • 什么是小样本学习?
  • 少样本学习与少样本提示:有什么区别?
  • 少样本学习如何运作
  • 小样本学习与零样本学习
  • 少样本学习的应用
  • 少样本学习的好处
  • 少样本学习的挑战

什么是少样本学习(FSL)?

少样本学习 (FSL) 是指一系列 ML 技术,旨在创建适应性强的模型,这些模型能够在仅对每个类别的几个标记示例进行训练后生成准确的输出。当每个类别只有一个标记示例可用时,称为一次性学习。例如,现代智能手机利用 FSL 只需几张照片甚至一张照片即可识别用户的脸部。

FSL 特别有价值,因为它允许 ML 模型解决数据稀缺的问题,就像现实世界中经常出现的情况一样。 FSL 模型还可以处理比传统监督学习模型更广泛的任务,因为它们可以学习泛化。这可以节省资源,因为使 FSL 模型适应新任务通常比从头开始训练全新模型更便宜、更快。 FSL 通常被描述为通过学习从少数示例中进行抽象来教导 ML 模型更像人类“思考”。

FSL 通常用于计算机视觉应用,但也部署在机器人和自然语言处理 (NLP) 中。例如,FSL 已被用来翻译古代苏美尔文本——鉴于苏美尔语言专家供不应求,这是一项有用的任务。苏美尔翻译器 FSL 模型学会了如何从一小部分高质量的楔形文字板样本中进行翻译。然后,他们准确地翻译了大量不熟悉的文本,供学者分析。

使用 Grammarly 更智能地工作
任何有工作要做的人的人工智能写作伙伴

少样本学习与少样本提示:有什么区别?

FSL 和少样本提示是 ML 和 NLP 中的相关概念,但它们有不同的用途。

少样本学习

FSL 是一种模型训练技术,可教会模型对看不见的数据进行分类。它的工作原理是利用先验知识调整模型参数以适应新型分类任务。 FSL 与监督学习相关,但不同之处在于 FSL 模型是在更有限的数据集上进行训练的。

少镜头提示

Few-shot 提示是一种使用大型语言模型 (LLM) 的方法。它使用上下文学习——一种模型使用提示中的信息(例如格式和情绪)来预测输出的学习类型。与 FSL 和传统的监督学习不同,few-shot 提示不涉及更改 LLM 的参数。当您使用少量提示时,您可以向法学硕士提供您正在寻找的响应类型的几个示例。与 FSL 一样,few-shot 提示是通过向模型展示一些类似任务的示例来帮助模型进行泛化。

少样本学习如何运作

小样本学习涉及两个阶段:首先,在通用数据集上对模型进行预训练以了解世界。然后它们进行任务适应,模型学习如何从小数据样本中进行概括。

预训练

大多数 FSL 模型的第一阶段从大型标记数据集上的预训练开始,就像监督学习一样。该模型对此数据集执行特征提取,并通过开发有关数据中模式和关系的知识库来学习对示例进行分类。

任务适应

预训练后,FSL 的下一阶段是训练模型以泛化到新的分类任务。这称为任务适应,发生在多个训练阶段。

在每一集中,都有一个由两到五个示例组成的支持集供模型研究,以及一个包含未见过目标的查询集供模型尝试分类。这个框架被称为N-way K-shot分类,其中N指类别(称为类别)的数量, K指每个类别的标记示例(镜头)的数量。

所有FSL模型都是为了实现任务适应而设计的。在 FSL 技术集中,最重要和最令人兴奋的研究领域之一是元学习。

元学习方法

元学习涉及将模型暴露于与模型最初训练要解决的分类任务类似或相关的任务。它只获取每个新任务的几个示例,但从这些示例中,它通过开发一个元框架来学习泛化,以便在遇到任何不熟悉的任务时做什么。

从广义上讲,元学习有三种方法:

  1. 基于优化的学习:这包括训练模型以快速改进其参数的方法。其中一些使用两阶段过程,其中学习器接受特定任务的训练,然后元学习器使用学习器阶段的损失函数来改进下一个任务的模型参数。
  2. 度量级学习:度量学习主要用于计算机视觉任务,其工作原理是将提取的特征映射到嵌入空间中,并使用映射上特征之间的距离来输出两个图像相似的概率。
  3. 与模型无关的元学习 (MAML):在 MAML 中,训练过程的目标是减少优化模型参数所需的梯度步骤数,无论任务如何。 MAML 分析任务的学习过程,推断该过程的工作模式,并开发充当捷径的模型,从而加快它看到的每个新任务的学习过程。

随着研究人员设计新方法来帮助模型变得适应性强,使用元学习技术的模型架构列表一直在增长。

非元学习方法

还有不使用元学习的 FSL 和 FSL 相邻方法。 FSL 有时与这些技术一起部署以创建混合方法:

  • 迁移学习:该方法涉及采用预先训练的模型并微调神经网络的外层。在您希望模型执行的任务与其已训练的任务接近的情况下,迁移学习更有用。
  • 数据增强: FSL 可以通过数据增强得到增强,这涉及使用有限的数据作为基础,使用生成对抗网络 (GAN) 或变分自动编码器创建合成数据,以增加训练集的样本数量。

小样本学习与零样本学习

少样本学习(或单样本学习)通常用于训练模型的数据有限但高质量的场景。但如果您根本没有高质量数据怎么办?在零样本学习(ZSL)中,您不给模型提供任何示例,而是要求它仅依赖先验知识和语义嵌入来处理不熟悉的任务。

ZSL 提供快速、灵活的解决方案,用于处理数据很少的情况。然而,ZSL 模型可能会遇到域转移问题,这意味着如果它们看到的数据类型与知识库差异太大,它们可能会遇到困难,而且很难评估模型的性能。

少样本学习的应用

FSL 的应用范围广泛且不断发展,但在可用示例相对较少的领域,它具有巨大的应用潜力。最近的一些用例研究领域包括:

  • 医学诊断: FSL 可以帮助基于图像的肿瘤分类,而传统的监督学习模型没有足够的标记数据来提供帮助。
  • 遥感: FSL 可以加快遥感任务的速度,例如使用无人机镜头来评估环境灾难的影响。
  • F1 赛车原型制作:FSL 模型根据流体动力学、空气动力学以及其他数据对数百辆赛车在数千场比赛中进行了预先训练。然后,他们根据少量昂贵的试运行,使用 FSL 来预测新车原型的空气动力学和零件退化。
  • 机器翻译: FSL 帮助构建了更高效的机器翻译器,它只需要很少的输入,就能以前所未有的准确度捕捉方言和地区差异的细微差别。
  • 机器人技术: FSL 被用来教机器人通过观看人类演示来学习抓取物体。
  • 情感分析:最初针对酒店评论训练的 FSL 模型可用于对餐厅评论进行分类。

FSL 也是构建通用人工智能的一部分,因为它更接近地模仿人类解决问题的方式。

少样本学习的好处

FSL 模型的主要优点是它们可以处理可用数据有限的问题,并且可以帮助减少训练新模型所需的计算和财务资源。

用有限的数据进行概括

FSL 模型可以做到这一点,因为它们不会通过多次迭代来记忆图像、声音或语言。相反,他们学会快速分析相似点和差异。尽管传统模型擅长执行高度具体的任务,例如识别特定鸟类或匹配指纹,但一旦您要求它们完成任何其他任务,它们就会失败。

使用更少的资源

MAML 等技术是使用模型训练资源的更有效方法。它们允许非常昂贵的大型模型快速有效地适应特定的用例,而无需昂贵的重新训练步骤。机器学习的一大挑战是需要多少数据来训练模型以产生有用的输出,无论是在编译大型、高质量数据集还是需要多少时间和计算方面。 FSL 有望解决许多数据稀缺或跨领域的现实问题。

少样本学习的挑战

尽管 FSL 前景广阔,但它也面临着阻碍模型有效性的挑战。

过拟合

使用有限的数据集可能会导致过度拟合,即模型与其训练集中的数据过于紧密地对齐并且难以泛化。这是 ML 中的一个常见问题,与其他 ML 方法相比,FSL 更容易出现此问题。过度拟合的 FSL 模型在测试数据上表现良好,但在呈现真实示例时无法识别新类别。为了防止这种情况发生,用于小样本训练的有限样本具有多样性非常重要。上面讨论的数据增强试图通过合成更多的训练示例来减轻过度拟合。

数据质量

预训练和小样本学习阶段的高质量数据都很重要。 FSL 模型更容易受到噪声、标记不良的数据的阻碍。当数据中有太多一种类型而不是另一种类型或者有太多特征可供模型分析时,它们也表现不佳;在这些情况下,它们往往会变得过于复杂。研究人员有时可以通过使用正则化技术来解决这些问题,这些技术是平滑数据的方法,以帮助模型找出要注意的内容和要忽略的内容。