零样本学习解释:无标签机器学习的未来
已发表: 2025-01-13零样本学习 (ZSL) 使模型能够对以前从未遇到过的概念进行分类或预测结果,从而彻底改变了机器学习 (ML),这标志着与需要大量标记数据的传统方法的背离。本指南探讨了 ZSL 的工作原理、应用、它与少样本学习 (FSL) 的比较,以及它的挑战和未来潜力。
目录
- 什么是零样本学习?
- 零样本学习如何运作
- 零样本学习与少样本学习和一次性学习
- 零样本学习与零样本提示
- 零样本学习的应用
- 零样本学习的好处
- 零样本学习的挑战
什么是零样本学习(ZSL)?
ZSL 允许机器学习模型对看不见的类别进行预测,而无需针对这些类别进行特定的训练示例。与传统的监督学习模型不同,传统的监督学习模型严重依赖标记数据集,其中每个类别都必须明确表示,而 ZSL 利用辅助信息(例如语义嵌入或属性)来概括知识。
例如,经过训练对动物进行分类的监督学习模型需要标记“狗”、“猫”和“斑马”的示例来识别它们,而经过动物图像训练的 ZSL 模型可以根据“”等描述性属性来识别斑马。条纹”和“像马一样”,即使没有接触过之前的例子。这使得 ZSL 对于涉及大型、未标记数据集的任务或收集标记数据不切实际的情况特别有用。其应用涵盖计算机视觉、自然语言处理 (NLP)、机器人技术等。
零样本学习如何运作
ZSL 模型首先在大型标记数据集上进行预训练,以创建知识库。该模型从标记数据中提取辅助信息,包括颜色、形状和情感等特征。
然后,它使用这些功能来映射已见和未见的数据类别(或类)之间的语义关系。这个过程被称为知识转移,例如,ZSL 模型可以理解鸭子和鹅是相关的,因为它们都有喙、羽毛和有蹼的脚。
最常见的技术是基于属性的 ZSL、基于语义嵌入的 ZSL 和广义 ZSL。下面,我们逐一进行分析。
基于属性的零样本学习
基于属性的 ZSL 模型最常用于计算机视觉任务。他们通过对人类标记的图像数据集进行训练来工作。标签由个人标签认为有用的属性组成。对于每张图像,人们都会应用其特征的文本描述,例如颜色、形状或其他特征。
例如,在图像分类中,“灰色”、“四足”和“狗”等属性可能描述不同的类别。通过训练,模型学习将这些属性与特定类别相关联。
当您向模型展示新事物的示例(例如它以前从未见过的动物类型)时,它可以确定它正在查看的类别是否与训练中看到的类别相似但不相同。
当模型遇到看不见的类别(例如狼)时,它可以通过分析与学习类别共享的属性来推断类别,即使“狼”标签并未明确包含在训练中。这些人类可解释的属性提高了可解释性,并使模型能够推广到新的类别。
基于语义嵌入的零样本学习
这种方法类似于基于属性的 ZSL,但模型不是人类为训练创建属性标签,而是生成训练数据的语义嵌入。这些语义嵌入被编码为向量(表示现实世界对象的数学方式),然后映射到嵌入空间中。
嵌入空间允许模型通过将相关信息更紧密地分组来组织其上下文知识。例如,由于共享语义特征,“狗”和“狼”类别在嵌入空间中比“狗”和“鸟”类别彼此更接近。这类似于大型语言模型 (LLM) 使用语义嵌入来对同义词进行聚类,因为同义词的含义相似。
当模型被赋予未见过的类别(另一种说法是“模型以前没有遇到过的新数据”)时,它将来自这些新类的向量投影到相同的嵌入空间中,并测量它们与它已经知道的类的向量之间的距离关于。这为未见过的示例提供了模型上下文,并允许其推断已知类和未知类之间的语义关系。
广义零样本学习
大多数零样本学习技术都会在一种数据上训练模型,然后将其应用于不同但相关的问题。这就是“零镜头”的想法:模型在实际遇到新类之前不会接触到任何新类的示例。
然而,现实世界的应用程序并不总是那么黑白分明。您希望 ZSL 模型分类的数据集可能包含已知类别和新类别的内容。
问题在于,如果将新类别和熟悉类别混合在一起,传统的 ZSL 模型有时会表现出强烈的偏见,将新类别错误地标记为它已经知道的事物。因此,拥有一个可以泛化到可能包含训练中已经看到的类的数据集的 ZSL 模型很有用。
在广义 ZSL 中,模型采取了额外的步骤来减少对已知类别的偏差。在执行分类之前,它首先确定所讨论的对象属于已知类别还是未知类别。
零样本学习与少样本学习和一次性学习
与 ZSL 一样,少样本学习 (FSL) 和单样本学习 (OSL) 使深度学习模型能够在使用最少或无需新数据的情况下执行新任务。所有三种方法都依赖于映射已知示例的特征之间的关系来推断未知示例中的模式。他们的主要目标是创建在数据稀缺或没有时间为特定任务训练新模型的现实场景中有效的模型。
主要区别在于它们处理新数据的方式:
- FSL涉及为模型提供少量标记示例以用于其需要识别的新类别。
- OSL是一种更具体的情况,其中模型仅显示新类的一个标记示例。
与 ZSL 相比,FSL 和 OSL 都需要额外的训练步骤,这增加了学习新任务所需的时间。然而,这种额外的训练使他们能够处理与模型预先训练的知识显着偏离的任务,使他们在实践中更具适应性。
虽然 ZSL 通常被视为“灵活”,因为它不需要新任务的标记示例,但这种灵活性很大程度上是理论上的。在实际应用中,ZSL 方法可能会遇到以下问题:
- 涉及混合看到和未见过的示例的任务(例如,广义的 ZSL 场景)
- 与模型训练数据有很大不同的任务
ZSL 模型对预训练和评估期间数据集如何分割等因素也很敏感,这可能会影响性能。另一方面,FSL和OSL通过将新的例子融入到学习过程中,为任务适应提供了更实际的灵活性,使它们能够在不同的场景中表现得更好。
零样本学习与零样本提示
ZSL 是一种专为各种深度学习任务而设计的模型架构。相比之下,零样本提示是指要求 ChatGPT 或 Claude 等法学硕士生成输出,而无需在提示中提供具体示例来指导其响应。在这两种情况下,模型执行任务时都没有明确说明任务所涉及内容的示例。
在零样本提示中,您不向模型提供与任务相关的任何示例。相反,您依靠法学硕士预先训练的知识来推断和执行任务。
例如,您可以输入餐厅评论的文本,并要求法学硕士将其分类为正面、中立或负面,而无需提供任何示例评论作为参考。法学硕士将利用其预培训来确定审查的适当标签。
虽然零样本学习和零样本提示共享在没有示例的情况下执行任务的概念,但有一个关键区别:
- 零样本学习是一种为此类任务构建的模型架构。
- 零样本提示是一种专门用于与 LLM 交互的技术,而不是模型架构。
零样本学习的应用
由于其专注于帮助深度学习模型适应新任务,ZSL 在 ML 的许多领域都有应用,包括计算机视觉、NLP 和机器人技术。 ZSL 可用于医疗保健、情感分析、客户服务、文档翻译和网络安全,例如:
- 情绪分析:当突发新闻发生时,零样本 NLP 模型可以对公众评论进行情绪分析,以近乎实时的方式了解公众的反应。
- 多语言文档处理:经过训练可以从英语税务文档中提取信息的 NLP 零样本模型可以对西班牙语税务文档执行相同的提取,而无需额外培训。
- 医疗诊断:ZSL 模型已用于在没有任何视觉示例的情况下识别 COVID-19 患者的 X 射线。这些识别是基于现场医生对 X 光检查呈阳性的情况进行的文字描述。
- 更细致的聊天机器人: ZSL NLP 模型可以理解他们以前在与人聊天时从未遇到过的俚语和习语,从而使他们能够更有意义地回答他们没有经过专门训练来处理的问题。
- 异常检测: ZSL 可用于网络安全,以检测网络活动中的异常模式或在新威胁出现时标记新类型的黑客攻击。
零样本学习的好处
考虑到所需的大型数据集、训练时间、资金和计算资源,传统的监督学习方法对于许多现实世界的应用来说通常是不切实际的。 ZSL 可以缓解其中一些挑战。好处包括降低与训练新模型相关的成本以及应对数据稀缺或尚不可用的情况:
具有成本效益的开发
获取和整理监督学习所需的大型标记数据集既昂贵又耗时。除了服务器、云计算空间和工程师的成本之外,在高质量标记数据集上训练模型可能会花费数万美元。
ZSL 允许机构在无需额外培训的情况下将模型重新用于新任务,从而有望降低 ML 项目的成本。它还允许较小的实体或个人重新利用其他人构建的模型。
解决数据稀缺的问题
ZSL 的灵活性使其成为可用数据很少或数据仍在不断涌现的情况的良好工具。例如,当信息尚未广泛传播时,它对于诊断新疾病很有用,或者对于信息快速发展的灾难情况很有用。当数据量太大而人类分析师无法处理时,ZSL 对于异常检测也很有用。
零样本学习的挑战
ZSL 在预训练阶段很大程度上依赖于高质量的训练数据,以充分理解类别之间的语义关系,从而推广到新的类别。如果没有高质量的数据,ZSL 可能会产生不可靠的结果,有时难以评估。
ZSL 模型面临的常见问题包括难以适应与其已训练的任务不同的任务,以及训练数据的问题导致其在预测未见过的类别时过于依赖某些标签。
领域适应
当被要求处理来自与其训练数据没有显着差异的领域的新数据时,ZSL 模型表现最佳。例如,如果模型是在静态照片上进行训练的,那么它将很难对视频进行分类。
ZSL模型依赖于将未知数据的辅助信息映射到已知数据,因此如果数据源差异太大,则模型无法将其知识泛化到新任务。
枢纽问题
当模型在对未见过的类别进行预测时开始仅使用几个标签时,ZSL 中就会出现中心问题。当嵌入特征空间中的许多点聚集在一起,形成“中心”,使模型偏向特定标签时,就会发生这种情况。
发生这种情况的原因可能是训练数据中存在噪声、某些数据的示例过多而其他数据的示例不足,或者因为模型的语义嵌入不够清晰。