监督学习:它是什么以及它如何运作
已发表: 2024-07-03从图像识别到垃圾邮件过滤,在这本内容丰富的指南中,了解监督学习如何为我们每天遇到的许多人工智能应用提供支持。
目录
- 什么是监督学习?
- 监督学习与无监督学习
- 监督学习如何运作
- 监督学习的类型
- 监督学习的应用
- 监督学习的优点
- 监督学习的缺点
什么是监督学习?
监督学习是机器学习 (ML) 的一种,它使用标有正确答案的数据来训练模型。术语“监督”意味着这些标签为输入和输出之间的关系提供了明确的指导。此过程有助于模型对新的、未见过的数据做出准确的预测。
机器学习是人工智能 (AI) 的一个子集,它使用数据和统计方法来构建模仿人类推理的模型,而不是依赖于硬编码指令。监督学习采用引导式、数据驱动的方法来识别标记数据集中的模式和关系。它根据评估进行推断,以预测新的、未见过的数据的结果。它通过将其预测与已知标签进行比较并调整其模型以最大程度地减少错误来进行学习。
监督学习与无监督学习
与使用标记数据的监督学习相反,无监督学习在未标记数据中发现模式。
如果没有训练数据中明确的正确答案提供的“监督”,无监督学习会将其看到的所有内容都视为数据来分析模式和分组。三种主要类型是:
- 聚类:此技术对彼此最相邻的数据点进行分组。它对于客户细分或文档排序很有用。
- 关联:确定事物何时会同时发生,最值得注意的是,将经常一起购买的物品放在一起或建议接下来要播放的内容。
- 降维:缩小数据集以使其更易于处理,同时保留全部或大部分细节。
另一方面,当您希望模型做出决策时,监督学习就有意义。主要应用包括:
- 是或否决策:将数据标记为一类或另一类。通常用于过滤垃圾邮件或欺诈检测。
- 分类:找出某物属于哪几个类别,例如识别图像中的对象或识别语音。
- 回归:根据历史数据预测连续值,例如预测房价或天气状况。
其他类型的机器学习介于这两者之间:半监督学习、强化学习和自监督学习。
监督学习如何运作
监督学习涉及选择和格式化数据、运行模型以及测试其性能的结构化过程。
以下是监督学习过程的简要概述:
1标记:标记数据对于学习输入和输出之间的正确关联至关重要。例如,如果您要创建一个模型来分析产品评论中的情绪,请首先让人类评估员阅读评论并将其标记为正面、负面或中立。
2数据收集和清理:确保您的训练数据全面且具有代表性。通过删除重复项、更正错误和处理任何缺失值来清理数据,为分析做好准备。
3特征选择和提取:识别和选择最有影响力的属性,使模型更加高效和有效。此步骤还可能涉及从现有特征创建新特征,以更好地捕获数据中的潜在模式,例如将出生日期转换为年龄。
4数据分割:将数据集分为训练集和测试集。使用训练集来训练模型,并使用测试集来查看它对新的、未见过的数据的推广效果如何。
5算法选择:根据任务和数据特征选择监督学习算法。您还可以运行并比较多种算法以找到最佳的一种。
6模型训练:利用数据训练模型,提高预测精度。在此阶段,模型通过迭代最小化其预测与训练数据中提供的实际标签之间的误差来学习输入和输出之间的关系。根据算法的复杂性和数据集的大小,这可能需要几秒钟到几天的时间。
7模型评估:评估模型的性能可确保其对新数据产生可靠且准确的预测。这是与无监督学习的一个关键区别:由于您知道预期输出,因此您可以评估模型的执行情况。
8模型调整:调整和重新训练模型的参数以微调性能。这个迭代过程称为超参数调整,旨在优化模型并防止过度拟合等问题。每次调整后应重复此过程。
9部署和监控:部署经过训练的模型以对现实环境中的新数据进行预测。例如,部署经过训练的垃圾邮件检测模型来过滤电子邮件、监控其性能并根据需要进行调整。
10随着时间的推移进行微调:当您收集更多的真实数据时,继续训练模型以变得更加准确和相关。
监督学习的类型
监督学习有两种主要类型:分类和回归。每种类型都有自己的子类型和特定用例。让我们更详细地探讨它们:
分类
分类涉及预测输入属于哪个类别或类。各种子类型和概念用于处理不同的分类问题。以下是一些流行的类型:
- 二元分类:模型预测两个可能类别之一。当结果是二元时(这意味着只有两种可能的状态或类别),这非常有用。这种方法用于需要明确区分的决策。
- 多类分类:类似于二元分类,但有两种以上的选择,且只有一个正确答案。当输入可以属于多个类别时,使用此方法。
- 多标签分类:每个输入可以同时属于多个类。与每个输入分配给单个类别的二元或多类分类不同,多标签分类允许将多个标签分配给单个输入。这是一个更复杂的分析,因为您需要确定包含的概率阈值,而不是仅仅选择输入最有可能属于哪个类。
- 逻辑回归:回归(见下文)在二元分类中的应用。这种方法可以告诉您其预测的置信度,而不是简单的这样或那样。
有多种方法可以衡量分类模型的质量,包括:
- 准确性:总共有多少预测是正确的?
- 精确度:有多少阳性结果实际上是阳性的?
- 回想一下:有多少实际阳性被标记为阳性?
- F1 分数:在 0% 到 100% 的范围内,模型平衡精度和召回率的情况如何?
回归
回归涉及根据输入特征预测连续值,输出也可以称为预测的数字。各种类型的回归模型用于捕获这些输入特征和连续输出之间的关系。以下是一些流行的类型:
- 线性回归:将输入特征和输出之间的关系建模为直线。该模型假设因变量(输出)和自变量(输入)之间存在线性关系。目标是找到通过数据点的最佳拟合线,以最小化预测值和实际值之间的差异。
- 多项式回归:比线性回归更复杂,因为它使用多项式(例如平方和立方)来捕获输入和输出变量之间更复杂的关系。该模型可以通过使用这些高阶项来拟合非线性数据。
- 岭回归和套索回归:解决过度拟合的问题,过度拟合是模型以牺牲泛化为代价读取过多训练数据的倾向。岭回归降低了模型对小细节的敏感性,而套索回归则消除了不太重要的特征。
大多数回归质量的测量都与预测与实际值的偏差有关。他们回答的问题是:
- 平均绝对误差:平均而言,预测值与实际值相差多少?
- 均方误差:当误差越大越显着时,误差会增长多少?
- 均方根误差:大误差会导致预测值与实际值的偏差有多大?
- R 平方:回归与数据的拟合程度如何?
监督学习的应用
监督学习在各个行业都有广泛的应用。以下是一些常见示例:
- 垃圾邮件检测:电子邮件服务使用二进制分类来决定电子邮件是否应该进入您的收件箱或被路由到垃圾邮件。他们不断改进以响应人们将垃圾邮件文件夹中的电子邮件标记为非垃圾邮件,反之亦然。
- 图像识别:模型在标记图像上进行训练以识别和分类对象。例如,Apple 的 Face ID 功能(可解锁平板电脑或移动设备)、光学字符识别 (OCR)(将印刷文字转换为数字文本)以及自动驾驶汽车的物体检测。
- 医疗诊断:监督模型可以使用患者数据和医疗记录来预测疾病并提出潜在的诊断建议。例如,可以训练模型来识别 MRI 中的癌性肿瘤或制定糖尿病管理计划。
- 欺诈检测:金融机构使用监督学习通过分析标记交易数据中的模式来识别欺诈交易。
- 情绪分析:无论是测量积极或消极的反应或情绪(例如快乐或厌恶),手动标记的数据集都会通知模型解释社交媒体帖子、产品评论或调查结果等输入。
- 预测性维护:根据历史性能数据和环境因素,模型可以预测机器何时可能发生故障,以便在故障发生之前进行维修或更换。
监督学习的优点
- 准确且可预测。假设他们获得了良好的数据,监督学习模型往往比其他机器学习方法更准确。更简单的模型通常是确定性的,这意味着给定的输入将始终产生相同的输出。
- 目标明确。感谢监督,您知道您的模型想要实现什么目标。这与无监督学习和自监督学习形成了鲜明的对比。
- 易于评估。您可以使用多种质量衡量标准来判断分类和回归模型的准确性。
- 可解释的。监督模型使用回归和决策树等技术,这些技术对于数据科学家来说相对简单易懂。可解释性提高了决策者的信心,尤其是在高影响力的环境和受监管的行业。
监督学习的缺点
- 需要标记数据。您的数据必须有清晰的输入和标签。这对于分类训练来说通常是一个挑战,因为有成千上万(如果不是数百万人)的人需要手动注释数据。
- 训练数据中的错误和判断不一致。人类标签带来了人类的谬误,例如错误、拼写错误和不同的意见。后者是情感分析中特别具有挑战性的一个方面;高质量的情感训练数据通常需要多人评估给定的数据点,只有在达成一致的情况下才记录结果。
- 过度拟合。通常,模型会提出对于训练数据非常有效的计算,但对于尚未见过的数据则效果不佳。细心的培训师总是会寻找过度拟合的情况并使用技术来减少影响。
- 仅限于已知模式。如果你的股价预测模型仅基于牛市的数据,那么一旦熊市来袭,它就不会很准确。因此,请对模型所显示的数据的局限性保持敏感,并考虑是否寻找能够使其暴露于更多环境的训练数据,或者只是忽略其输出。