无监督学习:它是什么以及它是如何工作的
已发表: 2024-07-03揭开无监督学习的神秘面纱,这是一种革命性的技术,使机器能够成为自主数据分析师,无需人工干预即可提取有价值的见解。
目录
- 什么是无监督学习?
- 无监督学习与监督学习
- 无监督学习如何运作
- 无监督学习的类型
- 无监督学习的应用
- 无监督学习的优点
- 无监督学习的缺点
什么是无监督学习?
无监督学习是一种机器学习 (ML),它可以自行发现数据中的模式和关系。“无监督”一词意味着该模型使用未标记的数据,这意味着它不会从人类那里得到关于要寻找什么的指示,甚至没有得到关于它正在寻找什么的指导。 相反,它使用算法来评估数据集并查找相关性、相似性、差异性以及其他使用数学描述数据的方法。
机器学习是人工智能 (AI) 的一个子集,它使用数据和统计方法来构建模仿人类推理的模型,而不是依赖于硬编码指令。 无监督学习采用探索性、数据驱动的方法从大型数据集中得出结论,例如按共同特征对实体进行分组或查找哪些数据点倾向于同时出现,这可能表现为对常绿树和落叶树的图片进行排序,或者发现观看《芝麻街》的人也可能会观看《丹尼尔·泰格》。
无监督学习与监督学习
与无监督方法相比,监督学习使用标记数据将输入与正确的输出配对。 相反,无监督学习没有供模型直观的输入和输出,只有可供分析的数据。
标签提供了模型学习过程的所谓监督,引导模型根据给定的输入进行逆向工程以获得正确的答案。 当您拥有模型可以针对并推断的此类数据时,使用监督学习是有意义的,包括:
- 是或否决定,例如垃圾邮件或欺诈检测
- 分类,例如识别图像中的对象或语音识别
- 预测,例如房价或天气
相比之下,无监督学习并不是为了得出正确的答案,而是为了寻找数据中的模式或分组。 三个主要应用是:
- 聚类,例如客户细分或文档分组
- 关联,例如推荐引擎或安全异常
- 降维,通常用于压缩大型数据集以使它们更易于管理
机器学习不仅限于有监督或无监督的方法; 这些只是一个范围的两端。 其他类型的机器学习方法包括半监督学习、强化学习和自监督学习。
无监督学习如何运作
无监督学习在概念上很简单:算法处理大量数据以确定各个数据点的关联方式。 由于数据未标记,无监督学习没有背景或目标。 它只是试图找到模式和其他特征。
以下是无监督学习过程的简要概述:
1数据收集和清理。无监督学习一次评估一张表,因此如果您有多个数据集,则必须仔细合并它们。 尽你所能整理数据也很重要,例如删除重复项和更正错误。
2特征缩放。无监督算法可能会因大范围而出现偏差,因此请考虑使用以下技术将特征转换为更小的范围:
- 标准化:将最高值转换为 1,将最低值转换为 0,将其他值转换为小数。
- 标准化:指定平均值为0,标准差为1,并对每个数据点进行相应调整。
- 对数变换:压缩大范围,因此对于以 10 为底的对数,100,000 变为 6,1,000,000 变为 7。
3算法选择。每种类型的无监督学习都有多种算法,每种算法都有优点和缺点(我们将在下一节中介绍它们)。 您可以选择将不同的算法应用于同一数据集并进行比较。
4模式发现和识别。所选算法开始工作。 这可能需要几秒钟到几小时,具体取决于数据集的大小和算法的效率。 如果您有一个大型数据集,您可能希望在处理整个数据集之前在一个子集上运行算法。
5解释。在这个阶段,是人类接管的时候了。 数据分析师可以使用图表、抽查和各种计算来分析和解释数据。
6申请。一旦您确信自己获得了有用的结果,就可以使用它。 稍后我们将讨论无监督学习的一些应用。
无监督学习的类型
无监督学习有多种类型,但最广泛使用的三种是聚类、关联规则和降维。
聚类
聚类创建数据点组。 它对于捆绑彼此相似的项目非常有用,以便稍后可以通过人工分析对它们进行分类。 例如,如果您有一个包含客户年龄和平均交易金额的数据集,它可能会找到可以帮助您决定将广告资金投放到何处的集群。
聚类的类型包括:
- 独占或硬聚类。每个数据点只能属于一个簇。 一种称为 k-means 的流行方法允许您指定要创建的集群数量,尽管其他方法可以确定最佳集群数量。
- 重叠或软聚类。 这种方法允许数据点位于多个集群中,并且在每个集群中具有一定的“程度”的成员资格,而不是纯粹的进出。
- 层次聚类。 如果是自下而上进行的,则称为层次凝聚聚类(HAC); 自顶向下称为分裂聚类。 两者都涉及大量组织成越来越大的集群。
- 概率聚类。 这是一种不同的方法,可以计算出任何给定数据点属于任何类别的可能性百分比。 这种方法的一个优点是,它可以为某个数据点分配属于给定集群的非常低的概率,这可能会突出显示异常或损坏的数据。
协会规则
这种方法也称为关联规则挖掘或关联规则学习,可以发现数据点之间有趣的关系。 关联规则最常见的用途是找出哪些商品经常一起购买或使用,以便模型可以建议下一个要购买或要观看的商品。
关联规则的三个核心概念是:
- 支持。A 和 B 一起被发现的频率占所有可用实例(例如事务)的百分比是多少? A 和 B 可以是单独的项目或代表多个项目的集合。
- 信心。 如果看到 A,同时也会看到 B,这种情况的出现频率是多少?
- 举起。 与没有相关性的情况相比,A 和 B 被同时看到的可能性有多大? 提升度是衡量一个关联的“有趣程度”的标准。
降维
降维对应于表中的列数。 在这种情况下,列的其他术语是特征或属性。 随着数据集中特征数量的增加,分析数据并获得最佳结果变得更具挑战性。
高维数据需要更多的时间、计算能力和精力来处理。 它还可能导致不合格的输出。 一个特别有害的例子是过度拟合,机器学习模型倾向于从训练数据的细节中学习太多,而牺牲了能够很好地推广到新数据的更广泛的模式。
降维算法通过将原始数据压缩为更小、更易于管理的版本来创建简化的数据集,并保留最重要的信息。 他们的工作方式是合并相关特征并注意到总体趋势的变化,有效地减少列数而不丢失关键细节。
例如,如果您有一个有关酒店及其设施的数据集,该模型可能会发现许多特征与星级相关,因此它可以将水疗中心、客房服务和 24 小时接待等属性压缩到单个列中。
通常,工程师将降维作为预处理步骤,以提高其他过程的性能和结果,包括但不限于聚类和关联规则学习。
无监督学习的应用
一些例子包括:
- 市场篮子分析。零售商大量使用关联规则。 例如,如果您将热狗放入杂货店购物车,它可能会建议您购买番茄酱和热狗面包,因为其他购物者发现这些组合的销量很高。 同样的数据也可能导致他们在超市里将番茄酱和热狗放在一起。
- 推荐引擎。 这些会查看您的个人数据(人口统计和行为模式),并将其与其他人的数据进行比较,以猜测您接下来可能喜欢购买或观看的内容。 他们可以使用三种类型的无监督学习:聚类来确定哪些其他客户的模式可能会预测您的模式,关联规则来查找某些活动或购买之间的相关性,以及降维以使复杂的数据集更易于处理。
- 客户细分。 虽然营销人员几十年来一直将受众分为指定类别,但无监督聚类可以挑选出任何人可能没有想过的分组。 这种方法允许基于行为的分析,并可以帮助团队以新的方式定位消息传递和促销。
- 异常检测。由于无监督学习非常擅长理解模式,因此通常用于在出现异常情况时发出警报。 用途包括标记欺诈性信用卡购买、表中损坏的数据以及金融市场中的套利机会。
- 语音识别。对于计算机来说,解析语音很复杂,因为它们必须应对背景噪音、口音、方言和声音。 除了过滤背景噪声和其他增强功能之外,无监督学习还可以帮助语音识别引擎了解哪些声音与哪些音素(语音单位)相关以及哪些音素通常一起听到。
无监督学习的优点
- 人工参与度低。 一旦无监督学习系统被证明是可靠的,除了确保输入和输出正确路由之外,运行它只需付出很少的努力。
- 适用于原始数据。 无需提供标签,即指定给定输入应产生什么输出。 在处理大量未触及的数据时,这种即时处理数据的能力非常有价值。
- 隐藏模式发现。 除了寻找模式之外没有任何目标或议程,无监督学习可以将您引向“未知的知识”,即基于您之前未考虑过但一旦呈现就有意义的数据得出的结论。 这种方法对于大海捞针特别有用,例如分析 DNA 找出细胞死亡的原因。
- 数据探索。 通过降低维度并寻找模式和聚类,无监督学习使分析师能够在理解新颖数据集方面取得先机。
- 增量训练。 许多无监督模型可以边学习边学习:随着更多数据的输入,它们可以根据已经发现的内容来评估最新的输入。 这需要更少的时间和计算工作。
无监督学习的缺点
- 你需要大量数据。 如果仅使用有限的示例进行训练,无监督学习很容易出现严重错误。 它可能会发现数据中的模式在现实世界中不成立(过度拟合),面对新数据会发生巨大变化(不稳定),或者没有足够的信息来确定任何有意义的信息(有限的模式发现)。
- 可解释性低。 可能很难理解为什么算法(例如聚类逻辑)会得出特定的结论。
- 误报。 无监督模型可能会过多地读取异常但不重要的数据点,而没有标签来告诉它什么是值得关注的。
- 很难系统评价。由于没有“正确”的答案可以与之比较,因此没有直接的方法来衡量输出的准确性或效用。 通过对相同的数据运行不同的算法可以在一定程度上缓解这个问题,但最终,质量的衡量将在很大程度上是主观的。