无监督学习：它是什么以及它是如何工作的

已发表: 2024-07-03

揭开无监督学习的神秘面纱，这是一种革命性的技术，使机器能够成为自主数据分析师，无需人工干预即可提取有价值的见解。

什么是无监督学习？
无监督学习与监督学习
无监督学习如何运作
无监督学习的类型
无监督学习的应用
无监督学习的优点
无监督学习的缺点

什么是无监督学习？

无监督学习是一种机器学习 (ML)，它可以自行发现数据中的模式和关系。“无监督”一词意味着该模型使用未标记的数据，这意味着它不会从人类那里得到关于要寻找什么的指示，甚至没有得到关于它正在寻找什么的指导。相反，它使用算法来评估数据集并查找相关性、相似性、差异性以及其他使用数学描述数据的方法。

机器学习是人工智能 (AI) 的一个子集，它使用数据和统计方法来构建模仿人类推理的模型，而不是依赖于硬编码指令。无监督学习采用探索性、数据驱动的方法从大型数据集中得出结论，例如按共同特征对实体进行分组或查找哪些数据点倾向于同时出现，这可能表现为对常绿树和落叶树的图片进行排序，或者发现观看《芝麻街》的人也可能会观看《丹尼尔·泰格》。

使用 Grammarly 更智能地工作

任何有工作要做的人的人工智能写作伙伴

无监督学习与监督学习

与无监督方法相比，监督学习使用标记数据将输入与正确的输出配对。相反，无监督学习没有供模型直观的输入和输出，只有可供分析的数据。

标签提供了模型学习过程的所谓监督，引导模型根据给定的输入进行逆向工程以获得正确的答案。当您拥有模型可以针对并推断的此类数据时，使用监督学习是有意义的，包括：

是或否决定，例如垃圾邮件或欺诈检测
分类，例如识别图像中的对象或语音识别
预测，例如房价或天气

相比之下，无监督学习并不是为了得出正确的答案，而是为了寻找数据中的模式或分组。三个主要应用是：

聚类，例如客户细分或文档分组
关联，例如推荐引擎或安全异常
降维，通常用于压缩大型数据集以使它们更易于管理

机器学习不仅限于有监督或无监督的方法；这些只是一个范围的两端。其他类型的机器学习方法包括半监督学习、强化学习和自监督学习。

无监督学习如何运作

无监督学习在概念上很简单：算法处理大量数据以确定各个数据点的关联方式。由于数据未标记，无监督学习没有背景或目标。它只是试图找到模式和其他特征。

以下是无监督学习过程的简要概述：

1数据收集和清理。无监督学习一次评估一张表，因此如果您有多个数据集，则必须仔细合并它们。尽你所能整理数据也很重要，例如删除重复项和更正错误。

2特征缩放。无监督算法可能会因大范围而出现偏差，因此请考虑使用以下技术将特征转换为更小的范围：

标准化：将最高值转换为 1，将最低值转换为 0，将其他值转换为小数。
标准化：指定平均值为0，标准差为1，并对每个数据点进行相应调整。
对数变换：压缩大范围，因此对于以 10 为底的对数，100,000 变为 6，1,000,000 变为 7。

3算法选择。每种类型的无监督学习都有多种算法，每种算法都有优点和缺点（我们将在下一节中介绍它们）。您可以选择将不同的算法应用于同一数据集并进行比较。

4模式发现和识别。所选算法开始工作。这可能需要几秒钟到几小时，具体取决于数据集的大小和算法的效率。如果您有一个大型数据集，您可能希望在处理整个数据集之前在一个子集上运行算法。

5解释。在这个阶段，是人类接管的时候了。数据分析师可以使用图表、抽查和各种计算来分析和解释数据。

6申请。一旦您确信自己获得了有用的结果，就可以使用它。稍后我们将讨论无监督学习的一些应用。

无监督学习的类型

无监督学习有多种类型，但最广泛使用的三种是聚类、关联规则和降维。

聚类

聚类创建数据点组。它对于捆绑彼此相似的项目非常有用，以便稍后可以通过人工分析对它们进行分类。例如，如果您有一个包含客户年龄和平均交易金额的数据集，它可能会找到可以帮助您决定将广告资金投放到何处的集群。

聚类的类型包括：

独占或硬聚类。每个数据点只能属于一个簇。一种称为 k-means 的流行方法允许您指定要创建的集群数量，尽管其他方法可以确定最佳集群数量。
重叠或软聚类。 这种方法允许数据点位于多个集群中，并且在每个集群中具有一定的“程度”的成员资格，而不是纯粹的进出。
层次聚类。 如果是自下而上进行的，则称为层次凝聚聚类（HAC）；自顶向下称为分裂聚类。两者都涉及大量组织成越来越大的集群。
概率聚类。 这是一种不同的方法，可以计算出任何给定数据点属于任何类别的可能性百分比。这种方法的一个优点是，它可以为某个数据点分配属于给定集群的非常低的概率，这可能会突出显示异常或损坏的数据。

协会规则

这种方法也称为关联规则挖掘或关联规则学习，可以发现数据点之间有趣的关系。关联规则最常见的用途是找出哪些商品经常一起购买或使用，以便模型可以建议下一个要购买或要观看的商品。

关联规则的三个核心概念是：

支持。A 和 B 一起被发现的频率占所有可用实例（例如事务）的百分比是多少？ A 和 B 可以是单独的项目或代表多个项目的集合。
信心。 如果看到 A，同时也会看到 B，这种情况的出现频率是多少？
举起。 与没有相关性的情况相比，A 和 B 被同时看到的可能性有多大？提升度是衡量一个关联的“有趣程度”的标准。

降维

降维对应于表中的列数。在这种情况下，列的其他术语是特征或属性。随着数据集中特征数量的增加，分析数据并获得最佳结果变得更具挑战性。

高维数据需要更多的时间、计算能力和精力来处理。它还可能导致不合格的输出。一个特别有害的例子是过度拟合，机器学习模型倾向于从训练数据的细节中学习太多，而牺牲了能够很好地推广到新数据的更广泛的模式。

降维算法通过将原始数据压缩为更小、更易于管理的版本来创建简化的数据集，并保留最重要的信息。他们的工作方式是合并相关特征并注意到总体趋势的变化，有效地减少列数而不丢失关键细节。

例如，如果您有一个有关酒店及其设施的数据集，该模型可能会发现许多特征与星级相关，因此它可以将水疗中心、客房服务和 24 小时接待等属性压缩到单个列中。

通常，工程师将降维作为预处理步骤，以提高其他过程的性能和结果，包括但不限于聚类和关联规则学习。

无监督学习的应用

一些例子包括：

市场篮子分析。零售商大量使用关联规则。例如，如果您将热狗放入杂货店购物车，它可能会建议您购买番茄酱和热狗面包，因为其他购物者发现这些组合的销量很高。同样的数据也可能导致他们在超市里将番茄酱和热狗放在一起。
推荐引擎。 这些会查看您的个人数据（人口统计和行为模式），并将其与其他人的数据进行比较，以猜测您接下来可能喜欢购买或观看的内容。他们可以使用三种类型的无监督学习：聚类来确定哪些其他客户的模式可能会预测您的模式，关联规则来查找某些活动或购买之间的相关性，以及降维以使复杂的数据集更易于处理。
客户细分。 虽然营销人员几十年来一直将受众分为指定类别，但无监督聚类可以挑选出任何人可能没有想过的分组。这种方法允许基于行为的分析，并可以帮助团队以新的方式定位消息传递和促销。
异常检测。由于无监督学习非常擅长理解模式，因此通常用于在出现异常情况时发出警报。用途包括标记欺诈性信用卡购买、表中损坏的数据以及金融市场中的套利机会。
语音识别。对于计算机来说，解析语音很复杂，因为它们必须应对背景噪音、口音、方言和声音。除了过滤背景噪声和其他增强功能之外，无监督学习还可以帮助语音识别引擎了解哪些声音与哪些音素（语音单位）相关以及哪些音素通常一起听到。

无监督学习的优点

人工参与度低。 一旦无监督学习系统被证明是可靠的，除了确保输入和输出正确路由之外，运行它只需付出很少的努力。
适用于原始数据。 无需提供标签，即指定给定输入应产生什么输出。在处理大量未触及的数据时，这种即时处理数据的能力非常有价值。
隐藏模式发现。 除了寻找模式之外没有任何目标或议程，无监督学习可以将您引向“未知的知识”，即基于您之前未考虑过但一旦呈现就有意义的数据得出的结论。这种方法对于大海捞针特别有用，例如分析 DNA 找出细胞死亡的原因。
数据探索。 通过降低维度并寻找模式和聚类，无监督学习使分析师能够在理解新颖数据集方面取得先机。
增量训练。 许多无监督模型可以边学习边学习：随着更多数据的输入，它们可以根据已经发现的内容来评估最新的输入。这需要更少的时间和计算工作。

无监督学习的缺点

你需要大量数据。 如果仅使用有限的示例进行训练，无监督学习很容易出现严重错误。它可能会发现数据中的模式在现实世界中不成立（过度拟合），面对新数据会发生巨大变化（不稳定），或者没有足够的信息来确定任何有意义的信息（有限的模式发现）。
可解释性低。 可能很难理解为什么算法（例如聚类逻辑）会得出特定的结论。
误报。 无监督模型可能会过多地读取异常但不重要的数据点，而没有标签来告诉它什么是值得关注的。
很难系统评价。由于没有“正确”的答案可以与之比较，因此没有直接的方法来衡量输出的准确性或效用。通过对相同的数据运行不同的算法可以在一定程度上缓解这个问题，但最终，质量的衡量将在很大程度上是主观的。