在机器学习中聚类：它是什么以及如何工作

已发表: 2025-02-03

聚类是数据分析和机器学习（ML）的强大工具，它提供了一种发现原始数据模式和见解的方法。本指南探讨了聚类的工作原理，推动它的算法，其多样化的现实应用程序及其主要优点和挑战。

机器学习中的聚类是什么？
聚类如何工作？
聚类算法
集群的现实应用应用
聚类的优势
聚类的挑战

机器学习中的聚类是什么？

聚类是ML中无监督的学习技术，可根据其相似性将数据点分组为群集。每个群集包含的数据点比其他集群中的点更相似。此过程有助于发现数据中的自然组或模式，而无需任何先验知识或标签。

在机器学习中聚类

例如，想象一下您收集了一些动物图像，一些猫和其他狗。聚类算法将分析每个图像（例如形状，颜色或纹理）的特征，并将猫的图像组合在一起，将猫的图像和另一个狗的图像组合在一起。重要的是，聚类没有分配“猫”或“狗”之类的明确标签（因为聚类方法实际上并不了解狗或猫是什么）。它只是识别分组，使您可以解释和命名这些集群。

用语法更聪明地工作

任何有工作的人的AI写作伙伴

聚类与分类：有什么区别？

经常比较聚类和分类，但有不同的目的。群集是一种无监督的学习方法，可与未标记的数据一起使用，以基于相似性识别自然组。相比之下，分类是一种有监督的学习方法，它需要标记的数据以预测特定类别。

聚类揭示了没有预定义标签的模式和组，使其非常适合探索。另一方面，分类将基于先前培训的新数据点分配给“猫”或“狗”等明确标签。这里提到的分类是为了突出显示其与聚类的区别，并帮助澄清何时使用每种方法。

聚类如何工作？

聚类标识数据集中类似数据点的组（或群集），从而帮助发现模式或关系。尽管特定算法可能以不同的方式接近聚类，但该过程通常遵循以下关键步骤：

步骤1：了解数据相似性

聚类的核心是一种相似性算法，可以测量相似的数据点。相似性算法根据它们用于量化数据点相似性的距离指标而有所不同。这里有一些例子：

地理数据：相似性可能基于物理距离，例如城市或位置的接近度。
客户数据：相似性可能涉及共同的偏好，例如花费习惯或购买历史。

常见的距离度量包括欧几里得距离（点之间的直线距离）和曼哈顿距离（基于网格的路径长度）。这些措施有助于定义应分组哪些点。

步骤2：分组数据点

一旦测量了相似之处，算法就将数据组织到群集中。这涉及两个主要任务：

识别组：该算法通过分组附近或相关数据点来找到簇。特征空间中更近的点可能属于同一集群。
精炼群集：算法迭代地调整了分组以提高其准确性，以确保群集中的数据点尽可能相似，同时最大化簇之间的分离。

例如，在客户细分任务中，初始分组可能会根据支出水平将客户划分，但是进一步的改进可能会显示出更多细微的细分市场，例如“频繁的讨价还价购物者”或“奢侈品买家”。

步骤3：选择集群数量

确定要创建多少个集群是过程的关键部分：

预定义集群：某些算法，例如K-均值，要求您指定前面的簇数。选择正确的数字通常涉及反复试验或视觉技术（例如“肘方法”），该技术基于群集分离中的回报减少来识别最佳群集数量。
自动聚类：其他算法，例如DBSCAN（基于密度的空间群集使用噪声），根据数据的结构自动确定群集数量，从而使它们更加灵活，以实现探索性任务。

聚类方法的选择通常取决于数据集以及您要解决的问题。

步骤4：硬与软聚类

聚类方法在将数据点分配给集群的方式上有所不同：

硬聚类：每个数据点仅属于一个群集。例如，客户数据可能被分为不同的细分市场，例如“低支出”和“高支出”，组之间没有重叠。
软聚类：数据点可以属于多个群集，并分配给每个群集。例如，在线和店内购物的客户可能部分属于两个集群，反映出混合的行为模式。

聚类算法将原始数据转换为有意义的组，帮助揭示隐藏的结构并洞悉复杂的数据集。虽然确切的细节因算法而异，但这个总体过程是了解聚类的工作原理的关键。

聚类算法

基于它们的相似性，将算法组数据点群集组数据点有助于揭示数据中的模式。聚类算法的最常见类型是基于质心，层次，基于密度和基于分布的聚类的类型。每种方法都有其优势，并且适合特定类型的数据和目标。以下是每种方法的概述：

基于质心的聚类

基于质心的聚类依赖于每个集群的代表中心，称为质心。目的是将数据点接近其质心分组，同时确保质心尽可能远。一个众所周知的例子是K-均值聚类，该聚类首先将质心随机放置在数据中。数据点分配给最近的质心，并将质心调整为分配点的平均位置。这个过程重复，直到质心不移动。当您知道要期望多少个集群时，K-均值效率很好，但是它可能会在复杂或嘈杂的数据中挣扎。

分层聚类

层次聚类构建了簇的特里利型结构。在最常见的方法（聚集聚类）中，每个数据点开始于一个点群集。将最接近彼此的群集重复合并，直到仅保留一个大集群为止。使用树状图（显示合并步骤的树图）可视化此过程。通过选择特定级别的树状图，您可以决定要创建多少个簇。层次聚类是直观的，不需要指定前面的簇数，但是对于大型数据集来说可能会很慢。

基于密度的聚类

基于密度的聚类集中在寻找数据点的密集区域，同时将稀疏区域视为噪声。 DBSCAN是一种广泛使用的方法，它基于两个参数识别簇：Epsilon（要视为邻居点的最大距离）和Min_points（形成密集区域所需的最小点）。 DBSCAN不需要提前定义簇的数量，从而使其灵活。它在嘈杂的数据方面表现良好。但是，如果未仔细选择两个参数值，则结果群集可能毫无意义。

基于分布的聚类

基于分布的聚类假设数据是从概率分布描述的重叠模式中生成的。高斯混合物模型（GMM），每个簇都以高斯（钟形）分布表示，是一种常见的方法。该算法计算属于每个分布的每个点的可能性，并调整簇以更好地拟合数据。与硬聚类方法不同，GMM允许使用软聚类，这意味着一个点可以属于具有不同概率的多个群集。这使其非常适合重叠数据，但需要仔细调整。

集群的现实应用应用

聚类是一种多功能工具，用于众多字段，以发现数据中的模式和见解。这里有几个例子：

音乐建议

聚类可以根据他们的音乐偏好对用户进行分组。通过将用户喜欢的艺术家转换为数值数据并以类似的口味将用户聚集，可以识别诸如“流行爱好者”或“爵士爱好者”之类的群体。建议可以在这些群集中量身定制，例如，如果用户A的播放列表属于同一集群，则建议从用户A的播放列表到用户B。这种方法扩展到其他行业，例如时尚，电影或汽车，消费者偏好可以推动建议。

异常检测

聚类对于识别异常数据点非常有效。通过分析数据簇，诸如DBSCAN之类的算法可以隔离远离其他点或明确标记为噪声的点。这些异常经常表示垃圾邮件，欺诈性信用卡交易或网络安全威胁等问题。聚类提供了一种快速的方法来识别和对这些异常值行动，从而确保在异常情况下具有严重影响的领域效率。

客户细分

企业使用聚类来分析客户数据并将受众分为不同的组。例如，群集可能会揭示“年轻的买家进行频繁，低价值购买的年轻买家”，而“年龄较少的高价值购买者”。这些见解使公司能够制定有针对性的营销策略，个性化产品，并优化资源分配，以提高参与度和盈利能力。

图像分割

在图像分析中，聚类组相似的像素区域，将图像分割为不同的对象。在医疗保健中，该技术用于鉴定MRI等医学扫描中的肿瘤。在自动驾驶汽车中，聚类有助于在输入图像中区分行人，车辆和建筑物，从而提高导航和安全性。

聚类的优势

聚类是数据分析中必不可少且通用的工具。它特别有价值，因为它不需要标记的数据，并且可以快速发现数据集中的模式。

高度可扩展性

聚类的核心好处之一是它作为一种无监督的学习技术的力量。与监督的方法不同，聚类不需要标记的数据，这通常是ML最耗时且昂贵的方面。聚类使分析师可以直接与原始数据合作并绕过对标签的需求。

另外，聚类方法在计算上是有效且可扩展的。诸如K均值之类的算法特别有效，可以处理大型数据集。但是，K-均值是有限的：有时它不灵活且对噪声敏感。像DBSCAN这样的算法对噪声更强大，并且能够识别任意形状的簇，尽管它们的效率可能较低。

辅助数据探索

聚类通常是数据分析的第一步，因为它有助于发现隐藏的结构和模式。通过对类似的数据点进行分组，它揭示了关系并突出显示异常值。这些见解可以指导团队形成假设并做出数据驱动的决策。

此外，聚类简化了复杂的数据集。它可用于降低其尺寸，这有助于可视化和进一步分析。这使探索数据并确定可行的见解变得更加容易。

聚类的挑战

群集是一种功能强大的工具，但很少用于隔离。它通常需要与其他算法同时使用，以做出有意义的预测或获得见解。

缺乏解释性

算法产生的群集本质上不可解释。了解为什么特定的数据点属于群集需要手动检查。聚类算法不提供标签或解释，从而使用户推断簇的含义和意义。在使用大型或复杂数据集时，这可能特别具有挑战性。

对参数的敏感性

聚类结果高度取决于算法参数的选择。例如，k均值或epsilon和min_points参数中的集群数量显着影响输出。确定最佳参数值通常涉及广泛的实验，并且可能需要域专业知识，这可能很耗时。

维度的诅咒

高维数据对聚类算法提出了重大挑战。在高维空间中，距离措施的效率降低，因为数据点往往看起来是等距的，即使它们是不同的。这种现象被称为“维度的诅咒”，使确定有意义的相似性的任务变得复杂。

降低降低技术，例如主成分分析（PCA）或T-SNE（T-SNETIB的随机邻居嵌入），可以通过将数据投影到较低维空间中来减轻此问题。这些减少的表示允许聚类算法更有效地执行。