降维:技术、应用和挑战

已发表: 2024-10-23

降维通过减少特征数量来简化复杂的数据集,同时尝试保留基本特征,帮助机器学习从业者在处理大型特征集时避免“维数灾难”。本指南将帮助您了解什么是降维、所使用的技术、其应用及其优点和缺点。

目录

  • 什么是降维?
  • 降维技术
  • 应用领域
  • 优点
  • 挑战

什么是降维?

降维是指用于减少数据集中的变量(或维度)数量,同时努力保留基本模式和结构的一组技术。这些技术有助于简化复杂的数据,使其更易于处理和分析,尤其是在机器学习 (ML) 的背景下。根据处理数据的方式,降维方法可以是有监督的,也可以是无监督的。

降维的一个关键目标是在不牺牲太多有价值信息的情况下简化数据。例如,想象一个由大型高分辨率图像组成的数据集,每个图像由数百万个像素组成。通过应用降维技术,您可以将特征(像素)的数量减少为一组较小的新特征,以捕获最重要的视觉信息。这样可以实现更高效的处理,同时保留图像的核心特征。

虽然降维有助于简化数据,但它与特征选择不同,特征选择只是从现有特征中进行选择而不进行转换。让我们更详细地探讨这种区别。

使用 Grammarly 更智能地工作
任何有工作要做的人的人工智能写作伙伴

特征选择与降维

特征选择和降维都是旨在减少数据集中的特征数量和数据量的技术,但它们在处理此任务的方式上有根本的不同。

  • 特征选择:此方法从原始数据集中选择现有特征的子集,而不改变它们。它根据特征的重要性或与目标变量的相关性对特征进行排名,并删除那些被认为不必要的特征。示例包括前向选择、后向消除和递归特征消除等技术。
  • 降维:与特征选择不同,降维将原始特征转化为新的特征组合,降低了数据集的维度。这些新特征可能不像特征选择那样具有清晰的可解释性,但它们通常会捕获数据中更有意义的模式。

通过了解这两种方法之间的差异,从业者可以更好地决定何时使用每种方法。当可解释性是关键时,通常使用特征选择,而当寻求捕获数据中的隐藏结构时,降维更有用。

降维技术

与其他机器学习方法类似,降维涉及针对特定应用量身定制的各种专门技术。这些技术可以大致分为线性、非线性和基于自动编码器的方法,以及其他不完全适合这些组的方法。

线性技术

主成分分析 (PCA)、线性判别分析 (LDA) 和因子分析等线性技术最适合具有线性关系的数据集。这些方法的计算效率也很高。

  • PCA是最常见的技术之一,用于可视化高维数据并减少噪声。它的工作原理是识别数据变化最大的方向(或轴)。将其视为在数据点云中寻找主要趋势。这些方向称为主成分。
  • LDA与 PCA 类似,对于具有标记类别的数据集中的分类任务非常有用。它的工作原理是找到分离数据中不同组的最佳方法,例如绘制尽可能清晰地划分它们的线。
  • 因素分析经常用于心理学等领域。它假设观察到的变量受到未观察到的因素的影响,这使得它对于发现隐藏的模式很有用。

非线性技术

非线性技术更适合具有复杂非线性关系的数据集。其中包括 t 分布随机邻域嵌入 (t-SNE)、isomap 和局部线性嵌入 (LLE)。

  • t-SNE通过保留局部结构和揭示模式来有效地可视化高维数据。例如,t-SNE 可以将大型、多特征的食物数据集简化为 2D 地图,其中相似的食物根据关键特征聚集在一起。
  • Isomap非常适合类似于曲面的数据集,因为它保留测地距离(沿流形的真实距离)而不是直线距离。例如,它可以用来研究疾病在地理区域的传播,考虑到山脉和海洋等自然屏障。
  • LLE非常适合具有一致局部结构的数据集,并专注于保留附近点之间的关系。例如,在图像处理中,LLE 可以识别图像中的相似斑块。

自动编码器

自动编码器是为降维而设计的神经网络。它们的工作原理是将输入数据编码为压缩的低维表示,然后根据该表示重建原始数据。自动编码器可以捕获数据中更复杂的非线性关系,在某些情况下通常超越 t-SNE 等传统方法。与 PCA 不同,自动编码器可以自动学习哪些特征最重要,这在事先不知道相关特征时特别有用。

自动编码器也是降维如何影响可解释性的标准示例。自动编码器选择的特征和维度,然后将数据重组为,通常显示为大型数字数组。这些数组不是人类可读的,并且通常与操作员期望或理解的任何内容都不匹配。

有各种专门类型的自动编码器针对不同的任务进行了优化。例如,使用卷积神经网络 (CNN) 的卷积自动编码器对于处理图像数据非常有效。

其他技术

一些降维方法不属于线性、非线性或自动编码器类别。示例包括奇异值分解 (SVD) 和随机投影。

SVD 擅长在大型稀疏数据集中降维,通常应用于文本分析和推荐系统。

随机投影利用 Johnson-Lindenstrauss 引理,是处理高维数据的快速有效的方法。这类似于从随机角度将光照射在复杂的形状上,并使用产生的阴影来深入了解原始形状。

降维的应用

降维技术具有广泛的应用,从图像处理到文本分析,可以实现更高效的数据处理和洞察。

图像压缩

降维可用于压缩高分辨率图像或视频帧,提高存储效率和传输速度。例如,社交媒体平台经常应用 PCA 等技术来压缩用户上传的图像。此过程可减小文件大小,同时保留重要信息。当显示图像时,平台可以从压缩数据快速生成原始图像的近似值,从而显着减少存储和上传时间。

生物信息学

在生物信息学中,降维可用于分析基因表达数据,以识别基因之间的模式和关系,这是人类基因组计划等计划成功的关键因素。例如,癌症研究经常使用来自数千名患者的基因表达数据,并测量每个样本的数万个基因的活性水平,从而产生极高维的数据集。使用 t-SNE 等降维技术,研究人员可以以更简单、人类可理解的表示方式可视化这些复杂的数据。这种可视化可以帮助研究人员识别区分基因组的关键基因,并有可能发现新的治疗靶点。

文本分析

降维也广泛用于自然语言处理 (NLP),以简化主题建模和文档分类等任务的大型文本数据集。例如,新闻聚合器将文章表示为高维向量,其中每个维度对应于词汇表中的一个单词。这些向量通常具有数万维。降维技术可以将它们转换为只有几百个关键维度的向量,保留主要主题和单词之间的关系。这些简化的表示可以实现识别趋势主题和提供个性化文章推荐等任务。

数据可视化

在数据可视化中,降维可用于将高维数据表示为 2D 或 3D 可视化,以进行探索和分析。例如,假设数据科学家为一家大公司细分客户数据,其数据集包含每个客户的 60 个特征,包括人口统计、产品使用模式以及与客户服务的交互。为了了解不同类别的客户,数据科学家可以使用 t-SNE 将这个 60 维数据表示为 2D 图表,从而使他们能够可视化这个复杂数据集中的不同客户集群。一个集群可能代表年轻、高使用率的客户,而另一个集群可能代表仅偶尔使用该产品一次的老年客户。

降维的优点

降维提供了几个关键优势,包括提高计算效率和降低 ML 模型中过度拟合的风险。

提高计算效率

降维最显着的好处之一是计算效率的提高。这些技术可以通过将高维数据转换为更易于管理的低维形式来显着减少分析和建模所需的时间和资源。这种效率对于需要实时处理或涉及大规模数据集的应用程序尤其有价值。低维数据的处理速度更快,可以更快地响应推荐系统或实时分析等任务。

防止过度拟合

降维可用于缓解过度拟合,这是机器学习中的一个常见问题。高维数据通常包含不相关或冗余的特征,这些特征可能会导致模型学习噪声而不是有意义的模式,从而降低其泛化到新的、未见过的数据的能力。通过关注最重要的特征并消除不必要的特征,降维技术使模型能够更好地捕获数据的真实底层结构。仔细应用降维可以产生更稳健的模型,并提高新数据集的泛化性能。

降维的挑战

虽然降维提供了许多好处,但它也带来了某些挑战,包括潜在的信息丢失、可解释性问题以及选择正确的技术和维度数量的困难。

信息丢失

信息丢失是降维的核心挑战之一。尽管这些技术旨在保留最重要的特征,但在此过程中可能会丢弃一些微妙但有意义的模式。在降低维度和保留关键数据之间取得适当的平衡至关重要。过多的信息丢失可能会导致模型性能下降,从而更难以得出准确的见解或预测。

可解释性问题

与许多机器学习技术一样,降维可能会带来可解释性的挑战,特别是对于非线性方法。虽然减少的特征集可以有效地捕获潜在的模式,但人类可能很难理解或解释这些特征。这种缺乏可解释性在医疗保健或金融等领域尤其成问题,在这些领域,了解决策的制定方式对于信任和监管合规性至关重要。

选择正确的技术和尺寸

选择正确的降维方法、维度数量以及保留哪些特定维度是可能对结果产生重大影响的关键挑战。不同的技术适用于不同类型的数据,例如,某些方法更适合非线性或稀疏数据集。同样,最佳维度数取决于具体的数据集和手头的任务。选择错误的方法或保留太多或太少的维度可能会导致重要信息的丢失,从而导致模型性能不佳。通常,找到正确的平衡需要领域专业知识、反复试验以及仔细验证。