机器学习中的回归:它是什么以及它是如何工作的
已发表: 2024-11-13机器学习 (ML) 中的回归是用于根据输入特征预测连续值的基本概念。无论是估计房价还是预测销售,回归模型都会建立变量之间的关系。在本文中,我们将详细介绍不同类型的回归模型、它们背后的算法以及每种方法的最佳应用时机。您还将了解回归的工作原理、其实际用例,以及在机器学习中使用回归的优点和挑战。
目录
- 什么是回归?
- 回归模型的类型
- 用于回归的算法
- 回归的例子
- 回归的好处
- 回归的挑战
机器学习中的回归是什么?
回归是一种监督学习,用于根据输入数据预测连续值。它估计变量之间的关系来预测和解释各种事物,例如房价、股市趋势或天气状况。回归模型将输入特征映射到连续目标变量,从而实现精确的数值预测。
例如,使用过去一周的天气数据,回归模型可以预测明天的降雨量。它预测的值是连续的,这意味着它们可以落在数值范围内的任何位置,例如测量到小数点的温度或预计未来几个月的销售收入。
回归与分类:有什么区别?
回归预测连续结果,而分类则侧重于预测离散类别或类。例如,回归模型可能会预测明天的确切降雨量,而分类模型可能会预测是否会下雨(是或否)。主要区别在于回归处理数值,而分类将数据分配给预定义的类别。
在某些情况下,可以使回归模型的输出适应分类任务,反之亦然,但这两种方法通常适用于不同类型的问题。
回归:算法、模型还是分析?
回归有时被称为回归分析,这是一个广泛的统计术语,用于描述对观察结果和结果之间连续关系的搜索。回归算法是一种专门的数学工具,旨在识别这些关系。当使用算法训练机器学习模型时,结果称为回归模型。
这三个术语——回归分析、回归算法和回归模型——经常互换使用,但它们各自代表回归过程的不同方面。
机器学习中的回归类型
回归模型有多种形式,每种形式都旨在处理输入数据和预测结果之间的不同关系。虽然线性回归是最常用且相对容易理解的模型,但其他模型(例如多项式、逻辑回归和贝叶斯回归)更适合更复杂或专门的任务。以下是回归模型的一些主要类型及其通常使用的时间。
简单和多元(线性)回归
线性回归是一种流行的回归技术,以其易于解释、快速训练和跨各种应用的可靠性能而闻名。它使用直线估计解释变量和目标变量之间的关系。简单线性回归涉及一个解释变量,而多元线性回归涉及两个或多个解释变量。一般来说,当有人讨论回归分析时,他们指的是线性回归。
多项式回归
如果直线无法令人满意地解释观测变量与预期结果之间的关系,则多项式回归模型可能是更好的选择。该模型寻求连续、复杂的关系,并且可以识别使用曲线或曲线和直线的组合最好地描述的模式。
逻辑回归
当观测值和预测值之间的关系不连续(或离散)时,逻辑回归是最常用的工具。在这种情况下,离散意味着分数或实数不那么相关的情况(例如,如果预测有多少顾客将走进一家咖啡店,逻辑回归将回答 4 或 5,而不是更难以解释的答案,例如 4.35)。
逻辑回归最著名的形式是二元回归,它预测二元(即是/否)问题的答案;通常,逻辑回归是二元的。更复杂的变化,例如多项式回归,可以预测提供两个以上选择的问题的答案。逻辑模型的核心依赖于选择多个函数之一将连续输入转换为离散输入。
贝叶斯回归
线性和其他回归技术需要大量的训练数据才能做出准确的预测。相比之下,贝叶斯回归是一种先进的统计算法,只要某些数据的统计特性已知或可以估计,它就可以用更少的数据做出可靠的预测。例如,由于缺乏新产品的销售数据,预测假日季节期间的新产品销售可能对线性回归具有挑战性。通过假设新产品的销售遵循与其他类似产品的销售相同的统计分布,贝叶斯回归可以更准确地预测销售数据。通常,贝叶斯回归假设数据遵循高斯统计分布,导致术语贝叶斯和高斯回归可以互换使用。
混合效应回归
回归假设观测数据和预测数据之间存在非随机关系。有时,由于观察到的数据或偶尔的随机行为之间复杂的相互依赖性,这种关系很难定义。混合效应模型是回归模型,包括处理随机数据和其他难以建模的行为的机制。这些模型也可互换地称为混合模型、混合效应模型或混合误差模型。
其他回归算法
回归已经得到很好的研究。还有许多其他更复杂或更专业的回归算法,包括使用二项式、多项式和高级混合效果技术的算法,以及组合多种算法的算法。组合的多个算法可以按顺序组织,例如在多个连续层中,或者并行运行然后以某种方式聚合。并行运行多个模型的系统通常称为森林。
用于回归分析的算法
机器学习中使用许多类型的回归算法来生成回归模型。一些算法旨在构建特定类型的模型(在这种情况下,算法和模型通常共享相同的名称)。其他人则专注于改进现有模型的各个方面,例如提高其准确性或效率。我们将在下面介绍一些更常用的算法。不过,在此之前,了解如何评估它们非常重要:通常,它基于两个关键属性:方差和偏差。
- 方差衡量模型在不同数据集上训练时预测的波动程度。具有高方差的模型可能非常适合训练数据,但在新的、未见过的数据上表现不佳,这种现象称为过度拟合。理想情况下,回归算法应该生成方差较低的模型,这意味着它们可以很好地推广到新数据,并且对训练集的变化不会过于敏感。
- 偏差是指通过使用简化模型来近似现实世界问题而引入的误差,该问题可能过于复杂。高偏差可能会导致欠拟合,即模型无法捕获数据中的重要模式,从而导致预测不准确。理想情况下,偏差应该很低,表明模型有效地捕获了数据中的关系,而不会过度简化。在某些情况下,可以通过改进训练数据或调整回归算法的参数来减轻偏差。
简单和多元(线性)回归
简单线性回归分析单个解释变量与预测结果之间的关系,使其成为最简单的回归形式。多元线性回归更为复杂,它可以找到两个或多个变量与一个结果之间的关系。他们都根据通常符合此模式的线性方程找到具有线性结构的关系:
y =β + β1x + ε
这里y是要预测的结果,x是预测结果的变量, ε是试图最小化的误差, β和β1是回归计算的值。
线性回归使用监督学习过程来建立解释变量和预测结果之间的关联。学习过程会反复检查训练数据,每次迭代数据时都会改进基础线性方程的参数。评估参数性能的最常见方法包括计算测试或训练中使用的所有可用数据的平均误差值。误差计算方法的示例包括均方误差(预测与实际结果之间的平方距离的平均值)、平均绝对误差以及更复杂的方法,例如残差平方和(总误差而不是平均值)。
多项式回归
多项式回归处理比线性回归更复杂的问题,并且需要求解线性方程组,通常使用高级矩阵运算。它可以在曲线数据中找到关系,而不仅仅是可以用直线表示的关系。如果正确应用,它将减少线性回归失败的问题的方差。由于它依赖于先进的数学概念和运算,因此理解、实现和优化也更加困难。
多项式回归将尝试求解将y和多个x与遵循以下模式的多项式方程相关的方程:
y =β + β1x + β2x2+ … + ε
多项式回归算法将寻找要使用的理想β值和多项式的形状(可能需要多少个x的指数来定义y和每个x之间的关系?)。
套索回归
Lasso 回归(代表最小绝对收缩和选择算子),也称为 lasso、L1和L1范数回归,是一种用于减少过度拟合和提高模型精度的技术。它的工作原理是对模型系数的绝对值应用惩罚,有效地将某些系数缩小或减少为零。这会导致模型更简单,其中排除了不相关的特征。套索算法通过控制模型复杂性来帮助防止过度拟合,使模型更具可解释性,而不会牺牲太多的准确性。
当解释变量相关时,套索特别有用。例如,在天气预报中,温度和湿度可能是相关的,导致过度拟合。 Lasso 减少了这种相关性的影响,创建了一个更稳健的模型。
岭回归
岭回归(也称为L2、 L2范数或 Tikhonov 正则化)是另一种防止过度拟合的技术,尤其是在存在多重共线性(解释变量之间的相关性)时。与可以将系数缩小到零的套索不同,岭回归添加了与模型系数的平方成比例的惩罚。目标是在不完全删除变量的情况下对系数进行小幅调整。
回归用例示例
回归模型广泛应用于各个行业,以根据历史数据进行预测。通过识别变量之间的模式和关系,这些模型可以为决策提供有价值的见解。以下是应用回归领域的三个著名示例。
天气分析与预测
回归分析可以预测天气模式,例如下周每天的预期气温和降雨量。通常,会根据历史天气数据(包括湿度、风速、大气压力和云量)训练几种不同的回归算法。这些变量每小时或每天的测量结果作为模型学习的特征,算法的任务是预测温度随时间的变化。当并行使用多个回归算法(集合)来预测天气模式时,它们的预测通常通过平均形式(例如加权平均)进行组合。
预测销售和收入
在业务环境中,回归模型经常用于预测收入和其他关键绩效指标。多元回归模型可能会考虑影响销量的变量,例如营销活动的指标、客户反馈和宏观经济趋势。然后,该模型的任务是预测指定未来时期的销售额和收入。随着新数据的出现,模型可能会被重新训练或更新,以根据最新的观察结果完善其预测。
预测医疗保健结果
回归模型在预测健康结果方面有许多应用。例如,贝叶斯模型可用于通过学习历史患者数据来估计发病率比率。这些模型有助于回答诸如“如果我们调整药物剂量可能会发生什么?”之类的问题。线性回归可用于识别风险因素,例如根据生活方式调整预测患者健康状况的变化。逻辑回归通常用于诊断,根据患者的病史和其他相关变量计算疾病存在的优势比。
回归的好处
回归算法和模型,特别是线性回归,是许多机器学习系统的基础组件。它们因其以下优点而被广泛使用:
- 他们可以很快。回归技术可以快速建立多个变量(特征)和目标值之间的关系,使其可用于探索性数据分析并加快机器学习模型的训练。
- 它们用途广泛。许多回归模型,例如线性回归、多项式回归和逻辑回归,都经过了深入研究,可以适用于解决从预测到分类任务的各种现实问题。
- 它们很容易实施。例如,线性回归模型可以在不需要复杂的数学或工程技术的情况下实现,从而使各种技能水平的数据科学家和工程师都可以使用它们。
- 它们很容易理解。回归模型,特别是线性回归,提供可解释的输出,其中变量之间的关系及其对预测结果的影响通常很明确。这使得它们对于识别数据中的趋势和模式非常有用,可以为进一步、更深入的分析提供信息。在某些情况下,回归模型可以根据使用情况,牺牲可解释性来获得更高的准确性。
回归中的挑战
虽然回归模型提供了许多好处,但它们也面临着一系列挑战。通常,这些挑战会反映在性能或通用性下降上,特别是在处理复杂问题或有限数据时。以下是回归分析中最常见的一些问题。
- 过度拟合:模型常常难以平衡偏差和方差。如果模型太复杂,它可以很好地拟合历史数据(减少方差),但在接触新数据时会产生偏差。这通常是因为模型记住了训练数据而不是学习广义抽象。
- 欠拟合:对于当前问题来说过于简单的模型可能会出现高偏差。它将在训练数据和未见过的数据上显示出较高的错误率,表明它尚未学习底层模式。为纠正高偏差而进行的过度调整可能会导致拟合不足,即模型无法捕捉数据的复杂性。
- 复杂的训练数据:回归模型通常假设用于训练的观察是独立的。如果数据包含复杂的关系或固有的随机性,模型可能难以建立准确可靠的预测。
- 数据不完整或缺失:监督回归算法需要大量数据来学习模式并解释极端情况。当处理丢失或不完整的数据时,模型可能表现不佳,特别是在学习需要广泛数据覆盖的复杂关系时。
- 预测变量选择:回归模型依靠人类来选择正确的预测变量(特征)。如果包含太多不相关的变量,模型性能可能会下降。相反,如果选择的变量太少或错误,模型可能无法准确解决问题或做出可靠的预测。