什么是机器学习中的线性回归?

已发表: 2024-09-06

线性回归是数据分析和机器学习 (ML) 的基础技术。本指南将帮助您了解线性回归、其构造方式及其类型、应用、优点和缺点。

目录

  • 什么是线性回归?
  • 线性回归的类型
  • 线性回归与逻辑回归
  • 线性回归如何工作?
  • 线性回归的应用
  • 机器学习中线性回归的优点
  • 机器学习中线性回归的缺点

什么是线性回归?

线性回归是机器学习中使用的一种统计方法,用于对因变量与一个或多个自变量之间的关系进行建模。它通过将线性方程拟合到观测数据来建模关系,通常作为更复杂算法的起点,并广泛用于预测分析。

本质上,线性回归通过通过一组数据点找到最拟合的直线来对因变量(您想要预测的结果)和一个或多个自变量(您用于预测的输入特征)之间的关系进行建模。这条线称为回归线,表示因变量(我们想要预测的结果)和自变量(我们用于预测的输入特征)之间的关系。简单线性回归线的方程定义为:

y = mx + c

其中y是因变量, x是自变量,m 是直线的斜率, c是 y 截距。该方程提供了一个将输入映射到预测输出的数学模型,其目标是最小化预测值和观测值之间的差异(称为残差)。通过最小化这些残差,线性回归产生最能代表数据的模型。

简单线性回归

从概念上讲,线性回归可以可视化为通过图表上的点绘制一条直线,以确定这些数据点之间是否存在关系。一组数据点的理想线性回归模型是最接近数据集中每个点的值的线。

线性回归的类型

线性回归主要有两种类型:简单线性回归多元线性回归

简单线性回归

简单线性回归使用直线对单个自变量和因变量之间的关系进行建模。简单线性回归的方程为:

y = mx + c

其中y是因变量, x是自变量, m是直线的斜率, c是 y 截距。

这种方法是在处理单变量场景时获得清晰见解的直接方法。假设一名医生试图了解患者身高如何影响体重。通过在图表上绘制每个变量并使用简单线性回归找到最佳拟合线,医生可以仅根据患者的身高来预测患者的体重。

多元线性回归

多元线性回归扩展了简单线性回归的概念,以适应多个变量,从而可以分析多个因素如何影响因变量。多元线性回归方程为:

y = b 0 + b 1 x 1 + b 2 x 2 + … + b n x n

其中y是因变量, x 1 , x 2 , …, x n是自变量, b 1 , b 2 , …, b n是描述每个自变量与因变量之间关系的系数。

举个例子,考虑一位想要估算房价的房地产经纪人。代理可以使用基于单个变量(例如房屋大小或邮政编码)的简单线性回归,但这种模型过于简单化,因为房价通常是由多种因素的复杂相互作用驱动的。多元线性回归结合了房屋大小、社区和卧室数量等变量,可能会提供更准确的预测模型。

线性回归与逻辑回归

线性回归经常与逻辑回归混淆。虽然线性回归预测连续变量的结果,但当因变量是分类变量(通常是二元变量)(是或否)时,使用逻辑回归。类别变量定义具有有限数量类别的非数字组,例如年龄组或付款方式。另一方面,连续变量可以取任何数值并且是可测量的。连续变量的示例包括重量、价格和每日温度。

与线性回归中使用的线性函数不同,逻辑回归使用称为逻辑函数的 S 形曲线对分类结果的概率进行建模。在二元分类的示例中,属于“是”类别的数据点落在 S 形的一侧,而属于“否”类别的数据点落在另一侧。实际上,逻辑回归可以用来分类电子邮件是否是垃圾邮件,或者预测客户是否会购买产品。本质上,线性回归用于预测定量值,而逻辑回归用于分类任务。

线性回归如何工作?

线性回归的工作原理是通过一组数据点找到最佳拟合线。这个过程涉及:

1选择模型:第一步,选择合适的线性方程来描述因变量和自变量之间的关系。

2拟合模型:接下来,使用一种称为普通最小二乘法 (OLS) 的技术来最小化观测值与模型预测值之间的平方差之和。这是通过调整线的斜率和截距来找到最佳拟合来完成的。此方法的目的是最小化预测值与实际值之间的误差或差异。这个拟合过程是监督机器学习的核心部分,其中模型从训练数据中学习。

3评估模型:在最后一步中,使用 R 平方等指标评估拟合质量,该指标测量可从自变量预测的因变量中的方差比例。换句话说,R 平方衡量数据与回归模型的实际拟合程度。

此过程会生成一个机器学习模型,然后可用于根据新数据进行预测。

线性回归在机器学习中的应用

在机器学习中,线性回归是预测结果和理解各个领域变量之间关系的常用工具。以下是其应用的一些著名示例:

预测消费者支出

收入水平可用于线性回归模型来预测消费者支出。具体来说,多元线性回归可以结合历史收入、年龄和就业状况等因素来提供全面的分析。这可以帮助经济学家制定数据驱动的经济政策,并帮助企业更好地了解消费者的行为模式。

分析营销影响

营销人员可以使用线性回归来了解广告支出如何影响销售收入。通过对历史数据应用线性回归模型,可以预测未来的销售收入,从而使营销人员能够优化其预算和广告策略以获得最大影响。

预测股票价格

在金融界,线性回归是用于预测股票价格的众多方法之一。利用历史股票数据和各种经济指标,分析师和投资者可以构建多个线性回归模型,帮助他们做出更明智的投资决策。

预测环境条件

在环境科学中,线性回归可用于预测环境条件。例如,交通量、天气状况和人口密度等各种因素可以帮助预测污染物水平。然后,政策制定者、科学家和其他利益相关者可以使用这些机器学习模型来了解和减轻各种行为对环境的影响。

机器学习中线性回归的优点

线性回归具有多种优势,使其成为机器学习中的关键技术。

易于使用和实施

与大多数数学工具和模型相比,线性回归易于理解和应用。对于新的机器学习从业者来说,它尤其适合作为起点,提供宝贵的见解和经验,作为更高级算法的基础。

计算效率高

机器学习模型可能是资源密集型的。与许多算法相比,线性回归需要相对较低的计算能力,但仍然可以提供有意义的预测见解。

可解释的结果

先进的统计模型虽然强大,但通常难以解释。使用线性回归这样的简单模型,变量之间的关系很容易理解,每个变量的影响可以通过其系数清楚地表明。

先进技术基础

理解和实现线性回归为探索更先进的机器学习方法奠定了坚实的基础。例如,多项式回归建立在线性回归的基础上,用于描述变量之间更复杂的非线性关系。

机器学习中线性回归的缺点

虽然线性回归是机器学习中的一个有价值的工具,但它有几个明显的局限性。了解这些缺点对于选择合适的机器学习工具至关重要。

假设线性关系

线性回归模型假设因变量和自变量之间的关系是线性的。在复杂的现实场景中,情况可能并不总是如此。例如,一个人一生中的身高是非线性的,童年时期的快速增长会在成年后减慢并停止。因此,使用线性回归预测身高可能会导致预测不准确。

对异常值的敏感性

离群值是显着偏离数据集中大多数观测值的数据点。如果处理不当,这些极值点可能会扭曲结果,导致结论不准确。在机器学习中,这种敏感性意味着异常值可能会严重影响模型的预测准确性和可靠性。

多重共线性

在多元线性回归模型中,高度相关的自变量可能会扭曲结果,这种现象称为多重共线性。例如,房屋中的卧室数量与其大小可能高度相关,因为较大的房屋往往有更多的卧室。这可能会导致难以确定单个变量对房价的影响,从而导致结果不可靠。

假设误差分布恒定

线性回归假设所有自变量的观测值和预测值之间的差异(误差分布)相同。如果情况并非如此,则模型生成的预测可能不可靠。在监督机器学习中,未能解决误差扩散问题可能会导致模型生成有偏差且低效的估计,从而降低其整体有效性。