機器學習中的回歸:它是什麼以及它是如何運作的

已發表: 2024-11-13

機器學習 (ML) 中的迴歸是用於根據輸入特徵預測連續值的基本概念。無論是估計房價或預測銷售,迴歸模型都會建立變數之間的關係。在本文中,我們將詳細介紹不同類型的迴歸模型、它們背後的演算法以及每種方法的最佳應用時機。您還將了解回歸的工作原理、其實際用例,以及在機器學習中使用回歸的優點和挑戰。

目錄

  • 什麼是回歸?
  • 迴歸模型的類型
  • 用於回歸的演算法
  • 回歸的例子
  • 回歸的好處
  • 回歸的挑戰

機器學習中的迴歸是什麼?

迴歸是一種監督學習,用於根據輸入資料預測連續值。它估計變數之間的關係來預測和解釋各種事物,例如房價、股市趨勢或天氣狀況。迴歸模型將輸入特徵映射到連續目標變量,從而實現精確的數值預測。

例如,使用過去一週的天氣數據,迴歸模型可以預測明天的降雨量。它預測的值是連續的,這意味著它們可以落在數值範圍內的任何位置,例如測量到小數點的溫度或預計未來幾個月的銷售收入。

使用 Grammarly 更聰明地工作
任何有工作要做的人的人工智慧寫作夥伴

迴歸與分類:有什麼差別?

迴歸預測連續結果,而分類則著重於預測離散類別或類別。例如,迴歸模型可能會預測明天的確切降雨量,而分類模型可能會預測是否會下雨(是或否)。主要區別在於迴歸處理數值,而分類將資料分配給預先定義的類別。

在某些情況下,可以使迴歸模型的輸出適應分類任務,反之亦然,但這兩種方法通常適用於不同類型的問題。

迴歸:演算法、模型還是分析?

迴歸有時被稱為迴歸分析,這是一個廣泛的統計術語,用於描述對觀察結果和結果之間連續關係的搜尋。迴歸演算法是一種專門的數學工具,旨在識別這些關係。當使用演算法訓練機器學習模型時,結果稱為迴歸模型

這三個術語——迴歸分析迴歸演算法迴歸模型——經常互換使用,但它們各自代表迴歸過程的不同面向。

機器學習中的迴歸類型

迴歸模型有多種形式,每種形式都旨在處理輸入資料和預測結果之間的不同關係。雖然線性迴歸是最常用且相對容易理解的模型,但其他模型(例如多項式、邏輯迴歸和貝葉斯迴歸)更適合更複雜或專門的任務。以下是迴歸模型的一些主要類型及其通常使用的時間。

簡單和多元(線性)迴歸

線性迴歸是一種流行的迴歸技術,以其易於解釋、快速訓練和跨各種應用的可靠性能而聞名。它使用直線估計來解釋變數和目標變數之間的關係。簡單線性迴歸涉及一個解釋變量,而多元線性迴歸涉及兩個或多個解釋變數。一般來說,當有人討論迴歸分析時,他們指的是線性迴歸。

多項式迴歸

如果直線無法令人滿意地解釋觀測變數與預期結果之間的關係,則多項式迴歸模型可能是更好的選擇。該模型尋求連續、複雜的關係,並且可以識別使用曲線或曲線和直線的組合最好地描述的模式。

邏輯迴歸

當觀測值和預測值之間的關係不連續(或離散)時,邏輯迴歸是最常用的工具。在這種情況下,離散意味著分數或實數不那麼相關的情況(例如,如果預測有多少顧客將走進咖啡店,邏輯回歸將回答4 或5,而不是更難以解釋的答案,例如4.35 )。

邏輯迴歸最著名的形式是二元迴歸,它預測二元(即是/否)問題的答案;通常,邏輯迴歸是二元的。更複雜的變化,例如多項式迴歸,可以預測提供兩個以上選擇的問題的答案。邏輯模型的核心依賴於選擇多個函數之一將連續輸入轉換為離散輸入。

貝葉斯回歸

線性和其他迴歸技術需要大量的訓練資料才能做出準確的預測。相較之下,貝葉斯迴歸是一種先進的統計演算法,只要某些數據的統計特性已知或可以估計,它就可以用更少的數據做出可靠的預測。例如,由於缺乏新產品的銷售數據,預測假期季節期間的新產品銷售可能對線性迴歸具有挑戰性。透過假設新產品的銷售遵循與其他類似產品的銷售相同的統計分佈,貝葉斯迴歸可以更準確地預測銷售數據。通常,貝葉斯迴歸假設資料遵循高斯統計分佈,導致貝葉斯高斯回歸一詞可以互換使用。

混合效應回歸

迴歸假設觀測資料和預測資料之間存在非隨機關係。有時,由於觀察到的數據或偶爾的隨機行為之間複雜的相互依賴性,這種關係很難定義。混合效應模型是迴歸模型,包括處理隨機資料和其他難以建模的行為的機制。這些模型也可互換地稱為混合模型、混合效應模型或混合誤差模型。

其他回歸演算法

回歸已經得到很好的研究。還有許多其他更複雜或更專業的迴歸演算法,包括使用二項式、多項式和高級混合效果技術的演算法,以及組合多種演算法的演算法。組合的多個演算法可以按順序組織,例如在多個連續層中,或並行運行然後以某種方式聚合。並行運行多個模型的系統通常稱為森林。

用於迴歸分析的演算法

機器學習中使用許多類型的迴歸演算法來產生迴歸模型。一些演算法旨在建立特定類型的模型(在這種情況下,演算法和模型通常共享相同的名稱)。其他人則專注於改進現有模型的各個方面,例如提高其準確性或效率。我們將在下面介紹一些更常用的演算法。不過,在此之前,了解如何評估它們非常重要:通常,它基於兩個關鍵屬性:變異數和偏差。

  • 方差衡量模型在不同資料集上訓練時預測的波動程度。具有高方差的模型可能非常適合訓練數據,但在新的、未見過的數據上表現不佳,這種現象稱為過度擬合。理想情況下,迴歸演算法應該會產生方差較低的模型,這意味著它們可以很好地推廣到新數據,並且對訓練集的變化不會過於敏感。
  • 偏差是指使用簡化模型來近似現實世界問題而引入的誤差,該問題可能過於複雜。高偏差可能會導致欠擬合,即模型無法捕捉資料中的重要模式,從而導致預測不準確。理想情況下,偏差應該很低,表明模型有效地捕捉了數據中的關係,而不會過度簡化。在某些情況下,可以透過改進訓練資料或調整迴歸演算法的參數來減輕偏差。

簡單和多元(線性)迴歸

簡單線性迴歸分析單一解釋變數與預測結果之間的關係,使其成為最簡單的迴歸形式。多元線性迴歸更為複雜,它可以找到兩個或多個變數與一個結果之間的關係。他們都根據通常符合此模式的線性方程式找到具有線性結構的關係:

y =β + β1x + ε

這裡y是要預測的結果,x是預測結果的變量, ε是試圖最小化的誤差, ββ1是迴歸計算的值。

線性迴歸使用監督式學習過程來建立解釋變數和預測結果之間的關聯。學習過程會反覆檢查訓練數據,每次迭代數據時都會改進基礎線性方程式的參數。評估參數表現的最常見方法包括計算測試或訓練中使用的所有可用資料的平均誤差值。誤差計算方法的範例包括均方誤差(預測與實際結果之間的平方距離的平均值)、平均絕對誤差以及更複雜的方法,例如殘差平方和(總誤差而不是平均值)。

多項式迴歸

多項式迴歸處理比線性迴歸更複雜的問題,並且需要求解線性方程組,通常使用高階矩陣運算。它可以在曲線數據中找到關係,而不僅僅是可以用直線表示的關係。如果正確應用,它將減少線性迴歸失敗的問題的變異數。由於它依賴先進的數學概念和運算,因此理解、實現和最佳化也更加困難。

多項式迴歸將嘗試求解將y和多個x與遵循下列模式的多項式方程式相關的方程式:

y =β + β1x + β2x2+ … + ε

多項式迴歸演算法將尋找要使用的理想β值和多項式的形狀(可能需要多少個x的指數來定義y和每個x之間的關係?)。

套索迴歸

Lasso 迴歸(代表最小絕對收縮和選擇算子),也稱為 lasso、L1L1範數迴歸,是一種用於減少過度擬合和提高模型精度的技術。它的工作原理是對模型係數的絕對值應用懲罰,有效地將某些係數縮小或減少為零。這會導致模型更簡單,其中排除了不相關的特徵。套索演算法透過控制模型複雜性來幫助防止過度擬合,使模型更具可解釋性,而不會犧牲太多的準確性。

當解釋變數相關時,套索特別有用。例如,在天氣預報中,溫度和濕度可能是相關的,導致過度擬合。 Lasso 減少了這種相關性的影響,創建了一個更穩健的模型。

嶺回歸

嶺迴歸(也稱為L2L2範數或 Tikhonov 正規化)是另一種防止過度擬合的技術,尤其是當存在多重共線性(解釋變數之間的相關性)時。與可以將係數縮小到零的套索不同,嶺迴歸添加了與模型係數的平方成比例的懲罰。目標是在不完全刪除變數的情況下對係數進行小幅調整。

回歸用例範例

迴歸模型廣泛應用於各行業,以根據歷史數據進行預測。透過識別變數之間的模式和關係,這些模型可以為決策提供有價值的見解。以下是應用回歸領域的三個著名範例。

天氣分析與預測

迴歸分析可以預測天氣模式,例如下週每天的預期氣溫和降雨量。通常,會根據歷史天氣資料(包括濕度、風速、大氣壓力和雲量)訓練幾種不同的迴歸演算法。這些變數每小時或每天的測量結果作為模型學習的特徵,演算法的任務是預測溫度隨時間的變化。當並行使用多個迴歸演算法(集合)來預測天氣模式時,它們的預測通常透過平均形式(例如加權平均)進行組合。

預測銷售和收入

在商業環境中,迴歸模型經常用於預測收入和其他關鍵績效指標。多元迴歸模型可能會考慮影響銷售的變量,例如行銷活動的指標、客戶回饋和宏觀經濟趨勢。然後,該模型的任務是預測指定未來期間的銷售額和收入。隨著新資料的出現,模型可能會被重新訓練或更新,以根據最新的觀察結果完善其預測。

預測醫療保健結果

迴歸模型在預測健康結果方面有許多應用。例如,貝葉斯模型可用於透過學習歷史患者資料來估計發病率比率。這些模型有助於回答諸如「如果我們調整藥物劑量可能會發生什麼?」之類的問題。線性迴歸可用於識別風險因素,例如根據生活方式調整預測患者健康狀況的變化。邏輯迴歸通常用於診斷,根據患者的病史和其他相關變數計算疾病存在的優勢比。

回歸的好處

迴歸演算法和模型,特別是線性迴歸,是許多機器學習系統的基礎組件。它們因其以下優點而被廣泛使用:

  • 他們可以很快。迴歸技術可以快速建立多個變數(特徵)和目標值之間的關係,使其可用於探索性資料分析並加快機器學習模型的訓練。
  • 它們用途廣泛。許多迴歸模型,例如線性迴歸、多項式迴歸和邏輯迴歸,都經過了深入研究,可以適用於解決從預測到分類任務的各種現實問題。
  • 它們很容易實施。例如,線性迴歸模型可以在不需要複雜的數學或工程技術的情況下實現,從而使各種技能水平的資料科學家和工程師都可以使用它們。
  • 它們很容易理解。迴歸模型,特別是線性迴歸,提供可解釋的輸出,其中變數之間的關係及其對預測結果的影響通常很明確。這使得它們對於識別數據中的趨勢和模式非常有用,可以為進一步、更深入的分析提供資訊。在某些情況下,迴歸模型可以根據使用情況,犧牲可解釋性來獲得更高的準確性。

回歸中的挑戰

雖然迴歸模型提供了許多好處,但它們也面臨一系列挑戰。通常,這些挑戰會反映在效能或通用性下降上,特別是在處理複雜問題或有限資料時。以下是迴歸分析中最常見的一些問題。

  • 過度擬合:模型常常難以平衡偏差和變異數。如果模型太複雜,它可以很好地擬合歷史資料(減少變異數),但在接觸新資料時會產生偏差。這通常是因為模型記住了訓練資料而不是學習廣義抽象。
  • 欠擬合:對於當前問題來說過於簡單的模型可能會出現高偏差。它將在訓練資料和未見過的資料上顯示出較高的錯誤率,表明它尚未學習底層模式。為修正高偏差而進行的過度調整可能會導致擬合不足,即模型無法捕捉資料的複雜性。
  • 複雜的訓練資料:迴歸模型通常假設用於訓練的觀察值是獨立的。如果資料包含複雜的關係或固有的隨機性,模型可能難以建立準確可靠的預測。
  • 資料不完整或缺失:監督迴歸演算法需要大量資料來學習模式並解釋極端情況。當處理遺失或不完整的資料時,模型可能表現不佳,特別是在學習需要廣泛資料覆蓋的複雜關係時。
  • 預測變數選擇:迴歸模型依賴人類來選擇正確的預測變數(特徵)。如果包含太多不相關的變量,模型效能可能會下降。相反,如果選擇的變數太少或錯誤,模型可能無法準確解決問題或做出可靠的預測。