什麼是機器學習中的欠擬合?

已發表: 2024-10-16

欠擬合是機器學習(ML)模型開發過程中遇到的常見問題。當模型無法有效地從訓練資料中學習時,就會發生這種情況,導致表現不佳。在本文中,我們將探討什麼是欠擬合、它是如何發生的、避免它的策略。

目錄

  • 什麼是欠擬合?
  • 欠擬合是如何發生的
  • 欠擬合與過擬合
  • 欠擬合的常見原因
  • 如何偵測欠擬合
  • 防止欠擬合的技術
  • 欠擬合的實際例子

使用 Grammarly 更聰明地工作
任何有工作要做的人的人工智慧寫作夥伴

什麼是欠擬合?

欠擬合是指機器學習模型無法捕捉訓練資料中的潛在模式,導致訓練和測試資料的效能都很差。當發生這種情況時,意味著模型太簡單,不能很好地表示資料最重要的關係。因此,該模型很難對所有資料(包括訓練期間看到的資料和任何新的、未見過的資料)做出準確的預測。

欠擬合是如何發生的?

當機器學習演算法產生的模型無法捕捉訓練資料最重要的屬性時,就會發生欠擬合;以這種方式失敗的模型被認為過於簡單。例如,假設您正在使用線性迴歸根據行銷支出、客戶人口統計和季節性來預測銷售額。線性迴歸假設這些因素與銷售額之間的關係可以表示為直線的組合。

儘管行銷支出和銷售額之間的實際關係可能是彎曲的或包括多種交互作用(例如,銷售額首先快速增長,然後趨於平穩),但線性模型會透過繪製直線而過於簡單化。這種簡化忽略了重要的細微差別,導致預測結果和整體表現不佳。

這個問題在許多機器學習模型中很常見,其中高偏差(嚴格假設)會阻止模型學習基本模式,導致其在訓練和測試資料上表現不佳。當模型太簡單而無法代表資料的真實複雜性時,通常會出現欠擬合。

欠擬合與過擬合

在機器學習中,欠擬合和過度擬合是常見問題,可能會對模型準確預測的能力產生負面影響。了解兩者之間的差異對於建立能夠很好地推廣到新數據的模型至關重要。

  • 當模型太簡單且無法捕捉資料中的關鍵模式時,就會出現欠擬合。這會導致訓練資料和新資料的預測不準確。
  • 當模型變得過於複雜時,就會發生過度擬合,不僅擬合真實模式,還擬合訓練資料中的雜訊。這導致模型在訓練集上表現良好,但在新的、未見過的資料上表現不佳。

為了更好地說明這些概念,請考慮一個根據壓力水平預測運動表現的模型。圖表中的藍點代表訓練集中的資料點,而線條則顯示模型在接受此資料訓練後的預測。 三個並排圖說明欠擬合、擬合良好的模型和過度擬合。

1欠擬合:在這種情況下,模型使用簡單的直線來預測性能,即使實際關係是彎曲的。由於該線與數據不太吻合,因此模型過於簡單,無法捕捉重要模式,從而導致預測結果不佳。這是欠擬合,即模型無法學習資料最有用的屬性。

2最佳擬合:這裡,模型足夠適當地擬合資料曲線。它捕捉潛在趨勢,但不會對特定數據點或雜訊過於敏感。這是理想的場景,模型具有相當好的泛化能力,並且可以對類似的新數據做出準確的預測。然而,當面對截然不同或更複雜的資料集時,泛化仍然具有挑戰性。

3過擬合:在過度擬合場景中,模型緊密追蹤幾乎每個資料點,包括訓練資料中的雜訊和隨機波動。雖然該模型在訓練集上表現得非常好,但它對於訓練資料來說過於具體,因此在預測新資料時效果會較差。它很難概括,並且在應用於未見過的場景時可能會做出不準確的預測。

欠擬合的常見原因

欠擬合的潛在原因有很多。最常見的四種是:

  • 模型架構過於簡單。
  • 特徵選擇不佳
  • 訓練資料不足
  • 訓練不夠

讓我們進一步深入研究以了解它們。

模型架構過於簡單

模型架構是指用於訓練模型的演算法和模型結構的組合。如果架構太簡單,則可能難以擷取訓練資料的高階屬性,從而導致預測不準確。

例如,如果模型嘗試使用單一直線對遵循曲線模式的資料進行建模,則它始終會欠擬合。這是因為直線無法準確表示彎曲資料中的高階關係,使得模型的架構不足以完成該任務。

特徵選擇不佳

特徵選擇涉及在訓練期間為 ML 模型選擇正確的變數。例如,在預測一個人是否會點擊電子商務網站上的購買按鈕時,您可能會要求 ML 演算法查看一個人的出生年份、眼睛顏色、年齡或所有三項。

如果特徵太多,或所選特徵與目標變數沒有很強的相關性,則模型將沒有足夠的相關資訊來做出準確的預測。眼睛顏色可能與轉換無關,而年齡捕獲的資訊與出生年份的資訊大部分相同。

訓練資料不足

當資料點太少時,模型可能會欠擬合,因為資料無法捕捉問題最重要的屬性。發生這種情況的原因可能是缺乏數據,也可能是由於抽樣偏差,即某些資料來源被排除或代表性不足,從而阻止模型學習重要模式。

訓練不夠

訓練機器學習模型需要根據其預測與實際結果之間的差異來調整其內部參數(權重)。模型經歷的訓練迭代次數越多,它就越能更好地調整以適應資料。如果模型訓練的迭代次數太少,它可能沒有足夠的機會從資料中學習,從而導致欠擬合。

如何偵測欠擬合

檢測欠​​擬合的一種方法是分析學習曲線,該曲線根據訓練迭代次數繪製模型的表現(通常是損失或錯誤)。學習曲線顯示模型如何隨著時間的推移在訓練和驗證資料集上改進(或未能改進)。

損失是給定資料集的模型誤差的大小。訓練損失測量訓練資料的損失和驗證資料的驗證損失。驗證資料是用於測試模型效能的單獨資料集。它通常是透過將較大的資料集隨機拆分為訓練資料和驗證資料來產生的。

在欠擬合的情況下,您會注意到以下關鍵模式:

  • 高訓練損失:如果模型的訓練損失在過程早期仍然很高且持平,則表示模型沒有從訓練資料中學習。這是欠擬合的明顯跡象,因為模型太簡單,無法適應數據的複雜性。
  • 類似的訓練和驗證損失:如果訓練和驗證損失都很高並且在整個訓練過程中保持接近,則表示模型在兩個資料集上表現不佳。這表明模型沒有從數據中捕獲足夠的資訊來做出準確的預測,這表明擬合不足。

下面是一個範例圖表,顯示了欠擬合場景中的學習曲線:

此圖顯示訓練和驗證損失仍然很高,表示模型欠擬合

在這個視覺表示中,很容易發現欠擬合:

  • 在擬合良好的模型中,訓練損失顯著下降,而驗證損失遵循類似的模式,最終趨於穩定。
  • 在欠擬合的模型中,訓練和驗證損失一開始就很高,並且一直保持在很高的水平,沒有任何顯著的改善。

透過觀察這些趨勢,您可以快速識別模型是否過於簡單並需要調整以增加其複雜性。

防止欠擬合的技術

如果遇到欠擬合,可以使用多種策略來提高模型的效能:

  • 更多訓練資料:如果可能,請取得額外的訓練資料。如果數據品質高且與當前問題相關,更多數據將為模型提供更多學習模式的機會。
  • 擴展特徵選擇:在模型中加入更相關的特徵。選擇與目標變數有密切關係的特徵,使模型有更好的機會捕捉先前錯過的重要模式。
  • 增強架構能力:在基於神經網路的模型中,您可以透過變更權重、層數或其他超參數的數量來調整架構結構。這可以讓模型更加靈活並且更容易找到資料中的進階模式。
  • 選擇不同的模型:有時,即使在調整超參數之後,特定模型也可能不太適合該任務。測試多種模型演算法可以幫助找到更合適的模型並提高效能。

欠擬合的實際例子

為了說明欠擬合的影響,讓我們來看看各個領域的現實範例,在這些範例中,模型無法捕捉資料的複雜性,從而導致預測不準確。

預測房價

要準確預測房屋價格,您需要考慮許多因素,包括地點、面積、房屋類型、狀況和臥室數量。

如果您使用的特徵太少(例如僅房屋的大小和類型),模型將無法存取關鍵資訊。例如,該模型可能假設一個小型工作室很便宜,但不知道它位於倫敦梅菲爾區,該地區的房價很高。這會導致糟糕的預測。

為了解決這個問題,資料科學家必須確保正確的特徵選擇。這涉及包括所有相關特徵,排除不相關特徵,並使用準確的訓練資料。

語音辨識

語音辨識技術在日常生活中變得越來越普遍。例如,智慧型手機助理、客戶服務專線和殘障輔助技術都使用語音辨識。訓練這些模型時,使用語音樣本的數據及其正確的解釋。

為了識別語音,該模型將麥克風捕獲的聲波轉換為數據。如果我們透過僅提供特定時間間隔內語音的主要頻率和音量來簡化這一點,我們就可以減少模型必須處理的資料量。

然而,這種方法剝奪了充分理解演講所需的基本資訊。數據變得過於簡單,無法捕捉人類語音的複雜性,例如語調、音調和口音的變化。

因此,該模型將無法適應,甚至難以識別基本的單字命令,更不用說完整的句子了。即使模型足夠複雜,缺乏全面的數據也會導致擬合不足。

影像分類

圖像分類器被設計為將圖像作為輸入並輸出一個單字來描述它。假設您正在建立一個模型來偵測影像是否包含球。您可以使用球和其他物體的標記圖像來訓練模型。

如果您錯誤地使用簡單的兩層神經網路而不是更合適的模型(例如卷積神經網路(CNN)),該模型將會陷入困境。兩層網路將影像扁平化為單層,失去了重要的空間資訊。此外,模型只有兩層,缺乏辨識複雜特徵的能力。

這會導致欠擬合,因為即使在訓練資料上,模型也無法做出準確的預測。 CNN 透過保留影像的空間結構並使用帶有濾波器的捲積層來解決這個問題,這些濾波器會自動學習檢測重要特徵,例如早期層中的邊緣和形狀以及後面層中更複雜的物件。