機器學習中的F1分數:如何有效計算,應用和使用

已發表: 2025-02-10

F1分數是評估機器學習(ML)模型的強大指標,旨在執行二進製或多類分類。本文將解釋F1得分是什麼,為什麼重要,如何計算以及其應用,收益和限制。

目錄

  • 什麼是F1分數?
  • 如何計算F1分數
  • F1得分與準確性
  • F1分數的應用
  • F1分數的好處
  • F1分數的局限性

什麼是F1分數?

在建立分類模型時,ML從業者面臨著一個普遍的挑戰:訓練模型以捕獲所有案件,同時避免錯誤警報。這在財務欺詐檢測和醫學診斷等關鍵應用中尤其重要,因為錯誤的警報和缺少重要的分類會帶來嚴重的後果。在處理不平衡數據集時,實現適當的平衡特別重要,因為欺詐交易之類的類別比其他類別(合法交易)要稀有得多。

用語法更聰明地工作
任何有工作的人的AI寫作夥伴

精確和回憶

為了衡量模型性能質量,F1分數結合了兩個相關指標:

  • 精度,哪個回答:“當模型預測一個積極的情況時,正確的頻率是正確的?”
  • 回想一下,哪些答案是“在所有實際的積極案例中,該模型正確識別了多少?”

一個高精度但低召回的模型過於謹慎,缺少許多真正的陽性,而召回率很高但精度低的模型過於侵略性,產生了許多誤報。 F1分數通過採用精度和召回的諧波平均值來達到平衡,這給較低的值帶來了更大的權重,並確保模型在兩個指標上的表現都很好,而不是僅在一個指標上表現出色。

測量F1分數中的精度和回憶

精確和回憶示例

為了更好地理解精度和回憶,請考慮垃圾郵件檢測系統。如果系統的正確標記電子郵件為垃圾郵件,則意味著它具有很高的精度。例如,如果系統標誌100封電子郵件作為垃圾郵件,其中90封實際上是垃圾郵件,則精度為90%。另一方面,高召回率意味著系統會捕獲大多數實際的垃圾郵件電子郵件。例如,如果有200封實際的垃圾郵件電子郵件,並且我們的系統捕獲了90個垃圾郵件,則召回率為45%。

F1分數的變體

在具有特定需求的多類分類系統或方案中,可以以不同的方式計算F1分數,具體取決於哪些因素很重要:

  • Macro-F1:分別計算每個班級的F1分數,並獲得平均值
  • Micro-F1:計算所有預測的召回和精度
  • 加權f1:類似於宏F1,但基於頻率進行了加權

超越F1分數:F-Score家族

F1分數是一個稱為F分數的較大指標家族的一部分。這些分數提供了不同的精度和回憶方式:

  • F2:更加重視召回,這在虛假負昂貴時很有用
  • F0.5:更加強調精度,當誤報成本高昂時,這很有用

如何計算F1分數

F1得分在數學上定義為精度和回憶的諧波平均值。儘管這聽起來很複雜,但是當分解為清晰的步驟時,計算過程很簡單。

F1分數的公式:

F1分數的公式

在進行計算F1的步驟之前,重要的是要了解所謂的混亂矩陣的關鍵組成部分,該組件用於組織分類結果:

  • 真實的積極因素(TP):正確識別為正的案例數
  • 假陽性(FP):案件數量錯誤地識別為陽性
  • 虛假負面因素(FN):錯過的案件數(未識別的實際陽性)

一般過程涉及訓練模型,測試預測和組織結果,計算精度和召回,併計算F1分數。

步驟1:訓練分類模型

首先,必須對模型進行培訓以進行二進製或多類分類。這意味著該模型需要能夠將案例分類為屬於兩個類別之一。示例包括“垃圾郵件/不垃圾郵件”和“欺詐/不欺詐”。

步驟2:測試預測並組織結果

接下來,使用該模型在沒有用作培訓的一部分的單獨數據集上執行分類。將結果組織到混淆矩陣中。此矩陣顯示:

  • TP:實際上有多少個預測是正確的
  • FP:多少個積極預測不正確
  • FN:錯過了多少個陽性案件

混淆矩陣提供了模型的性能概述。

步驟3:計算精度

使用混淆矩陣,使用此公式計算精度:

計算精度的公式

例如,如果垃圾郵件檢測模型正確識別了90個垃圾郵件電子郵件(TP),但錯誤地標記了10個非PAM電子郵件(FP),則精度為0.90。

垃圾郵件檢測示例計算精確

步驟4:計算召回

接下來,使用公式計算回憶:

使用垃圾郵件檢測示例,如果總共有200封垃圾郵件電子郵件,而型號則抓到了90個(TP),而缺少110(FN),則召回率為0.45。

垃圾郵件檢測示例計算

步驟5:計算F1分數

有了精確和召回值,可以計算F1分數。

F1分數從0到1。解釋分數時,請考慮以下一般基準:

  • 0.9或更高:該模型的性能很好,但應檢查過度擬合。
  • 0.7至0.9:大多數應用的良好性能
  • 0.5至0.7:性能還可以,但是該模型可以使用改進。
  • 0.5或更少:該模型的性能較差,需要進行重大改進。

使用垃圾郵件檢測示例計算以進行精確和召回,F1分數將為0.60或60%。

垃圾郵件檢測示例計算精確和召回

在這種情況下,F1分數表明,即使精確度,較低的召回率也會影響整體表現。這表明,捕獲更多垃圾郵件電子郵件的空間有改善的空間。

F1得分與準確性

儘管F1和精度都量化了模型性能,但F1分數提供了更細微的措施。精度只需計算正確預測的百分比。但是,只要依靠準確性來衡量模型性能,當數據集中的一個類別的實例數量顯著超過另一個類別時,可能會出現問題。這個問題稱為準確性悖論

要了解此問題,請考慮垃圾郵件檢測系統的示例。假設電子郵件系統每天收到1,000封電子郵件,但其中只有10封實際上是垃圾郵件。如果垃圾郵件檢測只是將每封電子郵件都不歸類為垃圾郵件,則它仍然可以達到99%的準確性。這是因為1,000個中的990個預測是正確的,即使該模型在垃圾郵件檢測方面實際上是沒有用的。顯然,準確性不能準確地了解模型的質量。

F1分數通過結合精度和回憶測量來避免此問題。因此,應在以下情況下使用F1代替準確性:

  • 數據集不平衡。這在諸如對晦澀的醫療狀況或垃圾郵件檢測的診斷之類的領域中很常見,而其中一種類別相對罕見。
  • FN和FP都很重要。例如,醫療篩查測試試圖平衡捕獲實際問題與不引起虛假警報的平衡。
  • 該模型需要在太侵略性和太謹慎之間取得平衡。例如,在垃圾郵件過濾中,過於謹慎的過濾器可能會允許過多垃圾郵件(低召回),但很少會犯錯誤(高精度)。另一方面,即使確實抓住了所有垃圾郵件(高度召回),也可能會阻止真實的電子郵件(低精度)。

F1分數的應用

F1得分在平衡分類至關重要的各個行業中都有廣泛的應用。這些應用包括財務欺詐檢測,醫學診斷和內容適度。

財務欺詐檢測

旨在檢測財務欺詐的模型是使用F1分數非常適合測量的系統類別。金融公司通常每天處理數百萬或數十億美元的交易,實際欺詐案件相對罕見。因此,欺詐檢測系統需要盡可能多的欺詐交易,同時最大程度地減少錯誤警報的數量,並給客戶帶來不便。測量F1分數可以幫助金融機構確定其係統平衡欺詐預防的雙支柱和良好的客戶體驗。

醫學診斷

在醫學診斷和測試中,FN和FP都有嚴重的後果。考慮一個旨在檢測稀有癌症形式的模型的示例。錯誤地診斷健康的患者可能導致不必要的壓力和治療,而缺少實際的癌症病例將對患者產生可怕的後果。換句話說,該模型需要具有高精度和高召回率,這是F1分數可以測量的。

內容適中

在線論壇,社交媒體平台和在線市場中,調節內容是一個普遍的挑戰。為了實現平台安全而無需過度審查,這些系統必須平衡精度和召回。 F1分數可以幫助平台確定其係統平衡的能力這兩個因素。

F1分數的好處

除了通常比準確性提供更細微的模型性能視圖外,F1分數在評估分類模型性能時還提供了幾個關鍵優勢。這些好處包括更快的模型培訓和優化,降低培訓成本以及提早捕捉過度。

更快的模型培訓和優化

F1分數可以通過提供可用於指導優化的明確參考度量標準來幫助加快模型培訓。 ML從業人員可以專注於提高F1分數,而不是分別調整召回和精度,這通常涉及復雜的權衡。通過這種簡化的方法,可以快速識別最佳模型參數。

降低培訓成本

F1分數可以幫助ML從業人員通過提供細微的,單一的模型性能度量來做出明智的決定。有了這些信息,從業人員可以避免不必要的培訓週期,計算資源投資以及必須獲取或創建其他培訓數據。總體而言,這可能會導致培訓分類模型時大幅降低成本。

早日捕捉過度

由於F1分數考慮到精度和召回率,因此可以幫助ML從業者確定何時在培訓數據中過於專業。這個問題稱為過度擬合,是分類模型的常見問題。 F1分數為從業者提供了預警,即在模型達到無法概括現實世界數據的地步之前,他們需要調整培訓。

F1分數的局限性

儘管有很多好處,但F1得分仍具有從業人員應該考慮的幾個重要局限性。這些局限性包括缺乏對真正的負面因素的敏感性,不適合某些數據集,並且難以解釋多類問題。

對真正的負面影響缺乏敏感性

F1分數無法說明真正的負面因素,這意味著它不適合測量重要的應用。例如,考慮一個旨在識別安全駕駛條件的系統。在這種情況下,正確識別條件何時真正安全(真正的負面因素)與確定危險條件一樣重要。由於它沒有跟踪FN,因此F1分數無法準確捕獲整體模型性能的這一方面。

不適合某些數據集

F1分數可能不適合FP和FN的影響顯著不同的數據集。考慮癌症篩查模型的例子。在這種情況下,缺少積極案例(FN)可能會威脅生命,而錯誤地發現積極案例(FP)只會導致額外的測試。因此,使用可以加權來計算此費用的度量標準比F1分數更好。

難以解釋多類問題

儘管Micro-F1和Macro-F1分數之類的變化意味著F1得分可用於評估多類別的分類系統,但解釋這些匯總指標通常比二進制F1分數更為複雜。例如,Micro-F1得分可能會在分類較低的類別中掩蓋表現不佳的表現,而Macro-F1得分可能會超重稀有類。鑑於此,企業需要考慮在選擇合適的F1變體用於多類別分類模型時,對類別或實例級別的整體級別的均等處理更為重要。