Makine öğreniminde F1 puanı: etkili bir şekilde nasıl hesaplanır, uygulanır ve kullanılır

Yayınlanan: 2025-02-10

F1 skoru, ikili veya çok sınıflı sınıflandırmayı gerçekleştirmek için tasarlanmış makine öğrenimi (ML) modellerini değerlendirmek için güçlü bir metriktir. Bu makale F1 puanının ne olduğunu, neden önemli olduğunu, nasıl hesaplandığını ve uygulamalarını, faydalarını ve sınırlamalarını açıklayacaktır.

İçindekiler

  • F1 puanı nedir?
  • Bir F1 Puanı Nasıl Hesaplanır
  • F1 skoru ve doğruluk
  • F1 puanının uygulamaları
  • F1 puanının faydaları
  • F1 puanının sınırlamaları

F1 puanı nedir?

ML uygulayıcıları, sınıflandırma modelleri oluştururken ortak bir zorlukla karşı karşıyadır: yanlış alarmlardan kaçınırken tüm vakaları yakalamak için modeli eğitmek. Bu, yanlış alarmların ve eksik önemli sınıflandırmaların ciddi sonuçları olduğu finansal sahtekarlık tespiti ve tıbbi teşhis gibi kritik uygulamalarda özellikle önemlidir. Doğru dengeyi elde etmek, hileli işlemler gibi bir kategorinin diğer kategoriden (meşru işlemler) çok daha nadir olduğu dengesiz veri kümeleriyle uğraşırken özellikle önemlidir.

Dilbilgisi ile daha akıllı çalışın
Yapılacak işi olan herkes için AI yazma ortağı

Hassasiyet ve hatırlama

Model performans kalitesini ölçmek için, F1 puanı ilgili iki metriği birleştirir:

  • Hangisi, “model olumlu bir durum öngördüğünde, ne sıklıkla doğru?”
  • Hatırlayın, “Tüm gerçek olumlu vakalardan, model kaç tane doğru tanımladı?”

Yüksek hassasiyetli ancak düşük hatırlamaya sahip bir model aşırı temkinlidir, birçok gerçek pozitifi kaçırır, ancak yüksek hatırlama ancak düşük hassasiyeti olan aşırı agresiftir, birçok yanlış pozitif üretir. F1 skoru, daha düşük değerlere daha fazla ağırlık veren ve bir modelin sadece birinde mükemmel olmak yerine her iki metrikte de iyi performans göstermesini sağlayan harmonik hassasiyet ve hatırlama ortalamasını alarak bir denge kurar.

F1 puanında hassasiyet ve hatırlama ölçümü

Hassasiyet ve hatırlama örneği

Hassasiyeti ve hatırlamayı daha iyi anlamak için bir spam algılama sistemi düşünün. Sistemin spam olarak yüksek oranda doğru işaretleme e -postaları varsa, bu yüksek hassasiyete sahip olduğu anlamına gelir. Örneğin, sistem 100 e -postayı spam olarak işaretlerse ve bunlardan 90'ı aslında spam ise, hassasiyet%90'dır. Öte yandan, yüksek hatırlama, sistemin en gerçek spam e -postalarını yakaladığı anlamına gelir. Örneğin, 200 gerçek spam e -postası varsa ve sistemimiz bunları yakalarsa, geri çağırma%45'tir.

F1 skorunun varyantları

Çok sınıflı sınıflandırma sistemlerinde veya belirli ihtiyaçları olan senaryolarda, F1 skoru hangi faktörlerin önemli olduğuna bağlı olarak farklı şekillerde hesaplanabilir:

  • Macro-F1:F1 skorunu her sınıf için ayrı ayrı hesaplar ve ortalamayı alır
  • Micro-F1:tüm tahminleri hatırlama ve hassasiyeti hesaplar
  • Ağırlıklı-F1: Makro-F1'e benzer, ancak sınıflar frekansa göre ağırlıklandırılır

F1 skorunun ötesinde: F-skor ailesi

F1 skoru, F-skorları adı verilen daha geniş bir metrik ailesinin bir parçasıdır. Bu puanlar, hassasiyet ve hatırlama için farklı yollar sunar:

  • F2:Yanlış negatifler maliyetli olduğunda yararlı olan hatırlamaya daha fazla önem verir
  • F0.5:Yanlış pozitifler pahalı olduğunda yararlı olan hassasiyete daha fazla önem verir

Bir F1 Puanı Nasıl Hesaplanır

F1 skoru matematiksel olarak hassasiyet ve hatırlamanın harmonik ortalaması olarak tanımlanır. Bu karmaşık görünse de, hesaplama işlemi net adımlara ayrıldığında basittir.

F1 skorunun formülü:

F1 puanı için formül

F1'i hesaplama adımlarına dalmadan önce, sınıflandırma sonuçlarını düzenlemek için kullanılankarışıklık matrisinintemel bileşenlerini anlamak önemlidir:

  • Gerçek Pozitifler (TP):Olumlu olarak tanımlanan vaka sayısı
  • Yanlış Pozitifler (FP):yanlış olarak tanımlanan vaka sayısı
  • Yanlış Negatifler (FN):Kaçırılan vaka sayısı (tanımlanmayan gerçek pozitifler)

Genel süreç, modeli eğitmeyi, tahminleri test etmeyi ve sonuçları düzenlemeyi, hassasiyet ve hatırlamayı hesaplamayı ve F1 puanının hesaplanmasını içerir.

1. Adım: Bir Sınıflandırma Modelini Eğitin

İlk olarak, bir model ikili veya çok sınıflı sınıflandırmalar yapmak için eğitilmelidir. Bu, modelin vakaları iki kategoriden birine ait olarak sınıflandırabilmesi gerektiği anlamına gelir. Örnekler arasında “spam/spam değil” ve “dolandırıcılık/sahtekarlık” yer alır.

2. Adım: Testleri test edin ve sonuçları düzenleyin

Ardından, eğitimin bir parçası olarak kullanılmayan ayrı bir veri kümesinde sınıflandırmalar yapmak için modeli kullanın. Sonuçları karışıklık matrisine düzenleyin. Bu matris:

  • TP: Kaç tahmin aslında doğruydu
  • FP: Kaç tane olumlu tahmin yanlıştı
  • FN: Kaç olumlu vaka kaçırıldı

Karışıklık matrisi, modelin nasıl performans gösterdiğine genel bir bakış sağlar.

Adım 3: Hassasiyeti hesapla

Karışıklık matrisi kullanılarak hassasiyet bu formülle hesaplanır:

Hassasiyet hesaplamak için formül

Örneğin, bir spam algılama modeli 90 spam e -postasını (TP) doğru bir şekilde tanımladıysa, ancak yanlış 10 PAM olmayan e -postayı (FP) işaretlediyse, hassasiyet 0.90'dır.

Hassasiyet için spam algılama örneği hesaplamaları

4. Adım: Geri çağırmayı hesapla

Ardından, formülü kullanarak hatırlama hesaplayın:

Spam algılama örneğini kullanarak, toplam 200 spam e -postası varsa ve model 110 (FN) eksikken 90 tanesini (TP) yakaladı, geri çağırma 0.45'tir.

Geri çağırma için spam algılama örneği hesaplamaları

Adım 5: F1 puanını hesaplayın

Eldeki hassasiyet ve geri çağırma değerleri ile F1 skoru hesaplanabilir.

F1 skoru 0 ile 1 arasında değişmektedir. Puanı yorumlarken bu genel ölçütleri göz önünde bulundurun:

  • 0.9 veya daha yüksek:Model harika performans gösteriyor, ancak aşırı takılmak için kontrol edilmelidir.
  • 0.7 ila 0.9:Çoğu uygulama için iyi performans
  • 0.5 ila 0.7:Performans tamam, ancak model iyileştirme kullanabilir.
  • 0,5 veya daha az:Model kötü performans gösteriyor ve ciddi bir gelişme gerektiriyor.

Hassasiyet ve geri çağırma için spam algılama örneği hesaplamalarını kullanarak, F1 skoru%0.60 veya%60 olacaktır.

Hassasiyet ve hatırlama için spam algılama örneği hesaplamaları

Bu durumda, F1 skoru, yüksek hassasiyetle bile, düşük hatırlamanın genel performansı etkilediğini gösterir. Bu, daha fazla spam e -postası yakalamada iyileştirme için yer olduğunu göstermektedir.

F1 skoru ve doğruluk

Hem F1 hem dedoğrulukmodel performansını ölçerken, F1 puanı daha nüanslı bir önlem sağlar. Doğruluk basitçe doğru tahminlerin yüzdesini hesaplar. Bununla birlikte, bir veri kümesindeki bir kategorinin örnek sayısı diğer kategoriyi önemli ölçüde geride bıraktığında, model performansını ölçmek için doğruluğa güvenmek sorunlu olabilir. Bu problemdoğruluk paradoksuolarak adlandırılır.

Bu sorunu anlamak için spam algılama sistemi örneğini düşünün. Bir e -posta sisteminin her gün 1.000 e -posta aldığını varsayalım, ancak bunlardan sadece 10'u aslında spam. Spam algılama her e -postayı spam olarak sınıflandırırsa, yine de% 99 doğruluk elde edecektir. Bunun nedeni, spam tespiti söz konusu olduğunda model aslında işe yaramaz olsa da, 1000 üzerinden 990 tahmin doğru olmuştur. Açıkçası, doğruluk modelin kalitesinin doğru bir resmini vermez.

F1 skoru, hassasiyet ve geri çağırma ölçümlerini birleştirerek bu sorunu önler. Bu nedenle, aşağıdaki durumlarda doğruluk yerine F1 kullanılmalıdır:

  • Veri kümesi dengesizdir.Bu, belirsiz tıbbi durumların tanısı veya bir kategorinin nispeten nadir olduğu spam tespiti gibi alanlarda yaygındır.
  • FN ve FP'nin ikisi de önemlidir.Örneğin, tıbbi tarama testleri, yanlış alarm vermemekle ilgili gerçek sorunları yakalamayı dengelemeye çalışır.
  • Modelin çok agresif ve çok temkinli olmak arasında bir denge kurması gerekiyor.Örneğin, spam filtrelemesinde, aşırı temkinli bir filtre çok fazla spam bırakabilir (düşük hatırlama), ancak nadiren hatalar yapabilir (yüksek hassasiyet). Öte yandan, aşırı agresif bir filtre, tüm spam (yüksek hatırlama) yakalasa bile gerçek e -postaları (düşük hassasiyet) engelleyebilir.

F1 puanının uygulamaları

F1 skoru, dengeli sınıflandırmanın kritik olduğu çeşitli endüstrilerde çok çeşitli uygulamalara sahiptir. Bu uygulamalar finansal sahtekarlık tespiti, tıbbi teşhis ve içerik denetimi içerir.

Finansal dolandırıcılık tespiti

Finansal sahtekarlığı tespit etmek için tasarlanmış modeller, F1 skorunu kullanarak ölçüm için uygun bir sistem kategorisidir. Finansal firmalar genellikle günlük milyonlarca veya milyarlarca işlem işliyor ve gerçek sahtekarlık vakaları nispeten nadirdir. Bu nedenle, bir sahtekarlık algılama sisteminin mümkün olduğunca çok sayıda hileli işlem yakalaması ve aynı zamanda yanlış alarm sayısını en aza indirmesi ve müşteriler için rahatsızlık vermesi gerekir. F1 puanının ölçülmesi, finans kurumlarının sistemlerinin sahtekarlık önleme ve iyi bir müşteri deneyiminin ikiz sütunlarını ne kadar iyi dengelediğini belirlemesine yardımcı olabilir.

Tıbbi teşhis

Tıbbi tanı ve testte, FN ve FP'nin her ikisinin de ciddi sonuçları vardır. Nadir kanser biçimlerini tespit etmek için tasarlanmış bir model örneğini düşünün. Sağlıklı bir hastayı yanlış teşhis etmek gereksiz stres ve tedaviye yol açabilirken, gerçek bir kanser vakasının eksik hasta için korkunç sonuçları olacaktır. Başka bir deyişle, modelin hem yüksek hassasiyeti hem de yüksek hatırlamaya sahip olması gerekir, bu da F1 skorunun ölçebileceği bir şeydir.

İçerik denetimi

İçeriği denetlemek, çevrimiçi forumlarda, sosyal medya platformlarında ve çevrimiçi pazarlarda yaygın bir zorluktur. Platform güvenliğini aşırı terk etmeden elde etmek için, bu sistemler hassasiyeti ve hatırlamayı dengelemelidir. F1 puanı, platformların sistemlerinin bu iki faktörü ne kadar iyi dengelediğini belirlemesine yardımcı olabilir.

F1 puanının faydaları

Genel olarak model performansının doğruluktan daha nüanslı bir görünümünü sağlamanın yanı sıra, F1 puanı sınıflandırma modeli performansını değerlendirirken birkaç temel avantaj sağlar. Bu faydalar arasında daha hızlı model eğitim ve optimizasyon, azaltılmış eğitim maliyetleri ve aşırı uyumu erken yakalamayı içerir.

Daha hızlı model eğitimi ve optimizasyonu

F1 skoru, optimizasyonu yönlendirmek için kullanılabilecek net bir referans metriği sağlayarak model eğitimini hızlandırmaya yardımcı olabilir. ML uygulayıcıları, genellikle karmaşık değişimleri içeren geri çağırma ve hassasiyeti ayrı ayrı ayarlamak yerine, F1 puanını artırmaya odaklanabilirler. Bu aerodinamik yaklaşımla, optimal model parametreleri hızlı bir şekilde tanımlanabilir.

Düşük eğitim maliyetleri

F1 puanı, ML uygulayıcılarının, bir modelin nüanslı, tek bir ölçüm model performansını sağlayarak konuşlandırılmaya hazır olduğu hakkında bilinçli kararlar vermelerine yardımcı olabilir. Bu bilgilerle, uygulayıcılar gereksiz eğitim döngülerinden, hesaplama kaynaklarına yapılan yatırımlardan ve ek eğitim verileri edinmek veya oluşturmak zorunda kalabilirler. Genel olarak, bu sınıflandırma modellerini eğitirken önemli maliyet azaltımlarına yol açabilir.

Erken aşırı uyumu yakalamak

F1 puanı hem hassasiyeti hem de hatırlamayı dikkate aldığından, ML uygulayıcılarının bir modelin eğitim verilerinde ne zaman çok uzmanlaştığını belirlemelerine yardımcı olabilir. Aşırı takma olarak adlandırılan bu sorun, sınıflandırma modellerinde yaygın bir konudur. F1 puanı, uygulayıcılara, model gerçek dünya verileri üzerinde genelleme yapamayacağı bir noktaya ulaşmadan önce eğitimi ayarlamaları gerektiği konusunda erken bir uyarı verir.

F1 puanının sınırlamaları

Birçok faydasına rağmen, F1 puanının uygulayıcıların dikkate alması gereken birkaç önemli sınırlaması vardır. Bu sınırlamalar, gerçek negatiflere duyarlılık eksikliği, bazı veri kümeleri için uygun olmamak ve çok sınıflı sorunlar için yorumlanması daha zor olmayı içerir.

Gerçek negatiflere duyarlılık eksikliği

F1 puanı gerçek negatifleri açıklamaz, bu da bunun ölçülmesinin önemli olduğu uygulamalar için çok uygun olmadığı anlamına gelir. Örneğin, güvenli sürüş koşullarını tanımlamak için tasarlanmış bir sistemi düşünün. Bu durumda, koşulların ne zaman ne zaman güvenli olduğunu (gerçek negatifler) doğru bir şekilde tanımlamak tehlikeli koşulları tanımlamak kadar önemlidir. FN'yi izlemediğinden, F1 skoru genel model performansının bu yönünü doğru bir şekilde yakalamaz.

Bazı veri kümeleri için uygun değil

F1 skoru, FP ve FN'nin etkisinin önemli ölçüde farklı olduğu veri kümeleri için uygun olmayabilir. Bir kanser tarama modeli örneğini düşünün. Böyle bir durumda, pozitif bir vakayı (FN) eksik, hayatı tehdit edici olabilirken, yanlış bir şekilde olumlu bir durum (FP) bulmak sadece ek testlere yol açar. Bu nedenle, bu maliyeti hesaba katmak için ağırlıklandırılabilen bir metrik kullanmak F1 skorundan daha iyi bir seçimdir.

Çok sınıflı sorunlar için yorumlanması daha zor

Micro-F1 ve makro-F1 skorları gibi varyasyonlar, F1 skorunun çok sınıflı sınıflandırma sistemlerini değerlendirmek için kullanılabileceği anlamına gelirken, bu toplu metrikleri yorumlamak genellikle ikili F1 skorundan daha karmaşıktır. Örneğin, Micro-F1 skoru daha az sıklıktaki sınıfları sınıflandırmada kötü performansı gizleyebilirken, makro-F1 skoru nadir sınıflar aşırı kilolu olabilir. Bu göz önüne alındığında, işletmelerin çok sınıflı sınıflandırma modelleri için doğru F1 varyantını seçerken sınıfların eşit muamelesi mi yoksa genel örnek düzeyinde performansın daha önemli olup olmadığını düşünmelidir.