Torbalama ile Sağlam Yapay Zeka Modelleri Oluşturma: Teknikler, Faydalar ve Uygulamalar
Yayınlanan: 2025-01-09Torbalama, tahmine dayalı modellerin tutarlılığını artıran bir topluluk makine öğrenimi (ML) tekniğidir. Bu kılavuz torbalamanın nasıl çalıştığını açıklar, avantajlarını, zorluklarını ve uygulamalarını tartışır ve bunu güçlendirme gibi ilgili tekniklerle karşılaştırır.
İçindekiler
- Torbalama nedir?
- Varyans ve önyargı
- Torbalama ve yükseltme
- Torbalama nasıl çalışır?
- Torbalama algoritması türleri
- Torbalama uygulamaları
- Torbalamanın avantajları
- Torbalamanın zorlukları ve sınırlamaları
Torbalama nedir?
Torbalama (veya daha resmi olarak önyüklemetoplamaregating), birden fazla benzer makine öğrenimi modeli kullanarak çıktı doğruluğunu artıran bir topluluk öğrenme tekniğidir. Topluluk öğrenimi özünde herhangi bir bireysel modelden daha iyi performans elde etmek için çeşitli modelleri birleştirir.
Yaklaşım, eğitim verilerinin rastgele alt kümelere bölünmesini ve her birinde farklı bir modelin eğitilmesini içerir. Yeni girdiler için, tüm modellerden gelen tahminler nihai çıktıyı üretmek üzere bir araya getirilir. Bu teknik, rastgele alt kümeler kullanarak modeller arasındaki tutarsızlıkları azaltır ve daha tutarlı tahminler sağlar.
Torbalama, ML sistemindeki sapmayı en aza indirerek tutarlılığı artırmada özellikle etkilidir.
Varyans ve önyargı
Önyargıyı ve değişkenliği azaltmak, herhangi bir makine öğrenimi modelinin veya sisteminin temel hedefleridir.
Önyargı, bir ML sisteminin gördüğü verilerle ilgili varsayımları nedeniyle yaptığı hataları açıklar. Genellikle modelin ortalama ne kadar yanlış olduğu hesaplanarak belirlenir. Varyans model tutarlılığını ölçer. Benzer girdiler için model çıktılarının ne kadar farklı olduğu kontrol edilerek tahmin edilir.
Yüksek önyargı
Örnek olarak bir evin satış fiyatını özelliklerinden (m2 ve yatak odası sayısı gibi) yola çıkarak tahmin etme problemini ele alalım. Basit bir model, pek çok basitleştirici varsayımda bulunabilir ve yalnızca metrekareye bakabilir, bu da onun yüksek bir önyargıya sahip olmasına neden olur. Gerçeklik, varsayımlardan daha karmaşık olduğundan, eğitim verilerinde bile sürekli olarak bazı şeyleri yanlış anlayacaktır. Dolayısıyla gerçek fiyat tahminlerini (konum, okul kalitesi ve yatak odası sayısı gibi) tespit edemiyor.
Yüksek varyans
Daha karmaşık bir model, eğitim verilerindekihereğilimi yakalayabilir ve yüksek varyansa sahip olabilir. Örneğin, bu model, eğitim verilerindeki ev numarası (esasen bir sokak adresinin sayısal kısmı) ile fiyat arasında küçük bir korelasyon bulabilir ve bunu, gerçek bir tahmin aracı olmasa da kullanabilir. Eğitim verilerinde iyi sonuç verecek, ancak gerçek dünya verilerinde başarısız olacaktır.
Varyans-önyargı değiş tokuşu
İdeal bir model, benzer girdiler arasında tutarlı bir şekilde doğru çıktıları üreten, düşük yanlılığa ve düşük varyansa sahip olmalıdır. Yüksek önyargı genellikle modelin eğitim verilerindeki kalıpları yakalayamayacak kadar basit olmasından, yani yetersiz uyumdan kaynaklanır. Yüksek varyans genellikle modelin eğitim verilerindeki sahte kalıpları yakalamasından (aşırı uyum) kaynaklanır.
Bir modelin karmaşıklığını artırmak, daha fazla model yakalamasına olanak tanıyarak önyargının azalmasına yol açabilir. Bununla birlikte, bu daha karmaşık model, eğitim verilerini gereğinden fazla uydurma eğiliminde olacak ve bu da daha yüksek varyansa yol açacaktır (ve bunun tersi de geçerlidir). Uygulamada, iyi dengelenmiş bir önyargı-varyans değişiminin elde edilmesi zordur.
Torbalama, varyansın azaltılmasına odaklanır. Topluluktaki her model, veri kümesine gereğinden fazla uyduğu için yüksek varyansa sahip olabilir. Ancak her model rastgele bir veri seti aldığından, farklı sahte modeller keşfedeceklerdir. Ev fiyatı örneğinde, bir model çift sayılı evlere aşırı değer verebilirken, bir başka model onlara düşük değer biçebilir ve çoğu model ev sayılarını tamamen göz ardı edebilir.
Bu keyfi kalıplar, tahminlerinin ortalamasını aldığımızda ortalamaya ulaşma eğilimindedir ve bizi gerçek temel ilişkilerle baş başa bırakır. Böylece topluluk, herhangi bir bireysel modelle karşılaştırıldığında daha düşük varyans ve daha az fazla uyum sağlar.
Torbalama ve yükseltme
Torbalamanın güçlendirme ile aynı bağlamda konuşulduğunu duyabilirsiniz. Bunlar en yaygın toplu öğrenme teknikleridir ve birçok popüler makine öğrenimi modelinin temelini oluşturur. Güçlendirme, modellerin önceki modellerin hataları üzerine eğitildiği bir tekniktir. Daha sonra bu model grubu herhangi bir girdiye yanıt vermek için kullanılır. İki teknik arasındaki farkları daha ayrıntılı olarak tartışalım.
Torbalama | Artırma | |
Model eğitimi | Modeller farklı veri alt kümeleri üzerinde paralel olarak eğitilir | Modeller sırayla eğitilir ve her model bir önceki modelin hatalarına odaklanır. |
Hata azaltma odağı | Varyansı azaltır | Önyargıyı azaltır |
Ortak algoritmalar | Rastgele orman, torbalanmış karar ağaçları | AdaBoost, degrade artırma, XGBoost |
Aşırı uyum riski | Rastgele örnekleme nedeniyle daha düşük aşırı uyum riski | Aşırı uyum riski daha yüksek |
Hesaplama karmaşıklığı | Daha düşük | Daha yüksek |
Her iki teknik de yaygındır, ancak güçlendirme daha popülerdir. Yükseltme hem önyargıyıhem desapmayı azaltabilirken, torbalama genellikle yalnızca sapmayı etkiler.
Torbalama nasıl çalışır?
Torbalamanın gerçekte nasıl çalıştığını düşünelim. İşin özü, eğitim verilerini rastgele bölmek, modelleri bölünmüş veriler üzerinde paralel olarak eğitmek ve girdilere yanıt vermek için tüm modelleri kullanmaktır. Her birini sırayla ele alacağız.
Veri bölme
Nveri noktasına sahip bir eğitim veri setimiz olduğunu vemmodellerden oluşan paketli bir topluluk oluşturmak istediğimizi varsayalım. Daha sonra, her birinnoktaya sahipmadet veri seti (her model için bir tane) oluşturmamız gerekiyor. Her veri kümesinden'denfazla veya daha az nokta varsa, bazı modeller aşırı veya yetersiz eğitilecektir.
Tek bir yeni rastgele veri seti oluşturmak için orijinal eğitim veri setinden rastgelennokta seçiyoruz. Daha da önemlisi, her seçimden sonra noktaları orijinal veri kümesine döndürürüz. Sonuç olarak, yeni rastgele veri kümesi orijinal veri noktalarının bazılarının birden fazla kopyasına sahip olurken diğerlerinin sıfır kopyasına sahip olacaktır. Ortalama olarak bu veri kümesinin %63'ü benzersiz veri noktalarından ve %37'si kopya veri noktalarından oluşacaktır.
Daha sonra tümmveri kümelerini oluşturmak için bu işlemi tekrarlıyoruz. Veri noktası temsilindeki çeşitlilik, topluluk modelleri arasında çeşitlilik yaratılmasına yardımcı olur ve bu da genel olarak varyansı azaltmanın anahtarıdır.
Model eğitimi
Mrastgeleleştirilmiş veri kümelerimizle, her veri kümesine bir model olacak şekildemmodeli eğitiyoruz. Benzer önyargıları sağlamak için baştan sona aynı tür modeli kullanmalıyız. Modelleri paralel olarak eğitebiliriz, bu da çok daha hızlı yineleme sağlar.
Modelleri birleştirme
Artıkm sayıdaeğitilmiş modelimiz olduğuna göre, bunları herhangi bir girdiye yanıt vermek için bir topluluk olarak kullanabiliriz. Her giriş veri noktası, modellerin her birine paralel olarak beslenir ve her model, çıkışıyla yanıt verir. Daha sonra nihai bir cevaba ulaşmak için modellerin çıktılarını topluyoruz. Eğer bu bir sınıflandırma problemiyse, çıkışların modunu alırız (en yaygın çıkış). Eğer regresyon problemi ise çıktıların ortalamasını alıyoruz.
Buradaki varyansı azaltmanın anahtarı, eğitim verilerindeki farklılıklar nedeniyle her modelin bazı girdi türlerinde daha iyi, bazılarında ise daha kötü olmasıdır. Ancak genel olarak herhangi bir modeldeki hatalar diğer modeller tarafından iptal edilmeli ve bu da varyansın azalmasına yol açmalıdır.
Torbalama algoritması türleri
Bir algoritma olarak torbalama her türlü modele uygulanabilir. Pratikte çok yaygın olan iki torbalanmış model vardır: rastgele ormanlar ve torbalanmış karar ağaçları. Her ikisini de kısaca inceleyelim.
Rastgele ormanlar
Rastgele orman, her biri rastgele veri kümeleri üzerinde eğitilmiş bir karar ağaçları topluluğudur. Karar ağacı, uygun bir etiket bulana kadar girdi verileriyle ilgili evet/hayır sorularına yanıt vererek tahminlerde bulunan bir modeldir.
Rastgele bir ormanda, her karar ağacı aynı hiper parametrelere (ağacın maksimum derinliği veya bölme başına minimum örnekler gibi önceden ayarlanmış yapılandırmalara) sahiptir ancak eğitim veri kümesinden farklı (rastgele seçilen) özellikler kullanır. Özellik rastgeleleştirmesi olmadan, her karar ağacı, eğitim verilerindeki farklılıklara rağmen benzer yanıtlara yakınlaşabilir. Rastgele ormanlar makine öğrenimi için son derece popüler bir seçimdir ve genellikle makine öğrenimi görevlerini çözmek için iyi bir başlangıç noktasıdır.
Torbalı karar ağaçları
Torbalı karar ağaçları, her ağacın eğitim veri kümesindeki aynı özellikleri kullanması dışında rastgele ormanlara çok benzer. Bu, ağaçlardan elde edilen çıktıların çeşitliliğini azaltır; bunun da artıları ve eksileri vardır. İşin iyi tarafı, ağaçlar daha istikrarlıdır ve muhtemelen benzer yanıtlar verecektir; bu hangi özelliklerin önemli olduğunu belirlemek için kullanılabilir. Dezavantajı ise varyansın o kadar azaltılmayacak olmasıdır. Bu nedenle rastgele ormanlar, torbalı karar ağaçlarından çok daha fazla kullanılmaktadır.
Torbalama uygulamaları
Torbalama, varyansın istenenden yüksek olduğu herhangi bir ML probleminde kullanılabilir. ML modeli olduğu sürece torbalanabilir. Bunu daha somut hale getirmek için birkaç örneği inceleyeceğiz.
Sınıflandırma ve regresyon
Sınıflandırma ve regresyon temel makine öğrenimi problemlerinden ikisidir. Kullanıcı bir görselin konusunu kedi veya köpek olarak sınıflandırmak isteyebilir. Ya da bir kullanıcı bir evin satış fiyatını onun özelliklerinden (regresyon) yola çıkarak tahmin etmek isteyebilir. Torbalama, gördüğümüz gibi, her ikisi için de varyansın azaltılmasına yardımcı olabilir.
Sınıflandırmada topluluk modellerinin modu kullanılır. Regresyonda ortalama kullanılır.
Özellik seçimi
Özellik seçimi, bir veri kümesindeki en önemli özelliklerin (doğru çıktıyı en iyi tahmin edenlerin) bulunmasıyla ilgilidir. Bir model geliştirici, ilgisiz özellik verilerini kaldırarak aşırı uyum olasılığını azaltabilir.
En önemli özellikleri bilmek aynı zamanda modelleri daha yorumlanabilir hale getirebilir. Ek olarak, model geliştiricileri bu bilgiyi eğitim verilerindeki özelliklerin sayısını azaltmak için kullanabilir ve böylece eğitimin daha hızlı olmasını sağlayabilir. Torbalı karar ağaçları önemli özellikleri ortaya çıkarmak için iyi çalışır. İçlerinde ağırlıklı olarak ağırlıklandırılan özellikler muhtemelen önemli olanlar olacaktır.
E-ticarette torbalama
E-ticarette torbalama, müşteri kaybının tahmin edilmesi açısından özellikle değerlidir. Kayıp verileriyle eğitilen makine öğrenimi modelleri, karmaşık, gürültülü müşteri davranış kalıpları nedeniyle genellikle yüksek değişkenliğe sahiptir; eğitim veri setlerine gereğinden fazla uyum sağlayabilirler. Ayrıca, bir müşterinin adındaki sesli harf sayısının müşteriyi kaybetme olasılığını etkilediğini varsaymak gibi sahte ilişkiler de çıkarabilirler.
Eğitim veri seti bu aşırı uyuma neden olan yalnızca birkaç örnek içerebilir. Topluluk, torbalanmış modelleri kullanarak sahte korelasyonları göz ardı ederken gerçek kayıp göstergelerini daha iyi tanımlayabilir ve bu da daha güvenilir kayıp tahminlerine yol açabilir.
Torbalamanın avantajları
Torbalama, model farklılığını ve aşırı uyumu azaltır ve veri sorunlarının çözülmesine yardımcı olabilir. Aynı zamanda en paralelleştirilebilir ve etkili torbalama tekniklerinden biridir.
Azaltılmış varyans
Model varyansı, bir modelin verilerdeki doğru, anlamlı kalıpları öğrenmediğini gösterir. Bunun yerine, fazla bir anlam ifade etmeyen ve kusurlu eğitim verilerinin bir belirtisi olan rastgele korelasyonları tespit ediyor.
Torbalama modellerin farklılığını azaltır; topluluk bir bütün olarak girdi ve çıktı arasındaki anlamlı ilişkilere odaklanır.
Yeni verilere iyi genelleme yapın
Torbalı modellerin anlamlı ilişkileri yakalama olasılığı daha yüksek olduğundan, yeni veya görülmemiş verilere genelleme yapabilirler. İyi genelleme, makine öğreniminin nihai hedefidir, dolayısıyla torbalama çoğu model için genellikle yararlı bir tekniktir.
Hemen hemen her makine öğrenimi probleminde, eğitim veri seti gerçek verileri tam olarak temsil etmez, bu nedenle iyi bir genelleme çok önemlidir. Diğer durumlarda gerçek veri dağılımı zamanla değişebilir, dolayısıyla uyarlanabilir bir model gereklidir. Torbalama her iki durumda da yardımcı olur.
Son derece paralelleştirilebilir
Boosting'in aksine, torbalı modeller oluşturmak oldukça paralelleştirilebilir. Her model bağımsız ve eş zamanlı olarak eğitilebilir, bu da hızlı denemelere ve daha kolay hiperparametre ayarına olanak tanır (tabii ki paralel eğitim için yeterli bilgi işlem kaynağınızın olması şartıyla).
Ayrıca her model diğerlerinden bağımsız olduğundan değiştirilebilir veya çıkarılabilir. Örneğin, zayıf bir model, diğer modellere dokunmadan performansını artırmak için farklı bir rastgele alt küme üzerinde yeniden eğitilebilir.
Torbalamanın zorlukları ve sınırlamaları
Maalesef daha fazla model eklemek daha fazla karmaşıklık katıyor. Ekstra karmaşıklığın getirdiği zorluklar, torbalanmış modellerin çok daha fazla bilgi işlem kaynağı gerektirmesi, yorumlanması ve anlaşılmasının daha zor olması ve daha fazla hiper parametre ayarı gerektirmesi anlamına gelir.
Daha fazla hesaplama kaynağına ihtiyaç var
Daha fazla modelin çalıştırılması için daha fazla kaynak gerekir ve çoğu zaman paketli topluluklarda 50'den fazla model bulunur. Bu, daha küçük modeller için işe yarayabilir, ancak daha büyük modellerde kontrol edilemez hale gelebilir.
Topluluğun tepki süreleri de büyüdükçe olumsuz etkilenebilir. Kaynakların bir de fırsat maliyeti vardır: Daha büyük, daha iyi bir modeli eğitmek için daha iyi kullanılabilirler.
Yorumlanması daha zor
ML modellerinin bir bütün olarak yorumlanması zordur. Bireysel karar ağaçları, kararların hangi özelliğe dayandığını gösterdiği için biraz daha kolaydır. Ancak rastgele bir ormanda olduğu gibi bir grup yanıtı bir araya getirdiğinizde, her ağaçtan gelen çelişkili yanıtlar kafa karıştırıcı olabilir.
Tahminlerin modunu veya ortalamasını almak, bunun neden doğru tahmin olduğunu açıklamaz. Kalabalığın bilgeliğini çoğu zaman haklı olsa da anlamak zordur.
Daha fazla hiperparametre ayarı
Daha fazla modelle hiperparametrelerin etkileri büyütülür. Hiperparametrelerdeki küçük bir hata artık düzinelerce veya yüzlerce modeli etkileyebilir. Aynı hiperparametre setinin ayarlanması daha fazla zaman gerektirir ve bu da sınırlı kaynaklara daha da büyük bir yük getirebilir.