Makine Öğreniminde Doğrusal Regresyon Nedir?
Yayınlanan: 2024-09-06Doğrusal regresyon, veri analizi ve makine öğreniminde (ML) temel bir tekniktir. Bu kılavuz doğrusal regresyonu, nasıl oluşturulduğunu, türlerini, uygulamalarını, faydalarını ve dezavantajlarını anlamanıza yardımcı olacaktır.
İçindekiler
- Doğrusal regresyon nedir?
- Doğrusal regresyon türleri
- Doğrusal regresyon ve lojistik regresyon
- Doğrusal regresyon nasıl çalışır?
- Doğrusal regresyonun uygulamaları
- ML'de doğrusal regresyonun avantajları
- ML'de doğrusal regresyonun dezavantajları
Doğrusal regresyon nedir?
Doğrusal regresyon, bağımlı bir değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi modellemek için makine öğreniminde kullanılan istatistiksel bir yöntemdir. Gözlemlenen verilere doğrusal bir denklem uydurarak ilişkileri modeller, genellikle daha karmaşık algoritmalar için bir başlangıç noktası görevi görür ve tahmine dayalı analizde yaygın olarak kullanılır.
Temel olarak doğrusal regresyon, bir bağımlı değişken (tahmin etmek istediğiniz sonuç) ile bir veya daha fazla bağımsız değişken (tahmin için kullandığınız girdi özellikleri) arasındaki ilişkiyi, bir dizi veri noktası üzerinden en uygun düz çizgiyi bularak modeller.Regresyon çizgisiolarak adlandırılan bu çizgi, bağımlı değişken (tahmin etmek istediğimiz sonuç) ile bağımsız değişken(ler) (tahmin için kullandığımız girdi özellikleri) arasındaki ilişkiyi temsil eder. Basit bir doğrusal regresyon çizgisinin denklemi şu şekilde tanımlanır:
y = mx + c
burada y bağımlı değişkendir, x bağımsız değişkendir, m doğrunun eğimidir ve c y-kesişim noktasıdır. Bu denklem, artıklar olarak bilinen tahmin edilen ve gözlemlenen değerler arasındaki farkları en aza indirmek amacıyla girdileri tahmin edilen çıktılarla eşleştirmek için matematiksel bir model sağlar. Bu artıkları en aza indirerek doğrusal regresyon, verileri en iyi temsil eden bir model üretir.
Kavramsal olarak doğrusal regresyon, bu veri noktaları arasında bir ilişki olup olmadığını belirlemek için grafikteki noktalar boyunca düz bir çizgi çizmek olarak görselleştirilebilir. Bir dizi veri noktası için ideal doğrusal regresyon modeli, veri kümesindeki her noktanın değerlerine en iyi yaklaşan çizgidir.
Doğrusal regresyon türleri
İki ana doğrusal regresyon türü vardır:basit doğrusal regresyonveçoklu doğrusal regresyon.
Basit doğrusal regresyon
Basit doğrusal regresyon, tek bir bağımsız değişken ile bağımlı değişken arasındaki ilişkiyi düz bir çizgi kullanarak modeller. Basit doğrusal regresyonun denklemi şöyledir:
y = mx + c
burada y bağımlı değişkendir, x bağımsız değişkendir, m doğrunun eğimidir ve c y kesme noktasıdır.
Bu yöntem, tek değişkenli senaryolarla uğraşırken net içgörüler elde etmenin basit bir yoludur. Hastanın boyunun kiloyu nasıl etkilediğini anlamaya çalışan bir doktoru düşünün. Doktor, her değişkeni bir grafik üzerinde çizerek ve basit doğrusal regresyon kullanarak en uygun çizgiyi bularak, hastanın ağırlığını yalnızca boyuna göre tahmin edebiliyordu.
Çoklu doğrusal regresyon
Çoklu doğrusal regresyon, basit doğrusal regresyon kavramını birden fazla değişkeni kapsayacak şekilde genişleterek, birden fazla faktörün bağımlı değişkeni nasıl etkilediğinin analizine olanak tanır. Çoklu doğrusal regresyonun denklemi şöyledir:
y = b 0 + b 1 x 1 + b 2 x 2 + … + b n x n
burada y bağımlı değişkendir, x 1 , x 2 , …, xn bağımsız değişkenlerdir ve b 1 , b 2 , …, bn her bağımsız değişken ile bağımlı değişken arasındaki ilişkiyi açıklayan katsayılardır.
Örnek olarak ev fiyatlarını tahmin etmek isteyen bir emlakçıyı düşünün. Aracı, evin büyüklüğü veya posta kodu gibi tek bir değişkene dayalı basit bir doğrusal regresyon kullanabilir, ancak konut fiyatları genellikle birden fazla faktörün karmaşık etkileşimi tarafından belirlendiğinden bu model çok basit olacaktır. Evin büyüklüğü, mahalle ve yatak odası sayısı gibi değişkenleri birleştiren çoklu doğrusal regresyon muhtemelen daha doğru bir tahmin modeli sağlayacaktır.
Doğrusal regresyon ve lojistik regresyon
Doğrusal regresyon sıklıkla lojistik regresyonla karıştırılır. Doğrusal regresyonsüreklideğişkenlere ilişkin sonuçları tahmin ederken, bağımlı değişkenkategorikolduğunda ve çoğunlukla ikili (evet veya hayır) olduğunda lojistik regresyon kullanılır. Kategorik değişkenler, yaş grubu veya ödeme yöntemi gibi sınırlı sayıda kategoriye sahip sayısal olmayan grupları tanımlar. Sürekli değişkenler ise herhangi bir sayısal değeri alabilir ve ölçülebilir. Sürekli değişkenlere örnek olarak ağırlık, fiyat ve günlük sıcaklık verilebilir.
Doğrusal regresyonda kullanılan doğrusal fonksiyonun aksine, lojistik regresyon, lojistik fonksiyon adı verilen S şeklinde bir eğri kullanarak kategorik bir sonucun olasılığını modeller. İkili sınıflandırma örneğinde "evet" kategorisine ait veri noktaları S şeklinin bir tarafında yer alırken, "hayır" kategorisindeki veri noktaları diğer tarafta yer alır. Pratik olarak lojistik regresyon, bir e-postanın spam olup olmadığını sınıflandırmak veya bir müşterinin bir ürünü satın alıp almayacağını tahmin etmek için kullanılabilir. Temel olarak, niceliksel değerleri tahmin etmek için doğrusal regresyon kullanılırken, sınıflandırma görevleri için lojistik regresyon kullanılır.
Doğrusal regresyon nasıl çalışır?
Doğrusal regresyon, bir dizi veri noktası aracılığıyla en uygun çizgiyi bularak çalışır. Bu süreç şunları içerir:
1 Modelin seçilmesi:İlk adımda bağımlı ve bağımsız değişkenler arasındaki ilişkiyi tanımlayacak uygun doğrusal denklem seçilir.
2 Modelin takılması:Daha sonra, gözlemlenen değerler ile model tarafından tahmin edilen değerler arasındaki karesel farkların toplamını en aza indirmek için Sıradan En Küçük Kareler (OLS) adı verilen bir teknik kullanılır. Bu, en iyi uyumu bulmak için çizginin eğimini ve kesişimini ayarlayarak yapılır. Bu yöntemin amacı, tahmin edilen ve gerçek değerler arasındaki hatayı veya farkı en aza indirmektir. Bu uyum süreci, modelin eğitim verilerinden öğrendiği denetimli makine öğreniminin temel bir parçasıdır.
3 Modelin değerlendirilmesi:Son adımda, uyumun kalitesi, bağımlı değişkendeki bağımsız değişkenlerden tahmin edilebilen varyansın oranını ölçen R-kare gibi ölçümler kullanılarak değerlendirilir. Başka bir deyişle R-kare, verilerin regresyon modeline gerçekte ne kadar iyi uyduğunu ölçer.
Bu süreç, daha sonra yeni verilere dayalı tahminler yapmak için kullanılabilecek bir makine öğrenimi modeli oluşturur.
ML'de doğrusal regresyonun uygulamaları
Makine öğreniminde doğrusal regresyon, sonuçları tahmin etmek ve çeşitli alanlardaki değişkenler arasındaki ilişkileri anlamak için yaygın olarak kullanılan bir araçtır. İşte uygulamalarının bazı dikkate değer örnekleri:
Tüketici harcamalarını tahmin etmek
Gelir seviyeleri, tüketici harcamalarını tahmin etmek için doğrusal bir regresyon modelinde kullanılabilir. Spesifik olarak çoklu doğrusal regresyon, kapsamlı bir analiz sağlamak için geçmiş gelir, yaş ve istihdam durumu gibi faktörleri içerebilir. Bu, ekonomistlerin veriye dayalı ekonomik politikalar geliştirmesine yardımcı olabilir ve işletmelerin tüketici davranış kalıplarını daha iyi anlamalarına yardımcı olabilir.
Pazarlama etkisini analiz etme
Pazarlamacılar, reklam harcamalarının satış gelirini nasıl etkilediğini anlamak için doğrusal regresyonu kullanabilir. Geçmiş verilere doğrusal bir regresyon modeli uygulanarak gelecekteki satış geliri tahmin edilebilir, bu da pazarlamacıların bütçelerini ve reklam stratejilerini maksimum etki için optimize etmelerine olanak tanır.
Hisse senedi fiyatlarını tahmin etmek
Finans dünyasında doğrusal regresyon, hisse senedi fiyatlarını tahmin etmek için kullanılan birçok yöntemden biridir. Analistler ve yatırımcılar, geçmiş hisse senedi verilerini ve çeşitli ekonomik göstergeleri kullanarak, daha akıllı yatırım kararları almalarına yardımcı olacak birden fazla doğrusal regresyon modeli oluşturabilirler.
Çevre koşullarının tahmin edilmesi
Çevre biliminde çevresel koşulları tahmin etmek için doğrusal regresyon kullanılabilir. Örneğin trafik hacmi, hava koşulları ve nüfus yoğunluğu gibi çeşitli faktörler kirletici seviyelerinin tahmin edilmesine yardımcı olabilir. Bu makine öğrenimi modelleri daha sonra politika yapıcılar, bilim adamları ve diğer paydaşlar tarafından çeşitli eylemlerin çevre üzerindeki etkilerini anlamak ve azaltmak için kullanılabilir.
ML'de doğrusal regresyonun avantajları
Doğrusal regresyon, onu makine öğreniminde önemli bir teknik haline getiren çeşitli avantajlar sunar.
Kullanımı ve uygulaması basit
Çoğu matematiksel araç ve modelle karşılaştırıldığında doğrusal regresyonun anlaşılması ve uygulanması kolaydır. Özellikle yeni makine öğrenimi uygulayıcıları için harika bir başlangıç noktasıdır ve daha gelişmiş algoritmalar için temel olarak değerli bilgiler ve deneyimler sağlar.
Hesaplama açısından verimli
Makine öğrenimi modelleri kaynak yoğun olabilir. Doğrusal regresyon, birçok algoritmayla karşılaştırıldığında nispeten düşük hesaplama gücü gerektirir ve yine de anlamlı öngörüsel bilgiler sağlayabilir.
Yorumlanabilir sonuçlar
Gelişmiş istatistiksel modeller güçlü olmasına rağmen yorumlanması genellikle zordur. Doğrusal regresyon gibi basit bir modelle değişkenler arasındaki ilişkinin anlaşılması kolaydır ve her değişkenin etkisi, katsayısıyla açıkça gösterilir.
İleri tekniklerin temeli
Doğrusal regresyonu anlamak ve uygulamak, daha gelişmiş makine öğrenimi yöntemlerini keşfetmek için sağlam bir temel sunar. Örneğin polinom regresyonu, değişkenler arasındaki daha karmaşık, doğrusal olmayan ilişkileri tanımlamak için doğrusal regresyona dayanır.
ML'de doğrusal regresyonun dezavantajları
Doğrusal regresyon, makine öğreniminde değerli bir araç olmasına rağmen, bazı önemli sınırlamalara sahiptir. Bu dezavantajları anlamak, uygun makine öğrenimi aracının seçilmesinde kritik öneme sahiptir.
Doğrusal bir ilişki varsaymak
Doğrusal regresyon modeli, bağımlı ve bağımsız değişkenler arasındaki ilişkinin doğrusal olduğunu varsayar. Karmaşık gerçek dünya senaryolarında durum her zaman böyle olmayabilir. Örneğin, bir insanın yaşamı boyunca boyu doğrusal değildir; çocukluk döneminde meydana gelen hızlı büyüme, yetişkinlikte yavaşlar ve durur. Bu nedenle, doğrusal regresyon kullanarak yükseklik tahmini yapmak hatalı tahminlere yol açabilir.
Aykırı değerlere karşı hassasiyet
Aykırı değerler, bir veri kümesindeki gözlemlerin çoğunluğundan önemli ölçüde sapan veri noktalarıdır. Doğru şekilde ele alınmazsa, bu aşırı değer noktaları sonuçları çarpıtabilir ve hatalı sonuçlara yol açabilir. Makine öğreniminde bu hassasiyet, aykırı değerlerin modelin tahmin doğruluğunu ve güvenilirliğini orantısız bir şekilde etkileyebileceği anlamına gelir.
Çoklu bağlantı
Çoklu doğrusal regresyon modellerinde, yüksek düzeyde korelasyona sahip bağımsız değişkenler,çoklu doğrusallıkolarak bilinen bir olgu olan sonuçları bozabilir. Örneğin, bir evdeki yatak odası sayısı ile büyüklüğü arasında yüksek bir korelasyon olabilir, çünkü daha büyük evlerde daha fazla yatak odası bulunur. Bu durum bireysel değişkenlerin konut fiyatları üzerindeki bireysel etkisinin belirlenmesini zorlaştırarak güvenilmez sonuçlara yol açabilmektedir.
Sabit bir hata yayılımı varsayarsak
Doğrusal regresyon, gözlemlenen ve tahmin edilen değerler arasındaki farkların (hata yayılımı) tüm bağımsız değişkenler için aynı olduğunu varsayar. Eğer bu doğru değilse, modelin ürettiği tahminler güvenilmez olabilir. Denetimli makine öğreniminde hata yayılımının ele alınamaması, modelin taraflı ve verimsiz tahminler üretmesine neden olarak genel etkinliğini azaltabilir.