Regresi dalam Pembelajaran Mesin: Apa Artinya dan Cara Kerjanya
Diterbitkan: 2024-11-13Regresi dalam pembelajaran mesin (ML) adalah konsep dasar yang digunakan untuk memprediksi nilai berkelanjutan berdasarkan fitur masukan. Baik memperkirakan harga rumah atau memperkirakan penjualan, model regresi membangun hubungan antar variabel. Dalam artikel ini, kami akan menguraikan berbagai jenis model regresi, algoritme di baliknya, dan kapan setiap metode paling baik diterapkan. Anda juga akan menemukan cara kerja regresi, kasus penggunaan praktisnya, serta keuntungan dan tantangan yang terkait dengan penggunaan regresi dalam pembelajaran mesin.
Daftar isi
- Apa itu regresi?
- Jenis model regresi
- Algoritma yang digunakan untuk regresi
- Contoh regresi
- Manfaat regresi
- Tantangan regresi
Apa yang dimaksud dengan regresi dalam pembelajaran mesin?
Regresi adalah jenis pembelajaran terawasi yang digunakan untuk memprediksi nilai berkelanjutan berdasarkan data masukan. Ini memperkirakan hubungan antar variabel untuk memprediksi dan menjelaskan berbagai hal, seperti harga rumah, tren pasar saham, atau kondisi cuaca. Model regresi memetakan fitur masukan ke variabel target berkelanjutan, sehingga memungkinkan prediksi numerik yang tepat.
Misalnya, dengan menggunakan data cuaca seminggu terakhir, model regresi dapat memperkirakan curah hujan besok. Nilai yang diprediksikan bersifat kontinu, artinya nilai tersebut dapat berada pada skala numerik—seperti suhu yang diukur hingga koma desimal atau pendapatan penjualan yang diproyeksikan untuk beberapa bulan mendatang.
Regresi vs. klasifikasi: Apa bedanya?
Meskipun regresi memprediksi hasil yang berkelanjutan, klasifikasi berfokus pada memprediksi kategori atau kelas yang berbeda. Misalnya, model regresi dapat memprediksi jumlah pasti curah hujan besok, sedangkan model klasifikasi dapat memprediksi apakah akan turun hujan (ya atau tidak). Perbedaan utamanya adalah regresi berkaitan dengan nilai numerik, sedangkan klasifikasi menetapkan data ke kategori yang telah ditentukan sebelumnya.
Dalam beberapa kasus, keluaran model regresi dapat disesuaikan dengan tugas klasifikasi dan sebaliknya, namun kedua pendekatan tersebut umumnya cocok untuk jenis masalah yang berbeda.
Regresi: algoritma, model, atau analisis?
Regresi terkadang disebut sebagai analisis regresi, istilah statistik luas yang digunakan untuk menggambarkan pencarian hubungan berkelanjutan antara observasi dan hasil. Algoritme regresi adalah alat matematika khusus yang dirancang untuk mengidentifikasi hubungan ini. Jika suatu algoritma digunakan untuk melatih model pembelajaran mesin, hasilnya disebutmodel regresi.
Ketiga istilah ini—analisis regresi,algoritme regresi, danmodel regresi—sering digunakan secara bergantian, namun masing-masing mewakili aspek proses regresi yang berbeda.
Jenis regresi dalam pembelajaran mesin
Model regresi hadir dalam berbagai bentuk, masing-masing dirancang untuk menangani hubungan berbeda antara data masukan dan hasil yang diprediksi. Meskipun regresi linier adalah yang paling sering digunakan dan relatif mudah dipahami, model lain, seperti regresi polinomial, logistik, dan Bayesian, lebih cocok untuk tugas yang lebih kompleks atau terspesialisasi. Berikut adalah beberapa jenis utama model regresi dan kapan model tersebut biasanya digunakan.
Regresi sederhana dan berganda (linier).
Regresi linier, teknik regresi yang populer, dikenal karena kemudahan interpretasinya, pelatihan yang cepat, dan kinerja yang andal di berbagai aplikasi. Ini memperkirakan hubungan antara variabel penjelas dan target menggunakan garis lurus. Regresi linier sederhana melibatkan satu variabel penjelas, sedangkan regresi linier berganda melibatkan dua atau lebih variabel. Umumnya yang dimaksud dengan analisis regresi adalah regresi linier.
Regresi polinomial
Jika garis lurus gagal menjelaskan hubungan antara variabel yang diamati dan hasil yang diharapkan secara memuaskan, model regresi polinomial mungkin merupakan pilihan yang lebih baik. Model ini mencari hubungan yang berkesinambungan dan kompleks dan dapat mengidentifikasi pola yang paling baik digambarkan dengan menggunakan kurva atau kombinasi kurva dan garis lurus.
Regresi logistik
Jika hubungan antara observasi dan nilai prediksi tidak kontinu (atau terpisah), regresi logistik adalah alat yang paling umum untuk melakukan pekerjaan tersebut. Diskrit dalam konteks ini berarti situasi di mana pecahan atau bilangan real tidak begitu relevan (misalnya, jika memprediksi berapa banyak pelanggan yang akan masuk ke kedai kopi, regresi logistik akan menjawab 4 atau 5, bukan sesuatu yang lebih sulit untuk ditafsirkan, seperti 4,35).
Bentuk regresi logistik yang paling terkenal adalahregresi biner, yang memprediksi jawaban atas pertanyaan biner (yaitu ya/tidak); biasanya, regresi logistik bersifat biner. Variasi yang lebih kompleks, seperti regresi multinomial, memprediksi jawaban atas pertanyaan yang menawarkan lebih dari dua pilihan. Model logistik, pada intinya, mengandalkan pemilihan salah satu dari beberapa fungsi untuk mengubah masukan kontinu menjadi masukan diskrit.
Regresi Bayesian
Teknik regresi linier dan lainnya memerlukan data pelatihan yang besar untuk membuat prediksi yang akurat. Sebaliknya, regresi Bayesian adalah algoritma statistik tingkat lanjut yang dapat membuat prediksi yang andal dengan lebih sedikit data, asalkan beberapa sifat statistik data diketahui atau dapat diperkirakan. Misalnya, memprediksi penjualan produk baru selama musim liburan mungkin sulit dilakukan dalam regresi linier karena kurangnya data penjualan untuk produk baru. Regresi Bayesian dapat memprediksi data penjualan dengan akurasi lebih tinggi dengan mengasumsikan penjualan produk baru mengikuti distribusi statistik yang sama dengan penjualan produk serupa lainnya. Biasanya, regresi Bayesian mengasumsikan data mengikuti distribusi statistik Gaussian, sehingga menyebabkan penggunaan istilah regresiBayesiandanGaussianyang dapat dipertukarkan.
Regresi efek campuran
Regresi mengasumsikan adanya hubungan non-acak antara data observasi dan data prediksi. Terkadang, hubungan ini sulit untuk didefinisikan karena saling ketergantungan yang kompleks dalam data yang diamati atau perilaku acak yang kadang terjadi. Model efek campuran adalah model regresi yang mencakup mekanisme untuk menangani data acak dan perilaku lain yang sulit untuk dimodelkan. Model-model ini juga disebut secara bergantian sebagai model campuran, efek campuran, atau kesalahan campuran.
Algoritma regresi lainnya
Regresi dipelajari dengan sangat baik. Ada banyak algoritme regresi lain yang lebih kompleks atau terspesialisasi, termasuk algoritme yang menggunakan teknik binomial, multinomial, dan efek campuran tingkat lanjut, serta algoritme yang menggabungkan beberapa algoritme. Gabungan beberapa algoritme dapat diatur dalam urutan berurutan, seperti dalam beberapa lapisan berurutan, atau dijalankan secara paralel dan kemudian digabungkan dalam beberapa cara. Sebuah sistem yang menjalankan beberapa model secara paralel sering disebut sebagai hutan.
Algoritma yang digunakan untuk analisis regresi
Banyak jenis algoritma regresi yang digunakan dalam pembelajaran mesin untuk menghasilkan model regresi. Beberapa algoritme dirancang untuk membangun jenis model tertentu (dalam hal ini algoritme dan model sering kali memiliki nama yang sama). Yang lain fokus pada peningkatan aspek model yang ada, seperti meningkatkan akurasi atau efisiensinya. Kami akan membahas beberapa algoritma yang lebih umum digunakan di bawah ini. Namun, sebelum kita melakukannya, penting untuk memahami cara evaluasinya: Secara umum, penilaian ini didasarkan pada dua properti utama, varians dan bias.
- Variansmengukur seberapa besar fluktuasi prediksi model saat dilatih pada kumpulan data yang berbeda. Model dengan varian tinggi mungkin sangat cocok dengan data pelatihan, namun memiliki performa yang buruk pada data baru yang belum terlihat—fenomena yang dikenal sebagai overfitting. Idealnya, algoritme regresi harus menghasilkan model dengan varians rendah, artinya algoritme tersebut dapat menggeneralisasi dengan baik terhadap data baru dan tidak terlalu sensitif terhadap perubahan dalam set pelatihan.
- Biasmengacu pada kesalahan yang timbul saat memperkirakan masalah dunia nyata, yang mungkin terlalu rumit, dengan model yang disederhanakan. Bias yang tinggi dapat menyebabkan underfitting, yaitu model gagal menangkap pola penting dalam data, sehingga menghasilkan prediksi yang tidak akurat. Idealnya, bias harus rendah, yang menunjukkan bahwa model tersebut secara efektif menangkap hubungan dalam data tanpa menyederhanakannya secara berlebihan. Dalam beberapa kasus, bias dapat dikurangi dengan meningkatkan data pelatihan atau dengan menyesuaikan parameter algoritma regresi.
Regresi sederhana dan berganda (linier).
Regresi linier sederhana menganalisis hubungan antara satu variabel penjelas dan hasil yang diprediksi, menjadikannya bentuk regresi paling sederhana. Regresi linier berganda lebih rumit dan menemukan hubungan antara dua variabel atau lebih dan satu hasil. Keduanya menemukan hubungan yang memiliki struktur linier, berdasarkan persamaan linier yang umumnya sesuai dengan pola berikut:
kamu =β + β1x + ε
Di siniyadalah hasil prediksi,xadalah variabel yang akan diprediksi,εadalah kesalahan yang ingin diminimalkan, danβdanβ1 adalah nilai yang dihitung regresi.
Regresi linier menggunakan proses pembelajaran yang diawasi untuk membangun hubungan antara variabel penjelas dan hasil yang diprediksi. Proses pembelajaran memeriksa data pelatihan berulang kali, meningkatkan parameter persamaan linier yang mendasarinya dengan setiap iterasi pada data. Metode paling umum untuk mengevaluasi kinerja parameter melibatkan penghitungan nilai kesalahan rata-rata untuk semua data yang tersedia yang digunakan dalam pengujian atau pelatihan. Contoh metode penghitungan kesalahan mencakupkesalahan kuadrat rata-rata(rata-rata jarak kuadrat antara prediksi dan hasil aktual),kesalahan absolut rata-rata, dan metode yang lebih kompleks sepertijumlah sisa kuadrat(kesalahan total, bukan rata-rata).
Regresi polinomial
Regresi polinomial menangani masalah yang lebih kompleks daripada regresi linier dan memerlukan penyelesaian sistem persamaan linier, biasanya dengan operasi matriks tingkat lanjut. Ia dapat menemukan hubungan dalam data yang melengkung, bukan hanya hubungan yang dapat diwakili oleh garis lurus. Jika diterapkan dengan benar, hal ini akan mengurangi varians untuk masalah di mana regresi linier gagal. Hal ini juga lebih sulit untuk dipahami, diterapkan, dan dioptimalkan karena bergantung pada konsep dan operasi matematika tingkat lanjut.
Regresi polinomial akan mencoba menyelesaikan persamaan yang menghubungkanydan kelipatanxdengan persamaan berbentuk polinomial yang mengikuti pola berikut:
kamu =β + β1x + β2x2+ … + ε
Algoritme regresi polinomial akan mencari nilaiβideal yang akan digunakan dan bentuk polinomialnya (berapa eksponenxyang mungkin diperlukan untuk menentukan hubungan antaraydan setiapx?).
Regresi laso
Regresi laso (yang merupakan singkatan dari operator penyusutan dan seleksi absolut terkecil), juga dikenal sebagai regresi norma laso,L1, danL1, adalah teknik yang digunakan untuk mengurangi overfitting dan meningkatkan akurasi model. Ia bekerja dengan menerapkan penalti pada nilai absolut koefisien model, secara efektif mengecilkan, atau mengurangi, beberapa koefisien menjadi nol. Hal ini mengarah pada model yang lebih sederhana yang mengecualikan fitur-fitur yang tidak relevan. Algoritme laso membantu mencegah overfitting dengan mengontrol kompleksitas model, membuat model lebih mudah diinterpretasikan tanpa mengorbankan terlalu banyak akurasi.
Lasso sangat berguna ketika variabel penjelas dikorelasikan. Misalnya, dalam prediksi cuaca, suhu dan kelembapan mungkin berkorelasi, sehingga menyebabkan overfitting. Lasso mengurangi efek korelasi tersebut, sehingga menciptakan model yang lebih kuat.
Regresi punggungan
Regresi ridge (juga dikenal sebagaiL2,L2norm, atau regularisasi Tikhonov) adalah teknik lain untuk mencegah overfitting, terutama ketika terdapat multikolinearitas (korelasi antar variabel penjelas). Berbeda dengan laso, yang dapat mengecilkan koefisien menjadi nol, regresi Ridge menambahkan penalti yang sebanding dengan kuadrat koefisien model. Tujuannya adalah untuk melakukan sedikit penyesuaian pada koefisien tanpa menghilangkan variabel sepenuhnya.
Contoh kasus penggunaan regresi
Model regresi banyak digunakan di berbagai industri untuk membuat prediksi berdasarkan data historis. Dengan mengidentifikasi pola dan hubungan antar variabel, model ini dapat memberikan wawasan berharga untuk pengambilan keputusan. Di bawah ini adalah tiga contoh terkenal di mana regresi diterapkan.
Analisis dan prediksi cuaca
Analisis regresi dapat memprediksi pola cuaca, seperti perkiraan suhu dan curah hujan setiap hari pada minggu depan. Seringkali, beberapa algoritme regresi berbeda dilatih berdasarkan data cuaca historis, termasuk kelembapan, kecepatan angin, tekanan atmosfer, dan tutupan awan. Pengukuran variabel-variabel ini setiap jam atau harian berfungsi sebagai fitur yang dapat dipelajari oleh model, dan algoritme bertugas memprediksi perubahan suhu dari waktu ke waktu. Ketika algoritme regresi berganda (ansambel) digunakan secara paralel untuk memprediksi pola cuaca, prediksinya biasanya digabungkan melalui bentuk rata-rata, seperti rata-rata tertimbang.
Perkiraan penjualan dan pendapatan
Dalam konteks bisnis, model regresi sering kali digunakan untuk memperkirakan pendapatan dan metrik kinerja utama lainnya. Model regresi berganda mungkin memperhitungkan variabel yang memengaruhi volume penjualan, seperti metrik dari kampanye pemasaran, umpan balik pelanggan, dan tren makroekonomi. Model tersebut kemudian bertugas memprediksi penjualan dan pendapatan untuk periode masa depan tertentu. Saat data baru tersedia, model dapat dilatih ulang atau diperbarui untuk menyempurnakan prediksinya berdasarkan observasi terbaru.
Memprediksi hasil layanan kesehatan
Model regresi memiliki banyak penerapan dalam memprediksi hasil kesehatan. Misalnya, model Bayesian dapat digunakan untuk memperkirakan rasio tingkat kejadian dengan mempelajari data historis pasien. Model ini membantu menjawab pertanyaan seperti “Apa yang mungkin terjadi jika kita menyesuaikan dosis suatu obat?” Regresi linier dapat digunakan untuk mengidentifikasi faktor risiko, seperti memprediksi perubahan kesehatan pasien berdasarkan penyesuaian gaya hidup. Regresi logistik, yang biasa digunakan untuk diagnosis, menghitung rasio odds keberadaan suatu penyakit berdasarkan riwayat kesehatan pasien dan variabel relevan lainnya.
Manfaat regresi
Algoritme dan model regresi, khususnya regresi linier, adalah komponen dasar dari banyak sistem pembelajaran mesin. Mereka banyak digunakan karena manfaatnya sebagai berikut:
- Mereka bisa cepat.Teknik regresi dapat dengan cepat membangun hubungan antara beberapa variabel (fitur) dan nilai target, sehingga berguna untuk analisis data eksplorasi dan mempercepat pelatihan model pembelajaran mesin.
- Mereka serbaguna. Banyak model regresi, seperti regresi linier, polinomial, dan logistik, telah dipelajari dengan baik dan dapat diadaptasi untuk memecahkan berbagai masalah dunia nyata, mulai dari prediksi hingga tugas klasifikasi.
- Hal ini mudah untuk diterapkan. Model regresi linier, misalnya, dapat diimplementasikan tanpa memerlukan teknik matematika atau teknik yang rumit, sehingga dapat diakses oleh data scientist dan engineer di berbagai tingkat keahlian.
- Mereka mudah dimengerti. Model regresi, khususnya regresi linier, menawarkan keluaran yang dapat ditafsirkan dimana hubungan antar variabel dan dampaknya terhadap hasil yang diprediksi sering kali jelas. Hal ini menjadikannya berguna untuk mengidentifikasi tren dan pola dalam data yang dapat memberikan informasi lebih lanjut dan analisis yang lebih mendalam. Dalam beberapa kasus, model regresi dapat mengorbankan interpretabilitas demi akurasi yang lebih tinggi, bergantung pada kasus penggunaan.
Tantangan dalam regresi
Meskipun model regresi menawarkan banyak manfaat, model ini juga mempunyai tantangan tersendiri. Seringkali, tantangan-tantangan ini akan tercermin dalam berkurangnya kinerja atau kemampuan untuk melakukan generalisasi, terutama ketika menangani masalah yang kompleks atau data yang terbatas. Berikut adalah beberapa masalah paling umum yang dihadapi dalam analisis regresi.
- Overfitting:Model sering kali kesulitan menyeimbangkan bias dan varians. Jika suatu model terlalu kompleks, model tersebut dapat menyesuaikan dengan data historis dengan baik (mengurangi varians) namun menjadi bias ketika dihadapkan pada data baru. Hal ini sering kali terjadi karena model mengingat data pelatihan alih-alih mempelajari abstraksi umum.
- Underfitting:Model yang terlalu sederhana untuk permasalahan yang dihadapi dapat mengalami bias yang tinggi. Ini akan menunjukkan tingkat kesalahan yang tinggi pada data pelatihan dan data yang tidak terlihat, yang menunjukkan bahwa ia belum mempelajari pola yang mendasarinya. Penyesuaian yang berlebihan untuk mengoreksi bias yang tinggi dapat menyebabkan underfitting, yaitu model gagal menangkap kompleksitas data.
- Data pelatihan yang kompleks:Model regresi biasanya mengasumsikan bahwa observasi yang digunakan untuk pelatihan bersifat independen. Jika data berisi hubungan yang kompleks atau keacakan yang melekat, model mungkin kesulitan membuat prediksi yang akurat dan andal.
- Data tidak lengkap atau hilang:Algoritme regresi yang diawasi memerlukan data dalam jumlah besar untuk mempelajari pola dan memperhitungkan kasus sudut. Saat menangani data yang hilang atau tidak lengkap, model mungkin tidak berfungsi dengan baik, terutama saat mempelajari hubungan kompleks yang memerlukan cakupan data yang luas.
- Pemilihan variabel prediktor:Model regresi mengandalkan manusia untuk memilih variabel (fitur) prediktor yang tepat. Jika terlalu banyak variabel yang tidak relevan dimasukkan, performa model dapat menurun. Sebaliknya, jika variabel yang dipilih terlalu sedikit atau salah, model mungkin gagal menyelesaikan masalah secara akurat atau membuat prediksi yang andal.