Apa Regresi Logistik dalam Pembelajaran Mesin?
Diterbitkan: 2024-10-04Regresi logistik adalah metode utama dalam analisis statistik dan pembelajaran mesin (ML). Panduan komprehensif ini akan menjelaskan dasar-dasar regresi logistik dan membahas berbagai jenis, aplikasi dunia nyata, serta kelebihan dan kekurangan menggunakan teknik canggih ini.
Daftar isi
- Apa itu regresi logistik?
- Jenis regresi logistik
- Regresi logistik vs. linier
- Cara kerja regresi logistik
- Aplikasi
- Keuntungan
- Kekurangan
Apa itu regresi logistik?
Regresi logistik, juga dikenal sebagai regresi logit atau model logit, adalah jenis algoritma pembelajaran terawasi yang digunakan untuk tugas klasifikasi, terutama untuk memprediksi probabilitas hasil biner (yaitu, dua kemungkinan kelas). Hal ini didasarkan pada metode statistik dengan nama yang sama, yang memperkirakan kemungkinan terjadinya suatu peristiwa tertentu. Misalnya, regresi logistik dapat digunakan untuk memprediksi kemungkinan suatu email adalah spam atau pelanggan akan melakukan pembelian atau meninggalkan situs web.
Model mengevaluasi properti yang relevan dari peristiwa tersebut (disebut “variabel prediktor” atau “fitur”). Misalnya, jika kejadiannya adalah “email tiba”, properti yang relevan mungkin mencakup alamat IP sumber, alamat email pengirim, atau peringkat keterbacaan konten. Ini memodelkan hubungan antara prediktor-prediktor ini dan probabilitas hasil menggunakan fungsi logistik, yang memiliki bentuk sebagai berikut:
f (x) = 1 / ( 1 + e -x )
Fungsi ini mengeluarkan nilai antara 0 dan 1, yang mewakili perkiraan kemungkinan kejadian (dapat dikatakan, “Email ini 80% kemungkinannya adalah spam”).
Regresi logistik banyak digunakan di ML, khususnya untuk tugas klasifikasi biner. Fungsi sigmoid (sejenis fungsi logistik) sering digunakan untuk mengubah keluaran model klasifikasi biner apa pun menjadi probabilitas. Meskipun regresi logistik sederhana, regresi logistik berfungsi sebagai teknik dasar untuk model yang lebih kompleks, seperti jaringan saraf, di mana fungsi logistik serupa digunakan untuk memodelkan probabilitas. Istilahmodel logitmengacu pada model yang menggunakan fungsi logit ini untuk memetakan fitur masukan ke probabilitas yang diprediksi.
Jenis regresi logistik
Ada tiga jenis utama regresi logistik: biner, multinomial, dan ordinal.
Regresi logistik biner
Juga dikenal sebagai regresi biner, ini adalah bentuk regresi logistik standar dan paling umum. Ketika istilahregresi logistikdigunakan tanpa kualifikasi, biasanya mengacu pada jenis ini. Nama “biner” berasal dari fakta bahwa ia mempertimbangkan dua hasil; itu dapat dianggap sebagai menjawab pertanyaan ya atau tidak. Regresi biner dapat menangani pertanyaan yang lebih rumit jika dibingkai ulang menjadi rangkaian pertanyaan ya atau tidak, atau biner.
Contoh:Bayangkan menghitung peluang dari tiga opsi yang saling eksklusif: apakah klien akan berhenti menggunakan produk (yaitu, berhenti menggunakan produk), mendaftar ke layanan versi gratis, atau mendaftar ke versi premium berbayar. Regresi biner berantai mungkin memecahkan masalah ini dengan menjawab rangkaian pertanyaan berikut:
- Apakah klien akan churn (ya atau tidak)?
- Jika tidak, apakah klien akan mendaftar untuk layanan gratis (ya atau tidak)?
- Jika tidak, apakah klien akan mendaftar ke layanan premium berbayar (ya atau tidak)?
Regresi logistik multinomial
Juga dikenal sebagai regresi multinomial, bentuk regresi logistik ini merupakan perpanjangan dari regresi biner yang dapat menjawab pertanyaan dengan lebih dari dua kemungkinan hasil. Hal ini menghindari perlunya pertanyaan berantai untuk memecahkan masalah yang lebih kompleks. Regresi multinomial mengasumsikan bahwa peluang yang dihitung tidak memiliki saling ketergantungan atau urutan apa pun dan bahwa rangkaian opsi yang dipertimbangkan mencakup semua kemungkinan hasil.
Contoh:Regresi multinomial bekerja dengan baik ketika memprediksi warna apa yang mungkin diinginkan pelanggan untuk mobil yang mereka beli dari daftar warna yang tersedia. Namun, ini tidak bekerja dengan baik untuk menghitung peluang di mana urutan penting, seperti mengevaluasi warna hijau, kuning, dan merah sebagai tag tingkat keparahan untuk masalah dukungan pelanggan, di mana masalah selalu dimulai dengan warna hijau dan mungkin meningkat menjadi kuning dan kemudian merah (dengan kuning selalu mengikuti hijau dan merah selalu mengikuti kuning).
Regresi logistik ordinal
Juga dikenal sebagai model peluang proporsional untuk regresi, bentuk regresi logistik khusus ini dirancang untuk nilai ordinal—situasi di mana urutan relatif di antara hasil menjadi penting. Regresi logistik ordinal digunakan ketika hasil memiliki tatanan alami namun jarak antar kategori tidak diketahui.
Contoh:Ini mungkin digunakan untuk menghitung peluang tamu hotel memberi peringkat masa menginapnya dalam skala lima bagian: sangat buruk, buruk, netral, baik, dan sangat baik. Urutan relatifnya penting—buruk selalu lebih buruk daripada netral, dan penting untuk mengetahui arah tinjauan skala mana yang akan diambil. Ketika urutan penting, regresi ordinal dapat mengukur hubungan antara nilai-nilai yang peluangnya sedang dihitung (misalnya, regresi ini mungkin mendeteksi bahwa nilai buruk cenderung muncul separuh dari nilai netral).
Regresi logistik vs. regresi linier
Meskipun berbeda, regresi logistik dan regresi linier sering kali muncul dalam konteks yang serupa, karena keduanya merupakan bagian dari perangkat matematika yang lebih besar dan terkait. Regresi logistik umumnya menghitung probabilitas untuk hasil yang terpisah, sedangkan regresi linier menghitung nilai yang diharapkan untuk hasil yang berkelanjutan.
Misalnya, jika seseorang mencoba memprediksi suhu yang paling mungkin terjadi pada suatu hari di masa depan, model regresi linier akan menjadi alat yang tepat untuk melakukan pekerjaan tersebut. Sebaliknya, model regresi logistik berupaya menghitung atau memprediksi peluang dua atau lebih pilihan dari daftar pilihan yang tetap. Alih-alih memprediksi suhu tertentu, model regresi logistik mungkin memberikan peluang bahwa hari tertentu akan berada dalam kisaran suhu hangat, nyaman, atau dingin.
Karena keduanya dibuat untuk menangani kasus penggunaan yang berbeda, kedua model tersebut membuat asumsi berbeda tentang properti statistik dari nilai yang diprediksi dan diimplementasikan dengan alat statistik yang berbeda. Regresi logistik biasanya mengasumsikan distribusi statistik yang berlaku pada nilai-nilai diskrit, seperti distribusi Bernoulli, sedangkan regresi linier mungkin menggunakan distribusi Gaussian. Regresi logistik sering kali memerlukan kumpulan data yang lebih besar agar berfungsi secara efektif, sedangkan regresi linier biasanya lebih sensitif terhadap outlier yang berpengaruh. Selain itu, regresi logistik membuat asumsi tentang struktur peluang yang dihitungnya, sedangkan regresi linier membuat asumsi tentang bagaimana kesalahan didistribusikan dalam kumpulan data pelatihan.
Perbedaan antara model-model ini menyebabkan kinerjanya lebih baik untuk kasus penggunaan ideal spesifiknya. Regresi logistik akan lebih akurat dalam memprediksi nilai kategorikal, dan regresi linier akan lebih akurat dalam memprediksi nilai kontinu. Kedua teknik ini sering kali membingungkan satu sama lain, karena keluarannya dapat digunakan kembali dengan perhitungan matematis yang sederhana. Keluaran model regresi logistik dapat diterapkan, setelah transformasi, ke jenis masalah yang sama seperti keluaran model linier, sehingga menghemat biaya pelatihan dua model terpisah. Tapi itu tidak akan berhasil; hal yang sama juga berlaku sebaliknya.
Bagaimana cara kerja regresi logistik?
Sebagai semacam algoritme pembelajaran yang diawasi, regresi logistik bergantung pada pembelajaran dari kumpulan data yang dianotasi dengan baik. Kumpulan data biasanya berisi daftar representasi fitur yang cocok dengan keluaran model yang diharapkan untuk masing-masingnya.
Untuk mendapatkan pemahaman yang lebih jelas tentang regresi logistik, pertama-tama penting untuk memahami terminologi utama berikut:
- Variabel prediktor:Properti atau fitur yang dipertimbangkan oleh model logistik saat menghitung peluang hasil. Misalnya, variabel prediktor untuk memperkirakan kemungkinan pelanggan membeli suatu produk dapat mencakup data demografi dan riwayat penelusuran.
- Representasi fitur:Contoh spesifik dari variabel prediktor. Misalnya, jika variabel prediktornya adalah “kode pos”, “negara bagian”, dan “kelompok pendapatan”, salah satu representasi fitur mungkin adalah “90210”, “California”, dan “75K+/tahun”.
- Fungsi tautan:Fungsi matematika pada inti model regresi yang menghubungkan variabel prediktor dengan peluang hasil tertentu. Fungsinya akan mengikuti pola:
θ = b(μ)
dimana θadalah peluang per kategori untuk diprediksi,badalah fungsi spesifik (biasanya fungsi berbentukS, disebut sigmoid), danμmewakili nilai prediksi (dari rentang nilai kontinu).
- Fungsi logistik:Fungsi tautan spesifik yang digunakan dalam regresi logistik, didefinisikan sebagai
σ ( x ) =1 / ( 1 +e-x)
Ini menormalkan keluaran ke probabilitas antara 0 dan 1, mengubah perubahan proporsional berbasis perkalian dalam variabel prediktor menjadi perubahan peluang yang konsisten dan aditif.
- Fungsi logit:Kebalikan dari fungsi logistik, mengubah nilai probabilitas menjadi log-odds, yang membantu menjelaskan bagaimana variabel prediktor berhubungan dengan peluang suatu hasil. Ini membantu menjelaskan bagaimana variabel prediktor berhubungan dengan peluang suatu hasil. Ini didefinisikan sebagai:
logit p =σ ( p ) -1= ln ( p / ( 1 – p ) )
Untuk odds tertentu p, ia melakukan kebalikan dari fungsi logistik.
- Kerugian log:Juga dikenal sebagai kerugian lintas entropi atau kerugian logistik, ini mengukur perbedaan antara probabilitas yang diprediksi dan hasil aktual dalam model klasifikasi. Untuk klasifikasi biner, sering disebut “entropi silang biner”.
Inti dari proses regresi logistik adalah keputusan fungsi tautan mana yang akan digunakan. Untuk regresi logistik biner, itu akan selalu menjadi fungsi logistiknya. Regresi yang lebih kompleks akan menggunakan fungsi sigmoid jenis lain; salah satu fungsi sigmoid paling populer dikenal sebagai softmax dan sangat sering digunakan dalam model ML dan kasus penggunaan regresi multinomial.
Selama pelatihan, sistem juga akan bergantung pada fungsi kerugian, yang menghitung seberapa baik kinerja regresi, atau kesesuaiannya. Tujuan sistem dapat dianggap sebagai pengurangan jarak antara hasil atau peluang yang diprediksi dan apa yang terjadi di dunia nyata (terkadang jarak ini disebut “kejutan”). Untuk regresi logistik, fungsi kerugian merupakan variasi dari fungsi kerugian log yang sangat populer.
Berbagai algoritme pelatihan ML standar dapat digunakan untuk melatih model regresi logistik, termasuk penurunan gradien, estimasi kemungkinan maksimum, dan penurunan gradien stokastik.
Penerapan regresi logistik di ML
Model ML regresi logistik biasanya digunakan untuk tugas klasifikasi, atau untuk memprediksi kelas dari informasi parsial. Kasus penggunaan mencakup banyak domain, termasuk keuangan, layanan kesehatan, epidemiologi, dan pemasaran. Dua dari aplikasi paling terkenal adalah untuk deteksi spam email dan diagnosis medis.
Deteksi spam email
Regresi logistik dapat menjadi alat yang efektif untuk mengklasifikasikan komunikasi, seperti mengidentifikasi email sebagai spam atau bukan, meskipun metode yang lebih canggih sering kali digunakan dalam kasus yang kompleks. Alamat pengirim, tujuan, isi teks pesan, alamat IP sumber, dan sebagainya—semua properti email—dapat ditandai sebagai variabel prediktor dan diperhitungkan dalam kemungkinan bahwa email tertentu adalah spam. Alat filter spam email dengan cepat melatih dan memperbarui model logistik biner pada pesan email baru dan dengan cepat mendeteksi serta bereaksi terhadap strategi spam baru.
Versi spam yang lebih canggih memfilter email sebelum diproses agar lebih mudah diidentifikasi sebagai spam. Misalnya, skrip dapat menambahkan persentase email yang ditandai sebagai spam untuk alamat IP pengirim dalam email, dan regresi dapat mempertimbangkan informasi tersebut.
Diagnosa medis
Model regresi logistik biasanya digunakan untuk membantu mendiagnosis kondisi medis seperti diabetes dan kanker payudara. Mereka belajar dari dan mengembangkan analisis yang dilakukan oleh dokter dan peneliti medis.
Untuk diagnosis yang memerlukan banyak gambar, seperti deteksi kanker, peneliti dan profesional medis membuat kumpulan data dari berbagai tes, pencitraan, dan pemindaian. Data ini kemudian diolah dan diubah menjadi daftar penilaian tekstual. Suatu gambar dapat dianalisis untuk mengetahui detail seperti kerapatan piksel, jumlah dan radius rata-rata berbagai kelompok piksel, dan sebagainya. Pengukuran tersebut kemudian dimasukkan ke dalam daftar variabel prediktor yang mencakup hasil tes dan evaluasi lainnya. Sistem regresi logistik belajar darinya dan memprediksi apakah seorang pasien kemungkinan besar didiagnosis menderita kanker.
Selain memprediksi diagnosis medis dengan akurasi tinggi, sistem regresi logistik juga dapat menunjukkan hasil tes mana yang paling relevan dengan evaluasinya. Informasi ini dapat membantu memprioritaskan tes untuk pasien baru, sehingga mempercepat proses diagnosis.
Keuntungan regresi logistik di ML
Regresi logistik sering kali disukai karena kesederhanaan dan kemampuan interpretasinya, terutama dalam kasus di mana hasil perlu diperoleh secara relatif cepat dan ketika wawasan terhadap data merupakan hal yang penting.
Hasil yang cepat dan praktis
Dari sudut pandang praktis, regresi logistik mudah diterapkan dan ditafsirkan. Ia bekerja dengan andal dan memberikan wawasan berharga bahkan ketika datanya tidak selaras dengan asumsi atau harapan. Model matematika yang mendasarinya efisien dan relatif mudah untuk dioptimalkan, menjadikan regresi logistik sebagai pilihan yang kuat dan praktis untuk banyak aplikasi.
Wawasan yang berguna tentang properti data
Secara teoritis, regresi logistik unggul dalam tugas klasifikasi biner dan umumnya sangat cepat dalam mengklasifikasikan data baru. Hal ini dapat membantu mengidentifikasi variabel mana yang terkait dengan hasil yang diinginkan, memberikan wawasan mengenai fokus analisis data lebih lanjut. Regresi logistik sering kali memberikan akurasi tinggi dalam kasus penggunaan sederhana; bahkan ketika akurasi pada kumpulan data tertentu berkurang, hal ini tetap memberikan wawasan yang bermakna mengenai pentingnya variabel dan arah dampaknya (positif atau negatif).
Kekurangan regresi logistik di ML
Regresi logistik membuat asumsi tentang data yang dianalisis, membantu algoritme yang mendasarinya menjadi lebih cepat dan mudah dipahami dengan mengorbankan kegunaannya. Mereka tidak dapat digunakan untuk memodelkan hasil yang berkelanjutan atau hubungan nonlinier, dapat gagal jika hubungan dengan model terlalu rumit, dan akan overfit jika menganalisis terlalu banyak data.
Terbatas pada hasil yang terpisah
Regresi logistik hanya dapat digunakan untuk memprediksi hasil yang berbeda. Jika permasalahan memerlukan prediksi berkelanjutan, teknik seperti regresi linier lebih cocok.
Asumsikan hubungan linier
Model ini mengasumsikan hubungan linier antara variabel prediktor dan perkiraan peluang, yang jarang terjadi pada data dunia nyata. Hal ini sering kali memerlukan pra-pemrosesan dan penyesuaian tambahan untuk meningkatkan akurasi. Selain itu, regresi logistik mengasumsikan bahwa keputusan klasifikasi dapat dibuat menggunakan fungsi linier sederhana, yang mungkin tidak mencerminkan kompleksitas skenario dunia nyata. Akibatnya, regresi logistik sering kali merupakan perkiraan yang mungkin memerlukan pengoptimalan dan pembaruan rutin agar tetap relevan.
Mungkin gagal mencontohkan hubungan yang kompleks
Jika sekumpulan variabel prediktor tidak memiliki hubungan linier terhadap odds yang dihitung, atau jika variabel prediktor tidak cukup independen satu sama lain, regresi logistik mungkin gagal berfungsi sama sekali, atau mungkin hanya mendeteksi sebagian dari hubungan linier ketika sistem mempunyai campuran sifat linier dan sifat lain yang lebih kompleks.
Cocokkan kumpulan data yang besar
Untuk kumpulan data yang lebih besar dan kompleks, regresi logistik rentan terhadap overfitting, yaitu model menjadi terlalu selaras dengan data spesifik tempat model dilatih, sehingga menangkap gangguan dan detail kecil dibandingkan pola umum. Hal ini dapat mengakibatkan kinerja yang buruk pada data baru yang tidak terlihat. Teknik seperti regularisasi dapat membantu mengurangi overfitting, namun pertimbangan yang cermat diperlukan saat menerapkan regresi logistik pada data yang kompleks.