Pembelajaran Semi-Supervisi: Apa Itu dan Cara Kerjanya
Diterbitkan: 2024-07-18Dalam bidang pembelajaran mesin, pembelajaran semi-supervisi muncul sebagai pendekatan hibrida yang cerdas, menjembatani kesenjangan antara metode yang diawasi dan tidak diawasi dengan memanfaatkan data berlabel dan tidak berlabel untuk melatih model yang lebih kuat dan efisien.
Daftar isi
- Apa itu pembelajaran semi-supervisi?
- Pembelajaran semi-diawasi vs. pembelajaran yang diawasi dan tanpa pengawasan
- Cara kerja pembelajaran semi-supervisi
- Jenis pembelajaran semi-supervisi
- Penerapan pembelajaran semi-supervisi
- Keuntungan pembelajaran semi-supervisi
- Kekurangan pembelajaran semi-supervisi
Apa itu pembelajaran semi-supervisi?
Pembelajaran semi-supervisi adalah jenis pembelajaran mesin (ML) yang menggunakan kombinasi data berlabel dan tidak berlabel untuk melatih model. Semi-supervisi berarti model menerima panduan dari sejumlah kecil data berlabel, yang masukannya secara eksplisit dipasangkan dengan keluaran yang benar, ditambah kumpulan data tak berlabel yang lebih besar, yang biasanya lebih banyak jumlahnya. Model ini biasanya menemukan wawasan awal dalam sejumlah kecil data berlabel, lalu menyempurnakan pemahaman dan akurasinya lebih lanjut menggunakan kumpulan data tak berlabel yang lebih besar.
Pembelajaran mesin adalah bagian dari kecerdasan buatan (AI) yang menggunakan data dan metode statistik untuk membangun model yang meniru pemikiran manusia daripada mengandalkan instruksi yang dikodekan secara keras. Memanfaatkan elemen dari pendekatan yang diawasi dan tidak diawasi, semi-diawasi adalah cara yang berbeda dan ampuh untuk meningkatkan kualitas prediksi tanpa investasi yang memberatkan pada pelabelan manusia.
Pembelajaran semi-diawasi vs. pembelajaran yang diawasi dan tanpa pengawasan
Meskipun pembelajaran yang diawasi hanya mengandalkan data berlabel dan pembelajaran tanpa pengawasan bekerja dengan data yang sepenuhnya tidak berlabel, pembelajaran semi-supervisi memadukan keduanya.
Pembelajaran yang diawasi
Pembelajaran yang diawasi menggunakan data berlabel untuk melatih model untuk tugas tertentu. Dua tipe utama adalah:
- Klasifikasi: Menentukan kelas atau kelompok mana suatu item termasuk.Ini bisa berupa pilihan biner, pilihan di antara beberapa pilihan, atau keanggotaan dalam beberapa kelompok.
- Regresi: Memprediksi hasil berdasarkan garis yang paling sesuai dari data yang ada. Biasanya digunakan untuk peramalan, seperti memprediksi cuaca atau kinerja keuangan.
Pembelajaran tanpa pengawasan
Pembelajaran tanpa pengawasan mengidentifikasi pola dan struktur dalam data tidak berlabel melalui tiga teknik utama:
- Clustering: Mendefinisikan kelompok titik yang memiliki nilai serupa.Hal ini dapat bersifat eksklusif (setiap titik data berada dalam satu cluster), tumpang tindih (derajat keanggotaan dalam satu atau lebih cluster), atau hierarkis (beberapa lapisan cluster).
- Asosiasi: Menemukan item mana yang lebih mungkin muncul bersamaan, seperti produk yang sering dibeli bersamaan.
- Pengurangan dimensi: Menyederhanakan kumpulan data dengan memadatkan data menjadi lebih sedikit variabel, sehingga mengurangi waktu pemrosesan dan meningkatkan kemampuan model untuk menggeneralisasi.
Pembelajaran semi-supervisi
Pembelajaran semi-supervisi memanfaatkan data berlabel dan tidak berlabel untuk meningkatkan performa model. Pendekatan ini sangat berguna ketika pelabelan data mahal atau memakan waktu.
Jenis pembelajaran mesin ini ideal ketika Anda memiliki sejumlah kecil data berlabel dan sejumlah besar data tidak berlabel. Dengan mengidentifikasi titik-titik tak berlabel mana yang paling cocok dengan titik-titik berlabel, model semi-supervisi dapat menciptakan batasan klasifikasi atau model regresi yang lebih bernuansa, sehingga menghasilkan peningkatan akurasi dan performa.
Cara kerja pembelajaran semi-supervisi
Proses pembelajaran semi-supervisi melibatkan beberapa langkah, yang menggabungkan unsur-unsur metode pembelajaran yang diawasi dan tidak diawasi:
- Pengumpulan dan pelabelan data: Kumpulkan kumpulan data yang mencakup sebagian kecil data berlabel dan sebagian besar data tidak berlabel.Kedua kumpulan data harus memiliki fitur yang sama, disebut juga kolom atau atribut.
- Pra-pemrosesan dan ekstraksi fitur: Bersihkan dan pra-proses data untuk memberikan model dasar pembelajaran terbaik: Periksa lokasi untuk memastikan kualitas, hapus duplikat, dan hapus fitur yang tidak perlu.Pertimbangkan untuk membuat fitur baru yang mengubah fitur penting menjadi rentang bermakna yang mencerminkan variasi data (misalnya, mengubah tanggal lahir menjadi usia) dalam proses yang disebut ekstraksi.
- Pembelajaran awal yang diawasi: Melatih model menggunakan data berlabel.Fase awal ini membantu model memahami hubungan antara masukan dan keluaran.
- Pembelajaran tanpa pengawasan: Terapkan teknik pembelajaran tanpa pengawasan pada data tanpa label untuk mengidentifikasi pola, kelompok, atau struktur.
- Penyempurnaan model: Gabungkan wawasan dari data berlabel dan tidak berlabel untuk menyempurnakan model.Langkah ini sering kali melibatkan pelatihan berulang dan penyesuaian untuk meningkatkan akurasi.
- Evaluasi dan penyesuaian: Menilai performa model menggunakan metrik pembelajaran terawasi standar, seperti akurasi, presisi, perolehan, dan skor F1.Sempurnakan model dengan menyesuaikan instruksi eksplisit (dikenal sebagai hyperparameter) dan mengevaluasi ulang hingga performa optimal tercapai.
- Penerapan dan pemantauan: Terapkan model untuk penggunaan di dunia nyata, terus pantau performanya, dan perbarui dengan data baru sesuai kebutuhan.
Jenis pembelajaran semi-supervisi
Pembelajaran semi-supervisi dapat dilaksanakan dengan menggunakan beberapa teknik, masing-masing memanfaatkan data berlabel dan tidak berlabel untuk meningkatkan proses pembelajaran. Berikut adalah tipe utama, beserta subtipe dan konsep utamanya:
Latihan mandiri
Pelatihan mandiri, juga dikenal sebagai pembelajaran mandiri atau pelabelan diri, adalah pendekatan yang paling mudah. Dalam teknik ini, model yang awalnya dilatih pada data berlabel memprediksi label untuk data tidak berlabel dan mencatat tingkat kepercayaannya. Model ini secara berulang melatih dirinya sendiri dengan menerapkan prediksi paling meyakinkannya sebagai data berlabel tambahan—label yang dihasilkan ini dikenal sebagailabel semu. Proses ini berlanjut hingga performa model cukup stabil atau meningkat.
- Pelatihan awal: Model dilatih pada kumpulan data kecil berlabel.
- Prediksi label: Model yang dilatih memprediksi label untuk data yang tidak berlabel.
- Batasan keyakinan: Hanya prediksi di atas tingkat keyakinan tertentu yang dipilih.
- Pelatihan ulang: Data berlabel semu yang dipilih ditambahkan ke set pelatihan, dan model dilatih ulang.
Metode ini sederhana namun ampuh, terutama ketika model dapat membuat prediksi yang akurat sejak dini. Namun, jika prediksi awal salah, maka rentan terjadi kesalahan yang lebih besar lagi. Gunakan pengelompokan untuk membantu memvalidasi bahwa label semu konsisten dengan pengelompokan alami dalam data.
Pelatihan bersama
Pelatihan bersama, biasanya digunakan untuk masalah klasifikasi, melibatkan pelatihan dua atau lebih model pada tampilan atau subkumpulan data yang berbeda. Prediksi paling meyakinkan setiap model pada data tak berlabel menambah set pelatihan model lainnya. Teknik ini memanfaatkan keragaman berbagai model untuk meningkatkan pembelajaran.
- Pendekatan dua tampilan: Kumpulan data dibagi menjadi dua tampilan berbeda—yaitu, subkumpulan data asli, yang masing-masing berisi fitur berbeda.Masing-masing dari dua tampilan baru memiliki label yang sama, namun idealnya, keduanya independen secara kondisional, artinya mengetahui nilai dalam satu tabel tidak akan memberi Anda informasi apa pun tentang tabel lainnya.
- Pelatihan model: Dua model dilatih secara terpisah pada setiap tampilan menggunakan data berlabel.
- Pelabelan bersama: Setiap model memprediksi label untuk data yang tidak berlabel, dan prediksi terbaik—baik prediksi yang berada di atas ambang batas keyakinan tertentu atau sekadar angka tetap di bagian atas daftar—digunakan untuk melatih ulang model lainnya.
Pelatihan bersama sangat berguna ketika data dapat digunakan untuk berbagai tampilan yang memberikan informasi pelengkap, seperti gambar medis dan data klinis yang dipasangkan ke pasien yang sama. Dalam contoh ini, satu model akan memprediksi kejadian penyakit berdasarkan gambar, sedangkan model lainnya akan memprediksi berdasarkan data dari rekam medis.
Pendekatan ini membantu mengurangi risiko memperkuat prediksi yang salah, karena kedua model dapat saling mengoreksi.
Model generatif
Model generatif mempelajari kemungkinan terjadinya pasangan input dan output tertentu, yang dikenal sebagai distribusi probabilitas gabungan. Pendekatan ini memungkinkan mereka menghasilkan data baru yang menyerupai apa yang sudah terlihat. Model ini menggunakan data berlabel dan tidak berlabel untuk menangkap distribusi data yang mendasarinya dan meningkatkan proses pembelajaran. Seperti yang bisa Anda tebak dari namanya, ini adalah dasar dari AI generatif yang dapat membuat teks, gambar, dan sebagainya.
- Jaringan permusuhan generatif (GAN): GAN terdiri dari dua model: generator dan diskriminator.Generator membuat titik data sintetik, sedangkan diskriminator mencoba membedakan antara titik data sintetik tersebut dan data nyata. Saat mereka berlatih, generator meningkatkan kemampuannya untuk membuat data yang realistis, dan diskriminator menjadi lebih baik dalam mengidentifikasi data palsu. Proses permusuhan ini terus berlanjut, dan masing-masing model berupaya untuk mengungguli model lainnya. GAN dapat diterapkan pada pembelajaran semi-supervisi dengan dua cara:
- Diskriminator yang dimodifikasi: Daripada hanya mengklasifikasikan data sebagai “palsu” atau “nyata”, diskriminator dilatih untuk mengklasifikasikan data ke dalam beberapa kelas ditambah satu kelas palsu.Hal ini memungkinkan diskriminator untuk mengklasifikasikan dan mendiskriminasi.
- Menggunakan data yang tidak berlabel: Diskriminator menilai apakah suatu masukan cocok dengan data berlabel yang dilihatnya atau merupakan titik data palsu dari generator.Tantangan tambahan ini memaksa diskriminator untuk mengenali data yang tidak berlabel berdasarkan kemiripannya dengan data yang diberi label, sehingga membantunya mempelajari karakteristik yang membuatnya serupa.
- Autoencoder variasional (VAE): VAE mencari cara untuk menyandikan data menjadi representasi abstrak yang lebih sederhana sehingga dapat didekodekan menjadi representasi yang sedekat mungkin dengan data asli.Dengan menggunakan data berlabel dan tidak berlabel, VAE membuat abstraksi tunggal yang menangkap fitur-fitur penting dari keseluruhan kumpulan data dan dengan demikian meningkatkan kinerjanya pada data baru.
Model generatif adalah alat yang ampuh untuk pembelajaran semi-supervisi, terutama dengan data tak berlabel yang melimpah namun kompleks, seperti dalam terjemahan bahasa atau pengenalan gambar. Tentu saja, Anda memerlukan beberapa label agar GAN atau VAE tahu apa yang harus dituju.
Metode berbasis grafik
Metode berbasis grafik mewakili titik data sebagai simpul pada grafik, dengan pendekatan berbeda untuk memahami dan mengekstraksi informasi berguna tentang hubungan di antara titik-titik tersebut. Beberapa dari sekian banyak metode berbasis grafik yang diterapkan pada pembelajaran semi-supervisi meliputi:
- Propagasi label: Pendekatan yang relatif mudah di mana nilai numerik yang dikenal sebagai tepian menunjukkan kesamaan antara node terdekat.Pada percobaan pertama model, titik-titik tak berlabel dengan tepi terkuat pada titik berlabel meminjam label titik tersebut. Semakin banyak titik yang diberi label, proses ini diulangi hingga semua titik diberi label.
- Jaringan saraf grafik (GNN): Menggunakan teknik untuk melatih jaringan saraf, seperti perhatian dan konvolusi, untuk menerapkan pembelajaran dari titik data berlabel ke titik data tidak berlabel, khususnya dalam situasi yang sangat kompleks seperti jaringan sosial dan analisis gen.
- Autoencoder grafik: Mirip dengan VAE, ini membuat representasi abstrak tunggal yang menangkap data berlabel dan tidak berlabel. Pendekatan ini sering digunakan untuk menemukan missing link, yaitu koneksi potensial yang tidak terekam dalam grafik.
Metode berbasis grafik sangat efektif untuk data kompleks yang secara alami membentuk jaringan atau memiliki hubungan intrinsik, seperti jaringan sosial, jaringan biologis, dan sistem rekomendasi.
Penerapan pembelajaran semi-supervisi
Beberapa dari sekian banyak penerapan pembelajaran semi-supervisi antara lain:
- Klasifikasi teks: Bila Anda memiliki kumpulan data yang sangat besar, seperti jutaan ulasan produk atau miliaran email, Anda hanya perlu memberi label sebagian kecil saja.Pendekatan semi-supervisi akan menggunakan sisa data untuk menyempurnakan model.
- Analisis citra medis: Waktu yang dibutuhkan para ahli medis mahal dan tidak selalu akurat.Melengkapi analisis citra seperti MRI atau sinar-X dengan banyak gambar tanpa label dapat menghasilkan model yang menyamai atau bahkan melampaui keakuratannya.
- Pengenalan ucapan: Mentranskripsikan ucapan secara manual adalah proses yang membosankan dan melelahkan, terutama jika Anda mencoba menangkap beragam dialek dan aksen.Menggabungkan data ucapan berlabel dengan audio tak berlabel dalam jumlah besar akan meningkatkan kemampuan model untuk memahami secara akurat apa yang dibicarakan.
- Deteksi penipuan: Pertama, latih model pada sekumpulan kecil transaksi berlabel, yang mengidentifikasi penipuan yang diketahui dan kasus yang sah.Kemudian tambahkan serangkaian transaksi tak berlabel yang lebih besar untuk mengekspos model terhadap pola dan anomali yang mencurigakan, sehingga meningkatkan kemampuannya untuk mengidentifikasi aktivitas penipuan yang baru atau yang sedang berkembang dalam sistem keuangan.
- Segmentasi pelanggan: Pembelajaran semi-supervisi dapat meningkatkan presisi dengan menggunakan kumpulan data kecil berlabel untuk menentukan segmen awal berdasarkan pola dan demografi tertentu, kemudian menambahkan kumpulan data tak berlabel yang lebih besar untuk menyaring dan memperluas kategori ini.
Keuntungan pembelajaran semi-supervisi
- Hemat biaya: Pembelajaran semi-supervisi mengurangi kebutuhan akan data berlabel yang ekstensif, menurunkan biaya dan upaya pelabelan serta pengaruh kesalahan manusia dan bias.
- Prediksi yang lebih baik: Menggabungkan data berlabel dan tidak berlabel sering kali menghasilkan kualitas prediksi yang lebih baik dibandingkan dengan pembelajaran yang diawasi sepenuhnya, karena hal ini memberikan lebih banyak data untuk dipelajari oleh model.
- Skalabilitas: Pembelajaran semi-supervisi cocok untuk aplikasi dunia nyata di mana pelabelan menyeluruh tidak praktis, seperti miliaran transaksi yang berpotensi penipuan, karena pembelajaran ini menangani kumpulan data besar dengan data berlabel minimal.
- Fleksibilitas: Menggabungkan kekuatan pembelajaran yang diawasi dan tidak diawasi membuat pendekatan ini dapat disesuaikan dengan banyak tugas dan domain.
Kekurangan pembelajaran semi-supervisi
- Kompleksitas: Mengintegrasikan data berlabel dan tidak berlabel sering kali memerlukan teknik pra-pemrosesan yang canggih seperti normalisasi rentang data, memasukkan nilai yang hilang, dan pengurangan dimensi.
- Ketergantungan asumsi: Metode semi-supervisi sering kali mengandalkan asumsi tentang distribusi data, seperti titik data dalam cluster yang sama yang berhak mendapatkan label yang sama, yang mungkin tidak selalu benar.
- Potensi gangguan: Data yang tidak berlabel dapat menimbulkan gangguan dan ketidakakuratan jika tidak ditangani dengan benar dengan teknik seperti deteksi outlier dan validasi terhadap data berlabel.
- Lebih sulit untuk dievaluasi: Tanpa banyak data yang diberi label, Anda tidak akan mendapatkan banyak informasi berguna dari pendekatan evaluasi pembelajaran terawasi standar.