Pembelajaran yang Diawasi: Apa Itu dan Cara Kerjanya
Diterbitkan: 2024-07-03Dari pengenalan gambar hingga pemfilteran spam, temukan bagaimana pembelajaran yang diawasi mendukung banyak aplikasi AI yang kita temui setiap hari dalam panduan informatif ini.
Daftar isi
- Apa itu pembelajaran yang diawasi?
- Pembelajaran yang diawasi vs. tanpa pengawasan
- Cara kerja pembelajaran yang diawasi
- Jenis pembelajaran yang diawasi
- Penerapan pembelajaran yang diawasi
- Keuntungan pembelajaran yang diawasi
- Kerugian dari pembelajaran yang diawasi
Apa itu pembelajaran yang diawasi?
Pembelajaran yang diawasi adalah jenis pembelajaran mesin (ML) yang melatih model menggunakan data yang diberi label dengan jawaban yang benar. Istilahdiawasiberarti label ini memberikan panduan yang jelas mengenai hubungan antara masukan dan keluaran. Proses ini membantu model membuat prediksi akurat terhadap data baru yang belum terlihat.
Pembelajaran mesin adalah bagian dari kecerdasan buatan (AI) yang menggunakan data dan metode statistik untuk membangun model yang meniru pemikiran manusia daripada mengandalkan instruksi yang dikodekan secara keras. Pembelajaran yang diawasi menggunakan pendekatan terpandu dan berbasis data untuk mengidentifikasi pola dan hubungan dalam kumpulan data berlabel. Ini mengekstrapolasi evaluasinya untuk memprediksi hasil dari data baru yang belum terlihat. Ia belajar dengan membandingkan prediksinya dengan label yang diketahui dan menyesuaikan modelnya untuk meminimalkan kesalahan.
Pembelajaran yang diawasi vs. tanpa pengawasan
Berbeda dengan pembelajaran terawasi yang menggunakan data berlabel, pembelajaran tanpa pengawasan menemukan pola dalam data tidak berlabel.
Tanpa “pengawasan” yang diberikan oleh jawaban benar yang eksplisit dalam data pelatihan, pembelajaran tanpa pengawasan akan memperlakukan semua yang dilihatnya sebagai data untuk dianalisis pola dan pengelompokannya. Tiga tipe utama adalah:
- Clustering:Teknik ini mengelompokkan titik-titik data yang paling berdekatan satu sama lain. Ini berguna untuk segmentasi pelanggan atau penyortiran dokumen.
- Asosiasi: Menentukan kapan sesuatu cenderung terjadi bersamaan, terutama untuk menemukan item yang sering dibeli bersama atau menyarankan item apa yang akan dialirkan selanjutnya.
- Pengurangan dimensi: Memperkecil kumpulan data agar lebih mudah diproses sambil mempertahankan semua atau sebagian besar detailnya.
Di sisi lain, pembelajaran yang diawasi masuk akal ketika Anda ingin model mengambil keputusan. Aplikasi utama meliputi:
- Keputusan ya atau tidak:Menandai data sebagai salah satu kelas atau kelas lainnya. Sering digunakan untuk memfilter seperti deteksi spam atau penipuan.
- Klasifikasi: Mencari tahu kelas mana yang termasuk dalam sesuatu, seperti mengidentifikasi objek dalam gambar atau mengenali ucapan.
- Regresi: Memprediksi nilai berkelanjutan berdasarkan data historis, seperti perkiraan harga rumah atau kondisi cuaca.
Jenis ML lainnya berada di antara keduanya: pembelajaran semi-supervisi, penguatan, dan pengawasan mandiri.
Cara kerja pembelajaran yang diawasi
Pembelajaran yang diawasi melibatkan proses terstruktur dalam memilih dan memformat data, menjalankan model, dan menguji kinerjanya.
Berikut gambaran singkat proses pembelajaran yang diawasi:
1 Pelabelan:Data yang diberi label penting untuk mempelajari hubungan yang benar antara masukan dan keluaran. Misalnya, jika Anda membuat model untuk menganalisis sentimen dalam ulasan produk, mulailah dengan meminta evaluator manusia membaca ulasan tersebut dan menandainya sebagai positif, negatif, atau netral.
2 Pengumpulan dan pembersihan data:Pastikan data pelatihan Anda komprehensif dan representatif. Bersihkan data dengan menghapus duplikat, memperbaiki kesalahan, dan menangani nilai yang hilang untuk mempersiapkannya untuk dianalisis.
3 Seleksi dan ekstraksi fitur:Identifikasi dan pilih atribut yang paling berpengaruh, menjadikan model lebih efisien dan efektif. Langkah ini mungkin juga melibatkan pembuatan fitur baru dari fitur yang sudah ada untuk menangkap pola dasar data dengan lebih baik, seperti mengubah tanggal lahir menjadi usia.
4 Pemisahan data:Bagilah kumpulan data menjadi kumpulan pelatihan dan pengujian. Gunakan set pelatihan untuk melatih model, dan set pengujian untuk melihat seberapa baik model tersebut digeneralisasikan ke data baru yang belum terlihat.
5 Pemilihan algoritma:Pilih algoritma pembelajaran yang diawasi berdasarkan tugas dan karakteristik data. Anda juga dapat menjalankan dan membandingkan beberapa algoritma untuk menemukan yang terbaik.
6 Pelatihan model:Melatih model menggunakan data untuk meningkatkan akurasi prediksinya. Selama fase ini, model mempelajari hubungan antara masukan dan keluaran dengan meminimalkan kesalahan antara prediksinya dan label aktual yang diberikan dalam data pelatihan secara berulang. Bergantung pada kompleksitas algoritme dan ukuran kumpulan data, proses ini dapat memerlukan waktu beberapa detik hingga beberapa hari.
7 Evaluasi model:Mengevaluasi kinerja model memastikan bahwa model menghasilkan prediksi yang andal dan akurat pada data baru. Ini adalah perbedaan utama dari pembelajaran tanpa pengawasan: Karena Anda mengetahui keluaran yang diharapkan, Anda dapat mengevaluasi seberapa baik kinerja model.
8 Penyetelan model:Sesuaikan dan latih kembali parameter model untuk menyempurnakan performa. Proses berulang ini, yang disebut penyetelan hyperparameter, bertujuan untuk mengoptimalkan model dan mencegah masalah seperti overfitting. Proses ini harus diulangi setelah setiap penyesuaian.
9 Penerapan dan pemantauan:Menerapkan model terlatih untuk membuat prediksi pada data baru di lingkungan dunia nyata. Misalnya, terapkan model deteksi spam terlatih untuk memfilter email, memantau kinerjanya, dan melakukan penyesuaian sesuai kebutuhan.
10 Penyempurnaan dari waktu ke waktu:Saat Anda mengumpulkan lebih banyak data nyata, terus latih model agar menjadi lebih akurat dan relevan.
Jenis pembelajaran yang diawasi
Ada dua jenis utama pembelajaran terawasi: klasifikasi dan regresi. Setiap jenis memiliki subtipe dan kasus penggunaan spesifiknya sendiri. Mari kita jelajahi lebih detail:
Klasifikasi
Klasifikasi melibatkan prediksi kategori atau kelas mana yang termasuk dalam input. Berbagai subtipe dan konsep digunakan untuk menangani masalah klasifikasi yang berbeda. Berikut beberapa jenis yang populer:
- Klasifikasi biner:Model memprediksi satu dari dua kemungkinan kelas. Hal ini berguna jika hasilnya biner, artinya hanya ada dua kemungkinan status atau kategori. Pendekatan ini digunakan dalam pengambilan keputusan yang memerlukan pembedaan yang jelas.
- Klasifikasi kelas jamak: Seperti biner, tetapi dengan lebih dari dua pilihan dan hanya ada satu jawaban yang benar. Pendekatan ini digunakan ketika ada beberapa kategori yang dapat dimiliki suatu masukan.
- Klasifikasi multi-label: Setiap masukan dapat dimasukkan ke beberapa kelas secara bersamaan. Tidak seperti klasifikasi biner atau kelas jamak, di mana setiap masukan ditetapkan ke satu kelas, klasifikasi multi-label memungkinkan penetapan beberapa label ke satu masukan. Ini adalah analisis yang lebih kompleks karena daripada hanya memilih kelas mana saja yang kemungkinan besar termasuk dalam input, Anda perlu menentukan ambang batas probabilitas untuk dimasukkan.
- Regresi logistik: Penerapan regresi (lihat di bawah) pada klasifikasi biner. Pendekatan ini dapat memberi tahu Anda keyakinan prediksinya, bukan sekadar ini-atau-itu.
Ada beberapa cara untuk mengukur kualitas suatu model klasifikasi, antara lain:
- Akurasi:Berapa banyak dari total prediksi yang benar?
- Presisi:Berapa banyak hal positif yang benar-benar positif?
- Ingat:Berapa banyak hal positif sebenarnya yang ditandai sebagai positif?
- Skor F1:Pada skala 0% hingga 100%, seberapa baik model menyeimbangkan presisi dan perolehan?
Regresi
Regresi melibatkan prediksi nilai berkelanjutan berdasarkan fitur masukan, menghasilkan angka yang juga bisa disebut prediksi. Berbagai jenis model regresi digunakan untuk menangkap hubungan antara fitur masukan dan keluaran berkelanjutan. Berikut beberapa jenis yang populer:
- Regresi linier:Memodelkan hubungan antara fitur masukan dan keluaran sebagai garis lurus. Model ini mengasumsikan adanya hubungan linier antara variabel terikat (output) dan variabel bebas (input). Tujuannya adalah untuk menemukan garis yang paling sesuai melalui titik data yang meminimalkan perbedaan antara nilai prediksi dan nilai aktual.
- Regresi polinomial: Lebih kompleks daripada regresi linier karena menggunakan polinomial seperti kuadrat dan pangkat tiga untuk menangkap hubungan yang lebih kompleks antara variabel masukan dan keluaran. Model ini dapat menyesuaikan data nonlinier dengan menggunakan suku tingkat tinggi berikut.
- Regresi ridge dan laso: Mengatasi masalah overfitting, yaitu kecenderungan model membaca terlalu banyak data yang dilatihnya sehingga mengorbankan generalisasi. Regresi ridge mengurangi sensitivitas model terhadap detail-detail kecil, sedangkan regresi laso menghilangkan fitur-fitur yang kurang penting dari pertimbangan.
Sebagian besar pengukuran kualitas regresi berkaitan dengan seberapa jauh perbedaan prediksi dari nilai sebenarnya. Pertanyaan yang mereka jawab adalah:
- Kesalahan absolut rata-rata:Rata-rata, seberapa jauh selisih prediksi dari nilai sebenarnya?
- Mean squared error:Berapa banyak kesalahan yang bertambah ketika kesalahan yang lebih besar menjadi lebih signifikan?
- Root mean squared error: Seberapa besar kesalahan besar menyebabkan prediksi menyimpang dari nilai sebenarnya?
- R-squared: Seberapa cocok regresi dengan data?
Penerapan pembelajaran yang diawasi
Pembelajaran yang diawasi memiliki beragam penerapan di berbagai industri. Berikut beberapa contoh umum:
- Deteksi spam:Layanan email menggunakan klasifikasi biner untuk memutuskan apakah sebuah email harus masuk ke kotak masuk Anda atau dialihkan ke spam. Mereka terus melakukan perbaikan dalam menanggapi orang-orang yang menandai email di folder spam sebagai bukan spam, dan sebaliknya.
- Pengenalan gambar:Model dilatih pada gambar berlabel untuk mengenali dan mengkategorikan objek. Contohnya termasuk fitur ID Wajah Apple, yang membuka kunci tablet atau perangkat seluler Anda, pengenalan karakter optik (OCR) untuk mengubah kata-kata tercetak menjadi teks digital, dan deteksi objek untuk mobil yang dapat mengemudi sendiri.
- Diagnosis medis:Model yang diawasi dapat memprediksi penyakit dan menyarankan diagnosis potensial menggunakan data pasien dan rekam medis. Misalnya, model dapat dilatih untuk mengenali tumor kanker di MRI atau mengembangkan rencana pengelolaan diabetes.
- Deteksi penipuan:Lembaga keuangan menggunakan pembelajaran yang diawasi untuk mengidentifikasi transaksi penipuan dengan menganalisis pola dalam data transaksi berlabel.
- Analisis sentimen:Baik mengukur reaksi atau emosi positif atau negatif seperti bahagia atau jijik, kumpulan data yang diberi tag secara manual memberi informasi kepada model untuk menafsirkan masukan seperti postingan media sosial, ulasan produk, atau hasil survei.
- Pemeliharaan prediktif:Berdasarkan data kinerja historis dan faktor lingkungan, model dapat memprediksi kapan mesin akan mengalami kerusakan sehingga mesin dapat diperbaiki atau diganti sebelum kerusakan terjadi.
Keuntungan pembelajaran yang diawasi
- Akurat dan dapat diprediksi.Dengan asumsi mereka diberikan data yang baik, model pembelajaran yang diawasi cenderung lebih akurat dibandingkan metode pembelajaran mesin lainnya. Model yang lebih sederhana biasanya bersifat deterministik, artinya masukan tertentu akan selalu menghasilkan keluaran yang sama.
- Tujuan yang jelas. Berkat pengawasan, Anda tahu apa yang ingin dicapai oleh model Anda. Hal ini sangat kontras dengan pembelajaran tanpa pengawasan dan pembelajaran mandiri.
- Mudah untuk dievaluasi. Ada beberapa ukuran kualitas yang dapat Anda gunakan untuk menilai keakuratan model klasifikasi dan regresi.
- Dapat ditafsirkan. Model yang diawasi menggunakan teknik, seperti regresi dan pohon keputusan, yang relatif mudah dipahami oleh data scientist. Interpretabilitas meningkatkan kepercayaan diri para pengambil keputusan, terutama di lingkungan dengan dampak tinggi dan industri yang diatur.
Kerugian dari pembelajaran yang diawasi
- Membutuhkan data berlabel.Data Anda harus memiliki masukan dan label yang jelas. Hal ini sering kali menjadi tantangan dalam pelatihan klasifikasi, karena ribuan (bahkan jutaan) orang dipekerjakan untuk membuat anotasi data secara manual.
- Kesalahan dan penilaian yang tidak konsisten dalam data pelatihan. Dengan pelabelan manusia muncul kesalahan manusia, seperti kesalahan, kesalahan ketik, dan perbedaan pendapat. Yang terakhir ini merupakan aspek yang sangat menantang dalam analisis sentimen; data pelatihan sentimen berkualitas tinggi biasanya memerlukan banyak orang untuk mengevaluasi titik data tertentu dan hasilnya dicatat hanya jika ada kesepakatan.
- Keterlaluan. Seringkali suatu model menghasilkan perhitungan yang bekerja sangat baik untuk data pelatihan, namun kurang baik jika digunakan pada data yang belum dilihat. Pelatih yang berhati-hati akan selalu mencari overfitting dan menggunakan teknik untuk mengurangi dampaknya.
- Terbatas pada pola yang diketahui. Jika model prediksi harga saham Anda hanya didasarkan pada data dari pasar bullish, model tersebut tidak akan terlalu akurat ketika pasar bearish terjadi. Oleh karena itu, pekalah terhadap keterbatasan data yang telah Anda tunjukkan pada model Anda, dan pertimbangkan apakah akan menemukan data pelatihan yang akan memaparkannya pada lebih banyak keadaan atau mengabaikan keluarannya saja.