Pembelajaran yang Diawasi vs. Tanpa Pengawasan: Perbedaan, Manfaat, dan Kasus Penggunaan

Diterbitkan: 2025-01-17

Pembelajaran mesin (ML) mendukung banyak teknologi yang kita andalkan sehari-hari, seperti pengenalan gambar dan kendaraan otonom. Dua pendekatan mendasar—pembelajaran yang diawasi dan tidak diawasi—menjadi tulang punggung sistem ini. Meskipun keduanya merupakan kunci untuk melatih model ML, keduanya berbeda dalam metodologi, sasaran, dan penerapannya.

Dalam panduan ini, kami akan membandingkan kedua pendekatan ini, menyoroti perbedaannya, dan mengeksplorasi manfaat serta tantangannya. Kami juga akan menjelajahi aplikasi praktis untuk membantu Anda memahami mana yang paling cocok untuk berbagai tugas.

Daftar isi

  • Apa itu pembelajaran yang diawasi?
  • Apa itu pembelajaran tanpa pengawasan?
  • Diawasi vs. tidak diawasi: perbedaan utama
  • Manfaat pembelajaran yang diawasi dan tidak diawasi
  • Tantangan pembelajaran yang diawasi dan tidak diawasi
  • Penerapan pembelajaran yang diawasi dan tidak diawasi
  • Kesimpulan

Apa itu pembelajaran yang diawasi?

Pembelajaran yang diawasi melatih sistem ML menggunakan data berlabel. Dalam konteks ini, “berlabel” berarti setiap contoh pelatihan dipasangkan dengan keluaran yang diketahui. Label ini, sering kali dibuat oleh para ahli, membantu sistem mempelajari hubungan antara masukan dan keluaran. Setelah dilatih, sistem yang diawasi dapat menerapkan hubungan yang dipelajari ini ke data baru yang tidak terlihat untuk membuat prediksi atau klasifikasi.

Misalnya, dalam konteks mobil tanpa pengemudi, sistem pembelajaran yang diawasi mungkin menganalisis data video berlabel. Anotasi ini mengidentifikasi rambu jalan, pejalan kaki, dan rintangan, sehingga memungkinkan sistem mengenali dan merespons fitur serupa dalam skenario mengemudi di dunia nyata.

Algoritme pembelajaran yang diawasi terbagi dalam dua kategori utama:

  • Klasifikasi: Algoritme ini memberi label pada data baru, seperti mengidentifikasi email sebagai spam atau non-spam.
  • Regresi: Algoritme ini memprediksi nilai berkelanjutan, seperti memperkirakan penjualan di masa depan berdasarkan kinerja masa lalu.

Seiring dengan pertumbuhan kumpulan data dan peningkatan sumber daya komputasi, sistem yang diawasi menjadi lebih akurat dan efektif, mendukung aplikasi seperti deteksi penipuan dan diagnostik medis.

Pelajari lebih lanjut tentang pembelajaran yang diawasi →

Apa itu pembelajaran tanpa pengawasan?

Sebaliknya, pembelajaran tanpa pengawasan menganalisis data tanpa contoh berlabel, mengandalkan algoritma statistik untuk mengungkap pola atau hubungan tersembunyi. Berbeda dengan sistem yang diawasi, model ini menyimpulkan struktur dan memperbarui temuannya secara dinamis seiring tersedianya informasi baru. Meskipun pembelajaran tanpa pengawasan unggul dalam penemuan pola, pembelajaran tanpa pengawasan biasanya kurang efektif untuk tugas-tugas prediktif.

Contoh praktisnya adalah layanan agregasi berita. Sistem ini mengelompokkan artikel terkait dan postingan media sosial tentang peristiwa berita terkini tanpa pelabelan eksternal. Dengan mengidentifikasi kesamaan secara real-time, mereka melakukan pembelajaran tanpa pengawasan untuk menyoroti cerita-cerita penting.

Berikut adalah beberapa algoritme pembelajaran tanpa pengawasan khusus:

  • Clustering:Ini digunakan untuk mensegmentasi konsumen dan menyesuaikan segmen seiring perubahan perilaku.
  • Asosiasi:Ini mendeteksi pola dalam data, seperti mengidentifikasi anomali yang dapat mengindikasikan pelanggaran keamanan.
  • Pengurangan dimensi: Ini menyederhanakan struktur data sekaligus menjaga informasi penting dan sering digunakan dalam mengompresi dan memvisualisasikan kumpulan data yang kompleks.

Pembelajaran tanpa pengawasan merupakan bagian integral dari analisis data eksplorasi dan mengungkap wawasan dalam skenario ketika data berlabel tidak tersedia.

Pelajari lebih lanjut tentang pembelajaran tanpa pengawasan →

Diawasi vs tidak diawasi: perbedaan utama

Pembelajaran yang diawasi dan tidak diawasi memiliki peran yang berbeda dalam ML. Pendekatan ini berbeda dalam persyaratan data, keterlibatan manusia, tugas, dan aplikasi. Tabel di bawah menyoroti perbedaan-perbedaan ini, yang akan kita bahas lebih jauh.

Pembelajaran yang diawasi Pembelajaran tanpa pengawasan
Masukkan data Membutuhkan data berlabel Memerlukan data yang tidak berlabel
Tujuan Memprediksi atau mengklasifikasikan label keluaran berdasarkan fitur masukan Temukan dan perbarui pola, struktur, atau representasi tersembunyi dalam data
Keterlibatan manusia Upaya manual yang signifikan untuk memberi label pada kumpulan data besar dan panduan ahli untuk memilih fitur Intervensi manusia yang minimal namun sangat terspesialisasi. Terutama untuk mengatur parameter algoritma, mengoptimalkan penggunaan sumber daya dalam skala besar, dan penelitian algoritma.
Tugas utama Regresi, klasifikasi Pengelompokan, asosiasi, reduksi dimensi
Algoritma umum Regresi linier dan logistik, pohon keputusan, jaringan saraf Pengelompokan K-means, analisis komponen utama (PCA), autoencoder
Keluaran Model prediktif yang dapat mengklasifikasikan atau meregresi titik data baru Pengelompokan atau representasi data (misalnya cluster, komponen)
Aplikasi Deteksi spam, deteksi penipuan, klasifikasi gambar, prediksi harga, dll. Segmentasi pelanggan, analisis keranjang pasar, deteksi anomali, dll.

Perbedaan selama fase pelatihan

Perbedaan utama antara kedua jenis algoritme ini adalah jenis kumpulan data yang diandalkannya. Pembelajaran yang diawasi mendapat manfaat dari kumpulan besar data berlabel. Akibatnya, sistem pengawasan yang paling canggih bergantung pada tenaga manusia yang tidak terspesialisasi dan berskala besar untuk menyaring data dan menghasilkan label. Data berlabel juga biasanya membutuhkan lebih banyak sumber daya untuk diproses, sehingga sistem yang diawasi tidak dapat memproses data sebanyak itu pada skala teratas.

Sistem pembelajaran tanpa pengawasan bisa mulai efektif dengan kumpulan data yang lebih kecil dan dapat memproses data dalam jumlah yang jauh lebih besar dengan sumber daya yang sama. Data mereka lebih mudah diperoleh dan diproses karena tidak bergantung pada tenaga manusia yang tidak terspesialisasi dan berskala besar. Sebagai konsekuensinya, sistem biasanya tidak mencapai tingkat akurasi yang tinggi dalam tugas prediksi dan sering kali bergantung pada pekerjaan khusus agar menjadi efektif. Daripada digunakan ketika akurasi sangat penting, mereka lebih sering digunakan untuk menyimpulkan dan memperbarui pola dalam data, dalam skala besar, dan seiring perubahan data.

Perbedaan saat diterapkan

Aplikasi pembelajaran yang diawasi biasanya memiliki mekanisme bawaan untuk memperoleh lebih banyak data berlabel dalam skala besar. Misalnya saja kemudahan bagi pengguna email untuk menandai apakah pesan yang masuk merupakan spam atau bukan. Penyedia email dapat mengumpulkan pesan yang ditandai ke dalam set pelatihan dan kemudian melatih sistem regresi logistik untuk deteksi spam. Mereka mengorbankan pelatihan yang lebih lama dan lebih banyak sumber daya untuk pengambilan keputusan yang lebih cepat ketika diterapkan. Selain sistem regresi logistik, algoritme pelatihan terawasi umum lainnya mencakup pohon keputusan dan jaringan saraf, yang digunakan di mana-mana untuk memprediksi dan membuat keputusan serta untuk pengenalan pola yang kompleks.

Sistem tanpa pengawasan membedakan dirinya ketika diterapkan pada masalah yang melibatkan data tidak terstruktur dalam jumlah besar. Mereka dapat mendeteksi pola dalam data, meskipun pola tersebut bersifat sementara, dan harus dideteksi sebelum pelatihan untuk pembelajaran yang diawasi selesai. Misalnya, algoritme pengelompokan, sejenis sistem pembelajaran tanpa pengawasan, dapat mendeteksi dan memperbarui segmen konsumen seiring perubahan tren. Jika tren beralih ke pola baru dan belum terlihat, tren tersebut akan tetap relevan tanpa memerlukan waktu henti untuk pelatihan ulang.

Contoh pembelajaran tanpa pengawasan adalah penggunaan analisis komponen utama (PCA) di bidang keuangan. PCA adalah algoritme yang dapat diterapkan pada kelompok investasi dalam skala besar dan membantu menyimpulkan dan memperbarui properti kelompok yang muncul. Hal ini mencakup indikator keuangan penting, seperti sumber risiko investasi terpenting dan faktor-faktor yang mungkin memengaruhi keuntungan. Jenis umum lainnya dari sistem pembelajaran tanpa pengawasan adalah autoencoder, yang mengompresi dan menyederhanakan data, sering kali sebagai langkah persiapan sebelum algoritma ML lainnya diterapkan.

Bekerja lebih cerdas dengan Grammarly
Mitra penulisan AI bagi siapa saja yang memiliki pekerjaan yang harus diselesaikan

Manfaat pembelajaran yang diawasi dan tidak diawasi

Sistem yang diawasi dan tidak diawasi berguna untuk memproses data pada skala dan kecepatan yang melampaui manusia tanpa bantuan. Namun, mereka paling cocok untuk aplikasi yang berbeda. Di bawah ini, kami membandingkan beberapa manfaat utamanya.

Sistem yang diawasi

  • Unggul jika tersedia data historis yang signifikan
  • Jauh lebih baik daripada sistem tanpa pengawasan untuk melatih data dengan struktur, karakteristik, dan pola yang diketahui
  • Ideal untuk mendeteksi dan menerapkan karakteristik data yang diketahui dalam skala besar
  • Dapat memberikan hasil yang dapat dipahami dan masuk akal secara intuitif bagi manusia
  • Dapat memiliki akurasi lebih tinggi pada data baru dan belum terlihat
  • Dapat membuat prediksi lebih cepat dan dalam skala yang lebih tinggi dibandingkan sistem tanpa pengawasan

Sistem tanpa pengawasan

  • Sangat baik dalam mengidentifikasi struktur dan hubungan data yang sebelumnya tidak terlihat atau tidak diketahui
  • Lakukan dengan baik jika datanya kurang terstruktur dan propertinya kurang diketahui
  • Bekerja dalam beberapa kondisi di mana sistem yang diawasi tidak berfungsi dengan baik (misalnya, dalam situasi di mana data tidak tersedia atau data tersedia tetapi belum diproses oleh manusia)
  • Membutuhkan lebih sedikit sumber daya dan waktu selama pelatihan dibandingkan sistem yang diawasi untuk jumlah data yang setara
  • Dapat dilatih dan digunakan ketika terdapat terlalu banyak data untuk diproses dengan baik dengan sistem yang diawasi

Tantangan pembelajaran yang diawasi dan tidak diawasi

Sistem yang diawasi dan tidak diawasi masing-masing menghasilkan trade-off yang berbeda, dan tantangan yang dihadapi terkadang sangat berbeda. Kami menyoroti beberapa perbedaan utama di bawah ini.

Sistem yang diawasi

  • Memerlukan akses ke sejumlah besar data yang diproses oleh manusia, yang hanya kadang-kadang tersedia atau mudah diperoleh
  • Seringkali memiliki fase pelatihan yang lebih lama dan lebih intensif sumber daya
  • Mungkin kesulitan beradaptasi dengan cepat jika karakteristik data inti berubah
  • Hadapi tantangan saat memproses data yang pada dasarnya tidak terstruktur, seperti video atau audio

Sistem tanpa pengawasan

  • Akan lebih sering mendeteksi pola yang tidak dapat digeneralisasi dengan baik pada contoh data baru
  • Mungkin sulit untuk dibuat seakurat sistem yang diawasi
  • Mereka menghasilkan hasil yang sulit diinterpretasikan oleh manusia, dan interpretasi terhadap hasil ini bisa lebih subjektif.
  • Dapat memerlukan lebih banyak waktu dan sumber daya untuk setiap prediksi yang dibuat di dunia nyata

Penerapan pembelajaran yang diawasi dan tidak diawasi

Beberapa aplikasi dan masalah paling baik diatasi dengan sistem pembelajaran yang diawasi, beberapa paling baik ditangani dengan sistem tanpa pengawasan, dan beberapa lainnya paling baik diatasi dengan menggunakan sistem campuran. Berikut adalah tiga contoh terkenal.

Sistem pembelajaran campuran dan pembelajaran semi-supervisi

Penting untuk diperhatikan bahwa sebagian besar aplikasi kehidupan nyata menggunakan campuran model yang diawasi dan tidak diawasi. Sistem pembelajaran sering kali digabungkan berdasarkan hal-hal seperti anggaran, ketersediaan data, persyaratan kinerja, dan kompleksitas teknik. Kadang-kadang, subset algoritme pembelajaran khusus yang berupaya memadukan manfaat kedua pendekatan—pembelajaran semi-supervisi—juga dapat digunakan. Pada contoh di bawah, kami menyebutkan sistem yang paling mungkin atau utama yang mungkin digunakan.

Prediksi lalu lintas (diawasi)

Prediksi lalu lintas adalah tugas yang menantang. Untungnya, banyak data berlabel tersedia karena kota secara rutin mengaudit dan mencatat volume lalu lintas jalan raya. Algoritme regresi, salah satu jenis pembelajaran terawasi, mudah diterapkan pada data ini dan dapat menghasilkan prediksi arus lalu lintas yang cukup akurat. Prediksi mereka dapat membantu menginformasikan pengambilan keputusan seputar pembangunan jalan, rambu lalu lintas, dan penempatan lampu lalu lintas. Algoritme tanpa pengawasan kurang efektif pada fase ini. Namun, data tersebut dapat dijalankan berdasarkan data lalu lintas yang terakumulasi setelah perubahan struktur jalan diterapkan. Pada saat itu, mereka membantu mengidentifikasi dan menyimpulkan secara otomatis jika ada masalah baru dan yang sebelumnya tidak terlihat mungkin terjadi.

Pengelompokan genetik (tanpa pengawasan)

Analisis data genetik bisa berjalan lambat dan rumit karena volume datanya besar dan sebagian besar data tidak dianalisis dengan baik. Kita sering tidak tahu banyak tentang isi data genetik—di mana gen dan komponen genetik lainnya mungkin disimpan dalam genom, bagaimana data tersebut didekodekan dan diinterpretasikan, dll. Algoritme tanpa pengawasan sangat relevan dengan masalah ini karena dapat memproses data dalam jumlah besar. data dan secara otomatis menyimpulkan pola apa yang dikandungnya. Mereka juga dapat membantu mengumpulkan informasi genetik yang tampak serupa ke dalam kelompok terpisah. Setelah data genetik dikelompokkan berdasarkan kesamaan, cluster tersebut dapat dengan mudah diproses dan diuji untuk mengidentifikasi fungsi biologis apa (jika ada) yang dijalankannya.

LLM dan pembelajaran penguatan (campuran)

Model bahasa besar (LLM) adalah contoh aplikasi yang menggabungkan sistem pembelajaran tanpa pengawasan dan pengawasan. Sistem awal, LLM, biasanya merupakan contoh sistem tanpa pengawasan. Untuk menghasilkan LLM, data berskala besar dianalisis (misalnya, semua teks bahasa Inggris yang tersedia di internet) oleh sistem tanpa pengawasan. Sistem menyimpulkan banyak pola dari data dan mengembangkan aturan dasar untuk berbicara dalam bahasa Inggris.

Namun, kesimpulan yang dibuat LLM tidak berfungsi dengan baik dalam membuatnya terdengar seperti manusia pada umumnya dalam percakapan. Mereka juga tidak membantu mempertimbangkan preferensi individu untuk berkomunikasi. Sistem yang diawasi—khususnya, sistem penguatan yang menggunakan umpan balik beranotasi dari pengguna (disebut pembelajaran penguatan dari umpan balik manusia, atau disingkat RLHF)—adalah salah satu cara untuk memecahkan masalah ini. RLHF dapat diterapkan pada LLM yang sudah terlatih untuk membantunya berkomunikasi dengan baik dengan manusia pada umumnya. Ia juga dapat mempelajari preferensi individu dan berbicara dengan cara yang disukai orang tertentu.

Kesimpulan

Singkatnya, pembelajaran yang diawasi dan tidak diawasi adalah dua bagian mendasar dari ML, yang masing-masing menawarkan kekuatan unik. Pembelajaran yang diawasi unggul dalam skenario dengan data berlabel yang melimpah, sumber daya yang memadai untuk pelatihan awal, dan kebutuhan akan pengambilan keputusan yang cepat dan terukur. Di sisi lain, pembelajaran tanpa pengawasan unggul ketika mengungkap struktur dan hubungan tersembunyi dalam data, terutama ketika data berlabel atau sumber daya pelatihan terbatas dan pengambilan keputusan dapat mengakomodasi lebih banyak waktu dan kompleksitas. Dengan memahami keuntungan, tantangan, dan kasus penggunaan kedua pendekatan tersebut, Anda dapat membuat keputusan yang tepat tentang kapan dan bagaimana menerapkannya secara efektif.