Pembelajaran Tanpa Pengawasan: Apa Itu dan Cara Kerjanya

Diterbitkan: 2024-07-03

Ungkap misteri pembelajaran tanpa pengawasan, sebuah teknik revolusioner yang memungkinkan mesin menjadi analis data otonom, mengekstraksi wawasan berharga tanpa campur tangan manusia.

Daftar isi

  • Apa itu pembelajaran tanpa pengawasan?
  • Pembelajaran tanpa pengawasan vs. pembelajaran yang diawasi
  • Cara kerja pembelajaran tanpa pengawasan
  • Jenis pembelajaran tanpa pengawasan
  • Penerapan pembelajaran tanpa pengawasan
  • Keuntungan pembelajaran tanpa pengawasan
  • Kerugian dari pembelajaran tanpa pengawasan

Apa itu pembelajaran tanpa pengawasan?

Pembelajaran tanpa pengawasan adalah jenis pembelajaran mesin (ML) yang menemukan pola dan hubungan dalam datanya sendiri. Istilahtanpa pengawasanberarti model tersebut menggunakan data yang tidak diberi label, artinya model tersebut tidak mendapat instruksi dari manusia tentang apa yang harus dicari atau bahkan panduan tentang apa yang dilihatnya. Sebaliknya, ia menggunakan algoritme untuk mengevaluasi kumpulan data dan menemukan korelasi, persamaan, perbedaan, dan cara lain untuk mendeskripsikan data menggunakan matematika.

Pembelajaran mesin adalah bagian dari kecerdasan buatan (AI) yang menggunakan data dan metode statistik untuk membangun model yang meniru pemikiran manusia daripada mengandalkan instruksi yang dikodekan secara keras. Pembelajaran tanpa pengawasan menggunakan pendekatan eksplorasi dan berbasis data untuk menarik kesimpulan dari kumpulan data yang besar, seperti mengelompokkan entitas berdasarkan karakteristik umum atau menemukan titik data mana yang cenderung muncul bersamaan—yang dapat berfungsi sebagai menyortir gambar pohon gugur dari pohon cemara, atau menemukan bahwa orang-orang yang melakukan streamingSesame Streetkemungkinan besar juga akan menontonDaniel Tiger.

Bekerja lebih cerdas dengan Grammarly
Mitra penulisan AI bagi siapa saja yang memiliki pekerjaan yang harus diselesaikan

Pembelajaran tanpa pengawasan vs. pembelajaran yang diawasi

Berbeda dengan metode tanpa pengawasan, pembelajaran yang diawasi menggunakan data berlabel yang memasangkan masukan dengan keluaran yang benar. Sebaliknya, pembelajaran tanpa pengawasan tidak memiliki masukan dan keluaran untuk diintuisi oleh model, hanya data untuk dianalisis.

Label memberikan apa yang disebut pengawasan terhadap proses pembelajaran model, membimbingnya untuk merekayasa balik menuju jawaban yang benar dari masukan yang diberikan. Penggunaan pembelajaran yang diawasi masuk akal jika Anda memiliki jenis data yang dapat dituju dan diekstrapolasi oleh model, termasuk:

  • Keputusan ya atau tidak , seperti deteksi spam atau penipuan
  • Klasifikasi , seperti mengidentifikasi objek dalam gambar atau pengenalan suara
  • Peramalan , seperti harga rumah atau cuaca

Sebaliknya, pembelajaran tanpa pengawasan bukan untuk mendapatkan jawaban yang benar, melainkan untuk menemukan pola atau pengelompokan dalam data. Tiga aplikasi utama adalah:

  • Clustering , seperti segmentasi pelanggan atau pengelompokan dokumen
  • Asosiasi , seperti mesin rekomendasi atau anomali keamanan
  • Pengurangan dimensi , umumnya digunakan untuk mengompresi kumpulan data besar agar lebih mudah dikelola

Pembelajaran mesin tidak terbatas hanya pada metode yang diawasi atau tidak diawasi; ini hanyalah dua ujung spektrum. Jenis metode pembelajaran mesin lainnya mencakup pembelajaran semi-supervisi, penguatan, dan pengawasan mandiri.

Cara kerja pembelajaran tanpa pengawasan

Pembelajaran tanpa pengawasan secara konseptual sederhana: Algoritma memproses data dalam jumlah besar untuk menentukan bagaimana berbagai titik data saling terkait. Karena datanya tidak diberi label, pembelajaran tanpa pengawasan tidak memiliki konteks atau tujuan. Ini hanya mencoba menemukan pola dan karakteristik lainnya.

Berikut gambaran singkat tentang proses pembelajaran tanpa pengawasan:

1 Pengumpulan dan pembersihan data.Pembelajaran tanpa pengawasan mengevaluasi satu tabel dalam satu waktu, jadi jika Anda memiliki beberapa kumpulan data, Anda harus menggabungkannya dengan hati-hati. Penting juga untuk merapikan data sebaik mungkin, seperti menghapus duplikat dan memperbaiki kesalahan.

2 Penskalaan fitur.Algoritme tanpa pengawasan dapat menghasilkan rentang yang besar, jadi pertimbangkan untuk mengubah fitur menjadi rentang yang lebih sempit menggunakan teknik termasuk:

  • Normalisasi: mengubah nilai teratas menjadi 1, nilai terendah menjadi 0, dan sisanya sebagai desimal.
  • Standardisasi: menetapkan nilai rata-rata sebagai 0 dan deviasi standar sebagai 1, dengan setiap titik data disesuaikan.
  • Transformasi logaritmik: memampatkan rentang yang luas, sehingga dengan logaritma basis 10, 100.000 menjadi 6, dan 1.000.000 menjadi 7.

3 Pemilihan algoritma.Ada beberapa algoritma untuk setiap jenis pembelajaran tanpa pengawasan, masing-masing dengan kekuatan dan kelemahannya (kita akan membahasnya di bagian selanjutnya). Anda dapat memilih untuk menerapkan algoritme berbeda pada kumpulan data yang sama dan membandingkannya.

4 Penemuan dan identifikasi pola.Algoritma yang dipilih mulai bekerja. Proses ini dapat memakan waktu beberapa detik hingga beberapa jam, bergantung pada ukuran kumpulan data dan efisiensi algoritme. Jika Anda memiliki kumpulan data yang besar, Anda mungkin ingin menjalankan algoritme pada sebagian kumpulan data sebelum memproses semuanya.

5 Interpretasi.Pada tahap ini, saatnya manusia mengambil alih. Seorang analis data dapat menggunakan grafik, pemeriksaan langsung, dan berbagai perhitungan untuk menganalisis dan menafsirkan data.

6 Aplikasi.Setelah Anda yakin mendapatkan hasil yang bermanfaat, manfaatkanlah. Kita akan membicarakan beberapa penerapan pembelajaran tanpa pengawasan nanti.

Jenis pembelajaran tanpa pengawasan

Ada beberapa jenis pembelajaran tanpa pengawasan, namun tiga yang paling banyak digunakan adalah pengelompokan, aturan asosiasi, dan reduksi dimensi.

Kekelompokan

Pengelompokan menciptakan kelompok titik data. Ini sangat berguna untuk menggabungkan item-item yang mirip satu sama lain sehingga nantinya dapat diklasifikasikan berdasarkan analisis manusia. Misalnya, jika Anda memiliki kumpulan data yang mencakup usia pelanggan dan jumlah dana transaksi rata-rata, kumpulan data tersebut mungkin akan membantu Anda memutuskan di mana menargetkan dana iklan Anda.

Jenis pengelompokan meliputi:

  • Pengelompokan eksklusif atau keras.Setiap titik data hanya dapat dimiliki oleh satu cluster. Salah satu pendekatan populer yang dikenal sebagai k-means memungkinkan Anda menentukan berapa banyak cluster yang ingin Anda buat, meskipun pendekatan lain dapat menentukan jumlah cluster yang optimal.
  • Pengelompokan yang tumpang tindih atau lunak. Pendekatan ini memungkinkan titik data berada dalam beberapa cluster dan memiliki “derajat” keanggotaan di masing-masing cluster, bukan murni masuk atau keluar.
  • Pengelompokan hierarki. Jika dilakukan dari bawah ke atas, disebut pengelompokan aglomeratif hierarkis, atau HAC; top-down disebut pengelompokan yang memecah-belah. Keduanya melibatkan banyak kelompok yang diorganisasikan menjadi kelompok yang lebih besar dan lebih besar.
  • Pengelompokan probabilistik. Ini adalah pendekatan berbeda yang menghitung persentase kemungkinan titik data tertentu yang termasuk dalam kategori apa pun. Salah satu keuntungan dari pendekatan ini adalah pendekatan ini dapat menetapkan titik data tertentu dengan probabilitas yang sangat rendah untuk menjadi bagian dari cluster tertentu, yang mungkin menyoroti data yang anomali atau rusak.

Aturan asosiasi

Juga dikenal sebagai penambangan aturan asosiasi atau pembelajaran aturan asosiasi, pendekatan ini menemukan hubungan yang menarik antar titik data. Penggunaan aturan asosiasi yang paling umum adalah untuk mengetahui item mana yang biasa dibeli atau digunakan bersama sehingga model dapat menyarankan item berikutnya yang harus dibeli atau ditampilkan untuk ditonton.

Tiga konsep inti aturan asosiasi adalah:

  • Mendukung.Seberapa sering A dan B ditemukan bersama sebagai persentase dari seluruh kejadian yang tersedia (misalnya transaksi)? A dan B dapat berupa item individual atau kumpulan yang mewakili beberapa item.
  • Kepercayaan diri. Seberapa sering jika A terlihat maka B juga terlihat?
  • Mengangkat. Berapa kemungkinan A dan B terlihat bersamaan, dibandingkan jika tidak ada korelasi? Peningkatan adalah ukuran “ketertarikan” suatu asosiasi.

Pengurangan dimensi

Pengurangan dimensi sesuai dengan jumlah kolom dalam sebuah tabel. Istilah lain untuk kolom dalam konteks ini adalahfituratauatribut. Seiring bertambahnya jumlah fitur dalam kumpulan data, menganalisis data dan mencapai hasil optimal menjadi lebih menantang.

Data berdimensi tinggi membutuhkan lebih banyak waktu, daya komputasi, dan energi untuk diproses. Hal ini juga dapat menyebabkan keluaran di bawah standar. Salah satu contoh yang sangat buruk adalah overfitting, yaitu kecenderungan model pembelajaran mesin untuk belajar terlalu banyak dari detail data pelatihan sehingga mengorbankan pola yang lebih luas yang dapat digeneralisasi dengan baik pada data baru.

Algoritme pengurang dimensi membuat kumpulan data yang disederhanakan dengan memadatkan data asli menjadi versi yang lebih kecil dan lebih mudah dikelola serta menyimpan informasi paling penting. Mereka bekerja dengan menggabungkan fitur-fitur yang berkorelasi dan mencatat variasi dari tren umum, sehingga secara efektif mengurangi jumlah kolom tanpa kehilangan detail penting.

Misalnya, jika Anda memiliki kumpulan data tentang hotel dan fasilitasnya, model tersebut mungkin menemukan bahwa banyak fitur yang berkorelasi dengan peringkat bintang, sehingga model tersebut dapat memampatkan atribut seperti spa, layanan kamar, dan resepsionis 24 jam ke dalam satu kolom.

Biasanya, para insinyur mengurangi dimensi sebagai langkah pra-pemrosesan untuk meningkatkan kinerja dan hasil proses lainnya, termasuk namun tidak terbatas pada pengelompokan dan pembelajaran aturan asosiasi.

Penerapan pembelajaran tanpa pengawasan

Beberapa contohnya meliputi:

  • Analisis keranjang pasar.Pengecer banyak menggunakan aturan asosiasi. Misalnya, jika Anda memasukkan hot dog ke dalam keranjang belanjaan, Anda mungkin disarankan untuk membeli saus tomat dan roti hot dog karena kombinasi ini terlihat mendapat peningkatan tinggi dari pembeli lain. Data yang sama juga dapat menyebabkan mereka menaruh saus tomat dan hot dog bersebelahan di supermarket.
  • Mesin rekomendasi. Ini melihat data pribadi Anda—demografi dan pola perilaku—dan membandingkannya dengan data orang lain untuk menebak apa yang mungkin Anda sukai untuk dibeli atau ditonton selanjutnya. Mereka dapat menggunakan tiga jenis pembelajaran tanpa pengawasan: pengelompokan untuk menentukan pola pelanggan lain mana yang mungkin memprediksi pola pelanggan Anda, aturan asosiasi untuk menemukan korelasi antara aktivitas atau pembelian tertentu, dan pengurangan dimensi untuk membuat kumpulan data yang kompleks lebih mudah diproses.
  • Segmentasi pelanggan. Meskipun para pemasar telah membagi audiens mereka ke dalam kategori-kategori tertentu selama beberapa dekade, pengelompokan tanpa pengawasan dapat memilih pengelompokan yang mungkin tidak ada dalam pikiran manusia. Pendekatan ini memungkinkan analisis berbasis perilaku dan dapat membantu tim menargetkan pesan dan promosi dengan cara baru.
  • Deteksi anomali.Karena sangat baik dalam memahami pola, pembelajaran tanpa pengawasan sering kali digunakan untuk mengingatkan ketika ada sesuatu yang tidak normal. Kegunaannya termasuk menandai pembelian kartu kredit yang curang, data yang rusak dalam tabel, dan peluang arbitrase di pasar keuangan.
  • Pengenalan suara.Ucapan rumit untuk diurai oleh komputer, karena harus bersaing dengan kebisingan latar belakang, aksen, dialek, dan suara. Pembelajaran tanpa pengawasan membantu mesin pengenalan suara mempelajari suara mana yang berkorelasi dengan fonem (satuan ucapan) mana dan fonem mana yang biasanya didengar bersamaan, selain menyaring kebisingan latar belakang dan penyempurnaan lainnya.

Keuntungan pembelajaran tanpa pengawasan

  • Keterlibatan manusia yang rendah.Setelah sistem pembelajaran tanpa pengawasan terbukti andal, menjalankannya hanya memerlukan sedikit upaya selain memastikan masukan dan keluaran diarahkan dengan benar.
  • Bekerja pada data mentah. Tidak perlu memberikan label—yaitu, menentukan keluaran apa yang harus dihasilkan dari masukan tertentu. Kemampuan untuk menangani data yang datang ini sangat berharga ketika menangani sejumlah besar data yang belum tersentuh.
  • Penemuan pola tersembunyi. Tanpa tujuan atau agenda selain menemukan pola, pembelajaran tanpa pengawasan dapat mengarahkan Anda pada “hal-hal yang tidak diketahui”—kesimpulan berdasarkan data yang belum pernah Anda pertimbangkan sebelumnya tetapi masuk akal setelah disajikan. Pendekatan ini sangat berguna untuk menemukan jarum di tumpukan jerami, seperti menganalisis DNA untuk mengetahui penyebab kematian sel.
  • Eksplorasi data. Dengan mengurangi dimensi dan menemukan pola dan cluster, pembelajaran tanpa pengawasan memberikan analis keunggulan dalam memahami kumpulan data baru.
  • Pelatihan tambahan. Banyak model tanpa pengawasan yang dapat belajar seiring berjalannya waktu: Semakin banyak data yang masuk, mereka dapat mengevaluasi masukan terbaru sehubungan dengan apa yang telah mereka temukan. Ini membutuhkan lebih sedikit waktu dan upaya komputasi.

Kerugian dari pembelajaran tanpa pengawasan

  • Anda membutuhkan banyak data.Pembelajaran tanpa pengawasan rentan terhadap kesalahan besar jika dilatih dengan contoh yang terbatas. Ini mungkin menemukan pola dalam data yang tidak berlaku di dunia nyata (overfitting), berubah secara dramatis ketika menghadapi data baru (ketidakstabilan), atau tidak memiliki cukup informasi untuk menentukan sesuatu yang berarti (penemuan pola terbatas).
  • Interpretabilitas rendah. Mungkin sulit untuk memahami mengapa suatu algoritme, seperti logika pengelompokan, mencapai kesimpulan tertentu.
  • Positif palsu. Model yang tidak diawasi mungkin terlalu banyak membaca titik data yang anomali namun tidak penting tanpa label untuk mengajarkannya apa yang perlu diperhatikan.
  • Sulit untuk dievaluasi secara sistematis.Karena tidak ada jawaban yang “benar” untuk membandingkannya, tidak ada cara langsung untuk mengukur keakuratan atau kegunaan keluaran. Masalah ini dapat diatasi dengan menjalankan algoritme berbeda pada data yang sama, namun pada akhirnya, ukuran kualitas sebagian besar akan bersifat subjektif.