Pengelompokan dalam pembelajaran mesin: apa itu dan cara kerjanya
Diterbitkan: 2025-02-03Clustering adalah alat yang ampuh dalam analisis data dan pembelajaran mesin (ML), menawarkan cara untuk mengungkap pola dan wawasan dalam data mentah. Panduan ini mengeksplorasi cara kerja pengelompokan, algoritma yang menggerakkannya, aplikasi dunia nyata yang beragam, dan keunggulan dan tantangan utamanya.
Daftar isi
- Apa itu pengelompokan dalam pembelajaran mesin?
- Bagaimana cara kerja clustering?
- Algoritma clustering
- Aplikasi dunia nyata dari pengelompokan
- Keuntungan pengelompokan
- Tantangan dalam pengelompokan
Apa itu pengelompokan dalam pembelajaran mesin?
Clustering adalah teknik pembelajaran tanpa pengawasan yang digunakan dalam ML untuk mengelompokkan titik data ke dalam cluster berdasarkan kesamaan mereka. Setiap cluster berisi titik data yang lebih mirip satu sama lain daripada titik di kluster lain. Proses ini membantu mengungkap pengelompokan atau pola alami dalam data tanpa memerlukan pengetahuan atau label sebelumnya.
Pengelompokan dalam pembelajaran mesin
Misalnya, bayangkan Anda memiliki koleksi gambar binatang, beberapa kucing dan anjing lainnya. Algoritma pengelompokan akan menganalisis fitur dari setiap gambar - seperti bentuk, warna, atau tekstur - dan mengelompokkan gambar kucing bersama -sama dalam satu cluster dan gambar anjing di yang lain. Yang penting, pengelompokan tidak menetapkan label eksplisit seperti "kucing" atau "anjing" (karena metode pengelompokan tidak benar -benar memahami apa anjing atau kucing itu). Ini hanya mengidentifikasi pengelompokan, menyerahkan kepada Anda untuk menafsirkan dan menamai kelompok -kelompok itu.
Clustering vs Klasifikasi: Apa bedanya?
Clustering dan klasifikasi sering dibandingkan tetapi melayani tujuan yang berbeda. Clustering, metode pembelajaran tanpa pengawasan, bekerja dengan data yang tidak berlabel untuk mengidentifikasi pengelompokan alami berdasarkan kesamaan. Sebaliknya, klasifikasi adalah metode pembelajaran yang diawasi yang membutuhkan data berlabel untuk memprediksi kategori tertentu.
Clustering mengungkapkan pola dan kelompok tanpa label yang telah ditentukan, membuatnya ideal untuk eksplorasi. Klasifikasi, di sisi lain, memberikan label eksplisit, seperti "kucing" atau "anjing," ke titik data baru berdasarkan pelatihan sebelumnya. Klasifikasi disebutkan di sini untuk menyoroti perbedaannya dari pengelompokan dan membantu memperjelas kapan harus menggunakan setiap pendekatan.
Bagaimana cara kerja clustering?
Clustering mengidentifikasi kelompok (atau kelompok) dari titik data yang sama dalam dataset, membantu mengungkap pola atau hubungan. Sementara algoritma spesifik dapat mendekati pengelompokan secara berbeda, proses umumnya mengikuti langkah -langkah kunci ini:
Langkah 1: Memahami Kesamaan Data
Di jantung pengelompokan adalah algoritma kesamaan yang mengukur bagaimana titik data yang sama. Algoritma kesamaan berbeda berdasarkan metrik jarak mana yang mereka gunakan untuk mengukur kesamaan titik data. Berikut beberapa contoh:
- Data geografis:Kesamaan mungkin didasarkan pada jarak fisik, seperti kedekatan kota atau lokasi.
- Data Pelanggan:Kesamaan dapat melibatkan preferensi bersama, seperti kebiasaan pengeluaran atau riwayat pembelian.
Ukuran jarak umum termasuk jarak Euclidean (jarak garis lurus antara titik) dan jarak Manhattan (panjang jalur berbasis grid). Langkah -langkah ini membantu menentukan titik mana yang harus dikelompokkan.
Langkah 2: Mengelompokkan titik data
Setelah kesamaan diukur, algoritma mengatur data menjadi kelompok. Ini melibatkan dua tugas utama:
- Kelompok Identifikasi:Algoritma menemukan cluster dengan mengelompokkan titik data di dekatnya atau terkait. Poin lebih dekat bersama dalam ruang fitur kemungkinan akan menjadi milik cluster yang sama.
- Refining Clusters:Algoritma secara iteratif menyesuaikan pengelompokan untuk meningkatkan akurasi mereka, memastikan bahwa titik data dalam cluster serupa mungkin sambil memaksimalkan pemisahan antara cluster.
Misalnya, dalam tugas segmentasi pelanggan, pengelompokan awal dapat membagi pelanggan berdasarkan tingkat pengeluaran, tetapi penyempurnaan lebih lanjut dapat mengungkapkan lebih banyak segmen bernuansa, seperti "pembeli tawar -menawar yang sering" atau "pembeli mewah."
Langkah 3: Memilih jumlah cluster
Memutuskan berapa banyak cluster untuk dibuat adalah bagian penting dari proses:
- Cluster yang telah ditentukan:Beberapa algoritma, seperti K-means, mengharuskan Anda untuk menentukan jumlah cluster di depan. Memilih angka yang tepat sering melibatkan coba -coba atau teknik visual seperti "metode siku," yang mengidentifikasi jumlah optimal cluster berdasarkan pengembalian yang berkurang dalam pemisahan cluster.
- Clustering Otomatis:Algoritma lain, seperti DBSCAN (pengelompokan spasial berbasis kepadatan aplikasi dengan noise), tentukan jumlah cluster secara otomatis berdasarkan struktur data, membuatnya lebih fleksibel untuk tugas eksplorasi.
Pilihan metode pengelompokan seringkali tergantung pada dataset dan masalah yang ingin Anda selesaikan.
Langkah 4: Hard vs. Soft Clustering
Pendekatan pengelompokan berbeda dalam cara mereka menetapkan poin data ke cluster:
- Hard clustering:Setiap titik data termasuk secara eksklusif untuk satu cluster. Misalnya, data pelanggan mungkin dibagi menjadi segmen yang berbeda seperti "pembelanja rendah" dan "pembelanja tinggi," tanpa tumpang tindih antar kelompok.
- Clustering lunak:Titik data dapat dimiliki oleh beberapa kelompok, dengan probabilitas yang ditetapkan untuk masing -masing. Misalnya, pelanggan yang berbelanja baik secara online maupun di dalam toko mungkin sebagian besar milik kedua kelompok, yang mencerminkan pola perilaku campuran.
Algoritma pengelompokan mengubah data mentah menjadi kelompok -kelompok yang bermakna, membantu mengungkap struktur tersembunyi dan memungkinkan wawasan menjadi kumpulan data yang kompleks. Sementara detail yang tepat bervariasi berdasarkan algoritma, proses menyeluruh ini adalah kunci untuk memahami cara kerja pengelompokan.
Algoritma clustering
Poin data grup algoritma pengelompokan berdasarkan kesamaan mereka, membantu mengungkapkan pola dalam data. Jenis algoritma pengelompokan yang paling umum adalah berbasis centroid, hierarkis, berbasis kepadatan, dan pengelompokan berbasis distribusi. Setiap metode memiliki kekuatan dan cocok untuk jenis data dan tujuan tertentu. Di bawah ini adalah ikhtisar dari setiap pendekatan:
Clustering berbasis centroid
Clustering berbasis centroid bergantung pada pusat perwakilan, yang disebut centroid, untuk setiap cluster. Tujuannya adalah untuk mengelompokkan titik data yang dekat dengan centroid mereka sambil memastikan centroid sejauh mungkin. Contoh yang terkenal adalah pengelompokan K-means, yang dimulai dengan menempatkan centroid secara acak dalam data. Titik data ditetapkan ke centroid terdekat, dan centroid disesuaikan dengan posisi rata -rata titik yang ditugaskan. Proses ini berulang sampai centroid tidak banyak bergerak. K-means efisien dan bekerja dengan baik ketika Anda tahu berapa banyak kelompok yang diharapkan, tetapi dapat berjuang dengan data yang kompleks atau berisik.

Clustering hierarkis
Clustering hierarkis membangun struktur cluster yang mirip treel. Dalam metode yang paling umum, pengelompokan aglomeratif, setiap titik data dimulai sebagai cluster satu poin. Cluster yang paling dekat satu sama lain digabungkan berulang kali sampai hanya satu cluster besar yang tersisa. Proses ini divisualisasikan menggunakan dendrogram, diagram pohon yang menunjukkan langkah -langkah penggabungan. Dengan memilih tingkat dendrogram tertentu, Anda dapat memutuskan berapa banyak kelompok yang akan dibuat. Clustering hierarkis intuitif dan tidak memerlukan menentukan jumlah cluster di depan, tetapi bisa lambat untuk set data yang besar.
Pengelompokan berbasis kepadatan
Clustering berbasis kepadatan berfokus pada menemukan daerah padat titik data sambil memperlakukan area yang jarang sebagai kebisingan. DBSCan adalah metode yang banyak digunakan yang mengidentifikasi cluster berdasarkan dua parameter: Epsilon (jarak maksimum untuk poin yang dianggap sebagai tetangga) dan Min_Points (jumlah minimum poin yang diperlukan untuk membentuk wilayah yang padat). DBSCAN tidak memerlukan mendefinisikan jumlah cluster terlebih dahulu, membuatnya fleksibel. Ini berkinerja baik dengan data yang bising. Namun, jika dua nilai parameter tidak dipilih dengan hati -hati, kelompok yang dihasilkan tidak ada artinya.
Pengelompokan berbasis distribusi
Clustering berbasis distribusi mengasumsikan bahwa data dihasilkan dari pola yang tumpang tindih yang dijelaskan oleh distribusi probabilitas. Model campuran Gaussian (GMM), di mana setiap cluster diwakili oleh distribusi Gaussian (berbentuk lonceng), adalah pendekatan umum. Algoritma menghitung kemungkinan setiap titik milik masing -masing distribusi dan menyesuaikan cluster agar lebih sesuai dengan data. Tidak seperti metode pengelompokan keras, GMM memungkinkan untuk pengelompokan lunak, yang berarti titik dapat termasuk beberapa kelompok dengan probabilitas yang berbeda. Ini membuatnya ideal untuk data yang tumpang tindih tetapi membutuhkan penyetelan yang cermat.
Aplikasi dunia nyata dari pengelompokan
Clustering adalah alat serbaguna yang digunakan di berbagai bidang untuk mengungkap pola dan wawasan dalam data. Berikut beberapa contoh:
Rekomendasi Musik
Clustering dapat mengelompokkan pengguna berdasarkan preferensi musik mereka. Dengan mengubah artis favorit pengguna menjadi data numerik dan pengelompokan pengguna dengan selera yang sama, platform musik dapat mengidentifikasi grup seperti "pecinta pop" atau "penggemar jazz." Rekomendasi dapat disesuaikan dalam kelompok -kelompok ini, seperti menyarankan lagu -lagu dari daftar putar pengguna A ke pengguna B jika mereka termasuk cluster yang sama. Pendekatan ini meluas ke industri lain, seperti mode, film, atau mobil, di mana preferensi konsumen dapat mendorong rekomendasi.
Deteksi anomali
Clustering sangat efektif untuk mengidentifikasi titik data yang tidak biasa. Dengan menganalisis kelompok data, algoritma seperti DBSCan dapat mengisolasi titik -titik yang jauh dari yang lain atau secara eksplisit diberi label sebagai noise. Anomali ini sering menandakan masalah seperti spam, transaksi kartu kredit yang curang, atau ancaman keamanan siber. Clustering menyediakan cara cepat untuk mengidentifikasi dan bertindak pada outlier ini, memastikan efisiensi di bidang di mana anomali dapat memiliki implikasi yang serius.
Segmentasi pelanggan
Bisnis menggunakan pengelompokan untuk menganalisis data pelanggan dan membagi audiens mereka menjadi kelompok yang berbeda. Misalnya, kelompok mungkin mengungkapkan "pembeli muda yang sering melakukan pembelian bernilai rendah" versus "pembeli yang lebih tua yang melakukan lebih sedikit, pembelian bernilai tinggi." Wawasan ini memungkinkan perusahaan untuk membuat strategi pemasaran yang ditargetkan, mempersonalisasikan penawaran produk, dan mengoptimalkan alokasi sumber daya untuk keterlibatan dan profitabilitas yang lebih baik.
Segmentasi gambar
Dalam analisis gambar, kelompok pengelompokan daerah piksel serupa, segmentasi gambar menjadi objek yang berbeda. Dalam perawatan kesehatan, teknik ini digunakan untuk mengidentifikasi tumor dalam pemindaian medis seperti MRI. Pada kendaraan otonom, pengelompokan membantu membedakan pejalan kaki, kendaraan, dan bangunan dalam gambar input, meningkatkan navigasi dan keamanan.
Keuntungan pengelompokan
Clustering adalah alat yang penting dan serbaguna dalam analisis data. Ini sangat berharga karena tidak memerlukan data berlabel dan dapat dengan cepat mengungkap pola dalam dataset.
Sangat terukur dan efisien
Salah satu manfaat inti dari pengelompokan adalah kekuatannya sebagai teknik pembelajaran yang tidak diawasi. Tidak seperti metode yang diawasi, pengelompokan tidak memerlukan data berlabel, yang seringkali merupakan aspek ML yang paling memakan waktu dan mahal. Clustering memungkinkan analis untuk bekerja secara langsung dengan data mentah dan memotong kebutuhan label.
Selain itu, metode pengelompokan secara komputasi efisien dan dapat diskalakan. Algoritma seperti k-means sangat efisien dan dapat menangani kumpulan data besar. Namun, K-means terbatas: terkadang tidak fleksibel dan sensitif terhadap kebisingan. Algoritma seperti DBSCAN lebih kuat untuk kebisingan dan mampu mengidentifikasi kelompok bentuk sewenang -wenang, meskipun mereka mungkin kurang efisien secara komputasi.
AIDS dalam Eksplorasi Data
Clustering sering kali merupakan langkah pertama dalam analisis data, karena membantu mengungkap struktur dan pola tersembunyi. Dengan mengelompokkan titik data yang sama, ia mengungkapkan hubungan dan menyoroti outlier. Wawasan ini dapat memandu tim dalam membentuk hipotesis dan membuat keputusan berbasis data.
Selain itu, pengelompokan menyederhanakan dataset yang kompleks. Ini dapat digunakan untuk mengurangi dimensinya, yang membantu dalam visualisasi dan analisis lebih lanjut. Ini membuatnya lebih mudah untuk mengeksplorasi data dan mengidentifikasi wawasan yang dapat ditindaklanjuti.
Tantangan dalam pengelompokan
Sementara pengelompokan adalah alat yang ampuh, jarang digunakan secara terpisah. Seringkali perlu digunakan seiring dengan algoritma lain untuk membuat prediksi yang bermakna atau mendapatkan wawasan.
Kurangnya interpretabilitas
Cluster yang diproduksi oleh algoritma tidak dapat ditafsirkan secara inheren. Memahami mengapa titik data spesifik milik cluster membutuhkan pemeriksaan manual. Algoritma pengelompokan tidak memberikan label atau penjelasan, membuat pengguna menyimpulkan makna dan pentingnya kelompok. Ini bisa sangat menantang saat bekerja dengan set data yang besar atau kompleks.
Sensitivitas terhadap parameter
Hasil pengelompokan sangat tergantung pada pilihan parameter algoritma. Misalnya, jumlah kelompok dalam parameter K-means atau Epsilon dan Min_Points di DBSCan secara signifikan memengaruhi output. Menentukan nilai parameter yang optimal sering kali melibatkan eksperimen yang luas dan mungkin memerlukan keahlian domain, yang dapat memakan waktu.
Kutukan dimensi
Data dimensi tinggi menghadirkan tantangan yang signifikan untuk algoritma pengelompokan. Dalam ruang dimensi tinggi, ukuran jarak menjadi kurang efektif, karena titik data cenderung tampak sama, bahkan ketika mereka berbeda. Fenomena ini, yang dikenal sebagai "kutukan dimensi," memperumit tugas mengidentifikasi kesamaan yang bermakna.
Teknik pengurangan dimensionalitas, seperti analisis komponen utama (PCA) atau T-SNE (penyematan tetangga stokastik yang didistribusikan T), dapat mengurangi masalah ini dengan memproyeksikan data ke dalam ruang dimensi yang lebih rendah. Representasi yang dikurangi ini memungkinkan algoritma pengelompokan untuk melakukan lebih efektif.