在機器學習中聚類:它是什麼以及如何工作

已發表: 2025-02-03

聚類是數據分析和機器學習(ML)的強大工具,它提供了一種發現原始數據模式和見解的方法。本指南探討了聚類的工作原理,推動它的算法,其多樣化的現實應用程序及其主要優點和挑戰。

目錄

  • 機器學習中的聚類是什麼?
  • 聚類如何工作?
  • 聚類算法
  • 集群的現實應用應用
  • 聚類的優勢
  • 聚類的挑戰

機器學習中的聚類是什麼?

聚類是ML中無監督的學習技術,可根據其相似性將數據點分組為群集。每個群集包含的數據點比其他集群中的點更相似。此過程有助於發現數據中的自然組或模式,而無需任何先驗知識或標籤。

在機器學習中聚類

例如,想像一下您收集了一些動物圖像,一些貓和其他狗。聚類算法將分析每個圖像(例如形狀,顏色或紋理)的特徵,並將貓的圖像組合在一起,將貓的圖像和另一個狗的圖像組合在一起。重要的是,聚類沒有分配“貓”或“狗”之類的明確標籤(因為聚類方法實際上並不了解狗或貓是什麼)。它只是識別分組,使您可以解釋和命名這些集群。

用語法更聰明地工作
任何有工作的人的AI寫作夥伴

聚類與分類:有什麼區別?

經常比較聚類和分類,但有不同的目的。群集是一種無監督的學習方法,可與未標記的數據一起使用,以基於相似性識別自然組。相比之下,分類是一種有監督的學習方法,它需要標記的數據以預測特定類別。

聚類揭示了沒有預定義標籤的模式和組,使其非常適合探索。另一方面,分類將基於先前培訓的新數據點分配給“貓”或“狗”等明確標籤。這裡提到的分類是為了突出顯示其與聚類的區別,並幫助澄清何時使用每種方法。

聚類如何工作?

聚類標識數據集中類似數據點的組(或群集),從而幫助發現模式或關係。儘管特定算法可能以不同的方式接近聚類,但該過程通常遵循以下關鍵步驟:

步驟1:了解數據相似性

聚類的核心是一種相似性算法,可以測量相似的數據點。相似性算法根據它們用於量化數據點相似性的距離指標而有所不同。這裡有一些例子:

  • 地理數據:相似性可能基於物理距離,例如城市或位置的接近度。
  • 客戶數據:相似性可能涉及共同的偏好,例如花費習慣或購買歷史。

常見的距離度量包括歐幾里得距離(點之間的直線距離)和曼哈頓距離(基於網格的路徑長度)。這些措施有助於定義應分組哪些點。

步驟2:分組數據點

一旦測量了相似之處,算法就將數據組織到群集中。這涉及兩個主要任務:

  • 識別組:該算法通過分組附近或相關數據點來找到簇。特徵空間中更近的點可能屬於同一集群。
  • 精煉群集:算法迭代地調整了分組以提高其準確性,以確保群集中的數據點盡可能相似,同時最大化簇之間的分離。

例如,在客戶細分任務中,初始分組可能會根據支出水平將客戶劃分,但是進一步的改進可能會顯示出更多細微的細分市場,例如“頻繁的討價還價購物者”或“奢侈品買家”。

步驟3:選擇集群數量

確定要創建多少個集群是過程的關鍵部分:

  • 預定義集群:某些算法,例如K-均值,要求您指定前面的簇數。選擇正確的數字通常涉及反複試驗或視覺技術(例如“肘方法”),該技術基於群集分離中的回報減少來識別最佳群集數量。
  • 自動聚類:其他算法,例如DBSCAN(基於密度的空間群集使用噪聲),根據數據的結構自動確定群集數量,從而使它們更加靈活,以實現探索性任務。

聚類方法的選擇通常取決於數據集以及您要解決的問題。

步驟4:硬與軟聚類

聚類方法在將數據點分配給集群的方式上有所不同:

  • 硬聚類:每個數據點僅屬於一個群集。例如,客戶數據可能被分為不同的細分市場,例如“低支出”和“高支出”,組之間沒有重疊。
  • 軟聚類:數據點可以屬於多個群集,並分配給每個群集。例如,在線和店內購物的客戶可能部分屬於兩個集群,反映出混合的行為模式。

聚類算法將原始數據轉換為有意義的組,幫助揭示隱藏的結構並洞悉複雜的數據集。雖然確切的細節因算法而異,但這個總體過程是了解聚類的工作原理的關鍵。

聚類算法

基於它們的相似性,將算法組數據點群集組數據點有助於揭示數據中的模式。聚類算法的最常見類型是基於質心,層次,基於密度和基於分佈的聚類的類型。每種方法都有其優勢,並且適合特定類型的數據和目標。以下是每種方法的概述:

基於質心的聚類

基於質心的聚類依賴於每個集群的代表中心,稱為質心。目的是將數據點接近其質心分組,同時確保質心盡可能遠。一個眾所周知的例子是K-均值聚類,該聚類首先將質心隨機放置在數據中。數據點分配給最近的質心,並將質心調整為分配點的平均位置。這個過程重複,直到質心不移動。當您知道要期望多少個集群時,K-均值效率很好,但是它可能會在復雜或嘈雜的數據中掙扎。

分層聚類

層次聚類構建了簇的特里利型結構。在最常見的方法(聚集聚類)中,每個數據點開始於一個點群集。將最接近彼此的群集重複合併,直到僅保留一個大集群為止。使用樹狀圖(顯示合併步驟的樹圖)可視化此過程。通過選擇特定級別的樹狀圖,您可以決定要創建多少個簇。層次聚類是直觀的,不需要指定前面的簇數,但是對於大型數據集來說可能會很慢。

基於密度的聚類

基於密度的聚類集中在尋找數據點的密集區域,同時將稀疏區域視為噪聲。 DBSCAN是一種廣泛使用的方法,它基於兩個參數識別簇:Epsilon(要視為鄰居點的最大距離)和Min_points(形成密集區域所需的最小點)。 DBSCAN不需要提前定義簇的數量,從而使其靈活。它在嘈雜的數據方面表現良好。但是,如果未仔細選擇兩個參數值,則結果群集可能毫無意義。

基於分佈的聚類

基於分佈的聚類假設數據是從概率分佈描述的重疊模式中生成的。高斯混合物模型(GMM),每個簇都以高斯(鐘形)分佈表示,是一種常見的方法。該算法計算屬於每個分佈的每個點的可能性,並調整簇以更好地擬合數據。與硬聚類方法不同,GMM允許使用軟聚類,這意味著一個點可以屬於具有不同概率的多個群集。這使其非常適合重疊數據,但需要仔細調整。

集群的現實應用應用

聚類是一種多功能工具,用於眾多字段,以發現數據中的模式和見解。這裡有幾個例子:

音樂建議

聚類可以根據他們的音樂偏好對用戶進行分組。通過將用戶喜歡的藝術家轉換為數值數據並以類似的口味將用戶聚集,可以識別諸如“流行愛好者”或“爵士愛好者”之類的群體。建議可以在這些群集中量身定制,例如,如果用戶A的播放列表屬於同一集群,則建議從用戶A的播放列表到用戶B。這種方法擴展到其他行業,例如時尚,電影或汽車,消費者偏好可以推動建議。

異常檢測

聚類對於識別異常數據點非常有效。通過分析數據簇,諸如DBSCAN之類的算法可以隔離遠離其他點或明確標記為噪聲的點。這些異常經常表示垃圾郵件,欺詐性信用卡交易或網絡安全威脅等問題。聚類提供了一種快速的方法來識別和對這些異常值行動,從而確保在異常情況下具有嚴重影響的領域效率。

客戶細分

企業使用聚類來分析客戶數據並將受眾分為不同的組。例如,群集可能會揭示“年輕的買家進行頻繁,低價值購買的年輕買家”,而“年齡較少的高價值購買者”。這些見解使公司能夠制定有針對性的營銷策略,個性化產品,並優化資源分配,以提高參與度和盈利能力。

圖像分割

在圖像分析中,聚類組相似的像素區域,將圖像分割為不同的對象。在醫療保健中,該技術用於鑑定MRI等醫學掃描中的腫瘤。在自動駕駛汽車中,聚類有助於在輸入圖像中區分行人,車輛和建築物,從而提高導航和安全性。

聚類的優勢

聚類是數據分析中必不可少且通用的工具。它特別有價值,因為它不需要標記的數據,並且可以快速發現數據集中的模式。

高度可擴展性

聚類的核心好處之一是它作為一種無監督的學習技術的力量。與監督的方法不同,聚類不需要標記的數據,這通常是ML最耗時且昂貴的方面。聚類使分析師可以直接與原始數據合作並繞過對標籤的需求。

另外,聚類方法在計算上是有效且可擴展的。諸如K均值之類的算法特別有效,可以處理大型數據集。但是,K-均值是有限的:有時它不靈活且對噪聲敏感。像DBSCAN這樣的算法對噪聲更強大,並且能夠識別任意形狀的簇,儘管它們的效率可能較低。

輔助數據探索

聚類通常是數據分析的第一步,因為它有助於發現隱藏的結構和模式。通過對類似的數據點進行分組,它揭示了關係並突出顯示異常值。這些見解可以指導團隊形成假設並做出數據驅動的決策。

此外,聚類簡化了複雜的數據集。它可用於降低其尺寸,這有助於可視化和進一步分析。這使探索數據並確定可行的見解變得更加容易。

聚類的挑戰

群集是一種功能強大的工具,但很少用於隔離。它通常需要與其他算法同時使用,以做出有意義的預測或獲得見解。

缺乏解釋性

算法產生的群集本質上不可解釋。了解為什麼特定的數據點屬於群集需要手動檢查。聚類算法不提供標籤或解釋,從而使用戶推斷簇的含義和意義。在使用大型或複雜數據集時,這可能特別具有挑戰性。

對參數的敏感性

聚類結果高度取決於算法參數的選擇。例如,k均值或epsilon和min_points參數中的集群數量顯著影響輸出。確定最佳參數值通常涉及廣泛的實驗,並且可能需要域專業知識,這可能很耗時。

維度的詛咒

高維數據對聚類算法提出了重大挑戰。在高維空間中,距離措施的效率降低,因為數據點往往看起來是等距的,即使它們是不同的。這種現像被稱為“維度的詛咒”,使確定有意義的相似性的任務變得複雜。

降低降低技術,例如主成分分析(PCA)或T-SNE(T-SNETIB的隨機鄰居嵌入),可以通過將數據投影到較低維空間中來減輕此問題。這些減少的表示允許聚類算法更有效地執行。