無監督學習:它是什麼以及它是如何運作的
已發表: 2024-07-03揭開無監督學習的神秘面紗,這是一種革命性的技術,使機器能夠成為自主資料分析師,無需人工幹預即可提取有價值的見解。
目錄
- 什麼是無監督學習?
- 無監督學習與監督學習
- 無監督學習如何運作
- 無監督學習的類型
- 無監督學習的應用
- 無監督學習的優點
- 無監督學習的缺點
什麼是無監督學習?
無監督學習是機器學習 (ML) 的一種,可以自行發現資料中的模式和關係。「無監督」一詞意味著模型使用未標記的數據,這意味著它不會從人類那裡得到關於要尋找什麼的指示,甚至沒有得到關於它正在尋找的內容的指導。相反,它使用演算法來評估資料集並尋找相關性、相似性、差異性以及其他使用數學描述資料的方法。
機器學習是人工智慧 (AI) 的一個子集,它使用資料和統計方法來建立模仿人類推理的模型,而不是依賴硬編碼指令。無監督學習採用探索性、數據驅動的方法從大型數據集中得出結論,例如按共同特徵對實體進行分組或查找哪些數據點傾向於同時出現,這可能表現為對常綠樹和落葉樹的圖片進行排序,或發現觀看《芝麻街》的人也可能會觀看《丹尼爾·泰格》。
無監督學習與監督學習
與無監督方法相比,監督學習使用標記資料將輸入與正確的輸出配對。相反,無監督學習沒有供模型直觀的輸入和輸出,只有可供分析的數據。
標籤提供了對模型學習過程的所謂監督,引導模型根據給定的輸入進行逆向工程以獲得正確的答案。當您擁有模型可以針對並推斷的此類數據時,使用監督學習是有意義的,包括:
- 是或否決定,例如垃圾郵件或詐欺偵測
- 分類,例如識別影像中的物件或語音識別
- 預測,例如房價或天氣
相較之下,無監督學習並不是為了得出正確的答案,而是為了尋找資料中的模式或分組。三個主要應用是:
- 聚類,例如客戶細分或文件分組
- 關聯,例如推薦引擎或安全性異常
- 降維,通常用於壓縮大型資料集以使它們更易於管理
機器學習不僅限於有監督或無監督的方法;這些只是一個範圍的兩端。其他類型的機器學習方法包括半監督式學習、強化學習和自我監督學習。
無監督學習如何運作
無監督學習在概念上很簡單:演算法處理大量資料以確定各個資料點的關聯方式。由於數據未標記,無監督學習沒有背景或目標。它只是試圖找到模式和其他特徵。
以下是無監督學習過程的簡要概述:
1資料收集和清理。無監督學習一次評估一張表,因此如果您有多個資料集,則必須仔細合併它們。盡你所能整理資料也很重要,例如刪除重複項和更正錯誤。
2特徵縮放。無監督演算法可能會因大範圍而出現偏差,因此請考慮使用以下技術將特徵轉換為較小的範圍:
- 標準化:將最高值轉換為 1,將最低值轉換為 0,其他值轉換為小數。
- 標準化:指定平均值為0,標準差為1,對每個數據點進行相應調整。
- 對數轉換:壓縮大範圍,因此對於以 10 為底的對數,100,000 變為 6,1,000,000 變為 7。
3算法選擇。每種類型的無監督學習都有多種演算法,每種演算法都有優點和缺點(我們將在下一節中介紹它們)。您可以選擇將不同的演算法套用到同一資料集並進行比較。
4模式發現和識別。所選演算法開始工作。這可能需要幾秒鐘到幾小時,具體取決於資料集的大小和演算法的效率。如果您有一個大型資料集,您可能想要在處理整個資料集之前在一個子集上執行演算法。
5解釋。在這個階段,是人類接手的時候了。數據分析師可以使用圖表、抽查和各種計算來分析和解釋數據。
6申請。一旦您確信自己獲得了有用的結果,就可以使用它。稍後我們將討論無監督學習的一些應用。
無監督學習的類型
無監督學習有多種類型,但最廣泛使用的三種是聚類、關聯規則和降維。
聚類
聚類創建資料點組。它對於捆綁彼此相似的項目非常有用,以便稍後可以透過人工分析對它們進行分類。例如,如果您有一個包含客戶年齡和平均交易金額的資料集,它可能會找到可以幫助您決定將廣告資金定位到何處的群集。
聚類的類型包括:
- 獨佔或硬聚類。每個數據點只能屬於一個簇。一種稱為 k-means 的流行方法可讓您指定要建立的群集數量,儘管其他方法可以確定最佳群集數量。
- 重疊或軟聚類。這種方法允許數據點位於多個集群中,並且在每個集群中具有一定的「程度」的成員資格,而不是純粹的進出。
- 層次聚類。如果是由下而上進行的,則稱為層次凝聚聚類(HAC);自頂向下稱為分裂聚類。兩者都涉及大量組織成越來越大的集群。
- 機率聚類。這是一種不同的方法,可以計算出任何給定資料點屬於任何類別的可能性百分比。這種方法的一個優點是,它可以為某個資料點分配屬於給定群集的非常低的機率,這可能會突出顯示異常或損壞的資料。
協會規則
這種方法也稱為關聯規則探勘或關聯規則學習,可以發現資料點之間有趣的關係。關聯規則最常見的用途是找出哪些商品經常一起購買或使用,以便模型可以建議下一個要購買或要觀看的商品。
關聯規則的三個核心概念是:
- 支持。A 和 B 一起被發現的頻率佔所有可用實例(例如交易)的百分比是多少? A 和 B 可以是單獨的項目或代表多個項目的集合。
- 信心。如果看到 A,同時也會看到 B,這種情況的出現頻率是多少?
- 舉起。與沒有相關性的情況相比,A 和 B 同時看到的可能性有多大?提升度是衡量一個關聯的「有趣程度」的標準。
降維
降維對應於表中的列數。在這種情況下,列的其他術語是特徵或屬性。隨著資料集中特徵數量的增加,分析資料並獲得最佳結果變得更具挑戰性。
高維度資料需要更多的時間、運算能力和精力來處理。它還可能導致不合格的輸出。一個特別有害的例子是過度擬合,機器學習模型傾向於從訓練資料的細節中學習太多,而犧牲了能夠很好地推廣到新資料的更廣泛的模式。
降維演算法透過將原始資料壓縮為更小、更易於管理的版本來建立簡化的資料集,並保留最重要的資訊。它們的工作原理是合併相關特徵並注意到總體趨勢的變化,有效地減少列數而不丟失關鍵細節。
例如,如果您有一個有關飯店及其設施的資料集,該模型可能會發現許多特徵與星級相關,因此它可以將水療中心、客房服務和 24 小時接待等屬性壓縮到單一列中。
通常,工程師將降維作為預處理步驟,以提高其他流程的效能和結果,包括但不限於聚類和關聯規則學習。
無監督學習的應用
一些例子包括:
- 市場籃子分析。零售商大量使用關聯規則。例如,如果您將熱狗放入雜貨店購物車,它可能會建議您購買番茄醬和熱狗麵包,因為其他購物者發現這些組合的銷售量很高。同樣的數據也可能導致他們在超市裡將番茄醬和熱狗放在一起。
- 推薦引擎。這些數據會查看您的個人資料(人口統計和行為模式),並將其與其他人的資料進行比較,以猜測您接下來可能喜歡購買或觀看的內容。他們可以使用三種類型的無監督學習:聚類來確定哪些其他客戶的模式可能會預測您的模式,關聯規則來查找某些活動或購買之間的相關性,以及降維以使複雜的數據集更易於處理。
- 客戶細分。雖然行銷人員幾十年來一直將受眾分為指定類別,但無監督聚類可以挑選出任何人可能沒有想過的分組。這種方法允許基於行為的分析,並可以幫助團隊以新的方式定位訊息傳遞和促銷。
- 異常檢測。由於無監督學習非常擅長理解模式,因此通常用於在異常情況時發出警報。用途包括標記欺詐性信用卡購買、表中損壞的資料以及金融市場中的套利機會。
- 語音辨識。對於電腦來說,解析語音很複雜,因為它們必須處理背景噪音、口音、方言和聲音。除了過濾背景噪音和其他增強功能之外,無監督學習還可以幫助語音辨識引擎了解哪些聲音與哪些音素(語音單元)相關以及哪些音素通常一起聽到。
無監督學習的優點
- 人工參與度低。一旦無監督學習系統被證明是可靠的,除了確保輸入和輸出正確路由之外,運行它只需付出很少的努力。
- 適用於原始資料。無需提供標籤,即指定給定輸入應產生什麼輸出。在處理大量未觸及的數據時,這種即時處理數據的能力非常有價值。
- 隱藏模式發現。除了尋找模式之外沒有任何目標或議程,無監督學習可以將您引向“未知的知識”,即基於您之前未考慮過但一旦呈現就有意義的數據得出的結論。這種方法對於大海撈針特別有用,例如分析 DNA 找出細胞死亡的原因。
- 數據探索。透過降低維度並尋找模式和聚類,無監督學習使分析師能夠在理解新穎資料集方面取得先機。
- 增量訓練。許多無監督模型可以邊學習邊學習:隨著更多資料的輸入,它們可以根據已經發現的內容來評估最新的輸入。這需要更少的時間和計算工作。
無監督學習的缺點
- 你需要大量數據。如果僅使用有限的範例進行訓練,無監督學習很容易出現嚴重錯誤。它可能會發現數據中的模式在現實世界中不成立(過度擬合),面對新數據會發生巨大變化(不穩定),或者沒有足夠的資訊來確定任何有意義的資訊(有限的模式發現) 。
- 可解釋性低。可能很難理解為什麼演算法(例如聚類邏輯)會得出特定的結論。
- 誤報。無監督模型可能會過度讀取異常但不重要的資料點,而沒有標籤來告訴它什麼是值得關注的。
- 很難系統性評價。由於沒有「正確」的答案可以與之比較,因此沒有直接的方法來衡量輸出的準確性或效用。透過對相同的數據運行不同的演算法可以在一定程度上緩解這個問題,但最終,品質的衡量將在很大程度上是主觀的。