半監督學習：它是什麼以及它是如何運作的

已發表: 2024-07-18

在機器學習領域，半監督學習作為一種巧妙的混合方法出現，透過利用標記和未標記資料來訓練更強大和更有效率的模型，從而彌合監督和無監督方法之間的差距。

什麼是半監督學習？
半監督學習與監督與無監督學習
半監督學習如何運作
半監督學習的類型
半監督學習的應用
半監督學習的優點
半監督學習的缺點

什麼是半監督學習？

半監督學習是機器學習 (ML) 的一種，它使用標記和未標記資料的組合來訓練模型。半監督意味著模型接收來自少量標記資料的指導，其中輸入與正確的輸出明確配對，再加上更大的未標記資料池（通常更豐富）。這些模型通常在少量標記資料中找到初步見解，然後使用更大的未標記資料池進一步完善其理解和準確性。

機器學習是人工智慧 (AI) 的一個子集，它使用資料和統計方法來建立模仿人類推理的模型，而不是依賴硬編碼指令。利用監督和無監督方法的要素，半監督是一種獨特且強大的方法，可以提高預測質量，而無需在人工標記上進行繁重的投資。

使用 Grammarly 更聰明地工作

任何有工作要做的人的人工智慧寫作夥伴

半監督學習與監督與無監督學習

雖然監督學習僅依賴標記數據，而無監督學習則適用於完全未標記的數據，而半監督學習則將兩者整合在一起。

監督學習

監督學習使用標記資料來訓練特定任務的模型。兩種主要類型是：

分類：確定項目屬於哪個類別或組別。這可以是二元選擇、多個選項中的選擇或多個群組的成員資格。

迴歸：根據現有資料的最佳擬合線預測結果。通常用於預測，例如預測天氣或財務表現。

無監督學習

無監督學習透過三種主要技術識別未標記資料中的模式和結構：

聚類：定義具有相似值的點組。這些可以是排他的（每個數據點恰好位於一個集群中）、重疊的（一個或多個集群中的成員資格程度）或分層的（多層集群）。
關聯：尋找哪些項目更有可能同時出現，例如經常一起購買的產品。
降維：透過將資料壓縮為更少的變數來簡化資料集，從而減少處理時間並提高模型的泛化能力。

半監督學習

半監督學習利用標記和未標記資料來提高模型效能。當標記資料昂貴或耗時時，這種方法特別有用。

當您擁有少量標記資料和大量未標記資料時，這種類型的機器學習是理想的選擇。透過識別哪些未標記點與標記點密切匹配，半監督模型可以創建更細緻的分類邊界或迴歸模型，從而提高準確性和性能。

半監督學習如何運作

半監督學習過程涉及幾個步驟，結合了監督和無監督學習方法的元素：

1資料收集和標記：收集包含一小部分標記資料和大部分未標記資料的資料集。兩個資料集應具有相同的特徵，也稱為列或屬性。

2預處理和特徵提取：清理和預處理數據，為模型提供最佳的學習基礎：抽查以確保質量，去除重複，刪除不必要的特徵。考慮創建新特徵，將重要特徵轉換為有意義的範圍，以反映資料變化（例如，將出生日期轉換為年齡），此過程稱為提取。

3初始監督學習：使用標記資料訓練模型。這個初始階段有助於模型理解輸入和輸出之間的關係。

4無監督學習：將無監督學習技術應用於未標記的資料以識別模式、群集或結構。

5模型細化：結合來自標記和未標記資料的見解來細化模型。此步驟通常涉及迭代訓練和調整以提高準確性。

6評估和調整：使用標準監督學習指標（例如準確度、精確度、回想率和 F1 分數）評估模型的表現。透過調整顯式指令（稱為超參數）並重新評估來微調模型，直到實現最佳效能。

7部署和監控：部署模型以供實際使用，持續監控其效能，並根據需要使用新資料進行更新。

半監督學習的類型

半監督學習可以使用多種技術來實現，每種技術都利用標記和未標記的數據來改善學習過程。以下是主要類型以及子類型和關鍵概念：

自我訓練

自我訓練，也稱為自我學習或自我標記，是最直接的方法。在該技術中，最初在標記資料上訓練的模型預測未標記資料的標籤並記錄其置信度。該模型透過將其最可信的預測應用為附加標記資料來迭代地重新訓練自己——這些產生的標籤稱為偽標籤。這個過程一直持續到模型的性能穩定或充分改善為止。

初始訓練：模型在小型標記資料集上進行訓練。
標籤預測：經過訓練的模型預測未標記資料的標籤。
置信度閾值：僅選擇高於特定置信度的預測。
重新訓練：將選定的偽標記資料加入訓練集中，重新訓練模型。

這種方法簡單但功能強大，特別是當模型可以在早期做出準確的預測時。然而，如果最初的預測不正確，它可能很容易強化自己的錯誤。使用聚類來幫助驗證偽標籤與資料中的自然分組是否一致。

聯合培訓

協同訓練通常用於分類問題，涉及在不同視圖或資料子集上訓練兩個或多個模型。每個模型對未標記資料最有信心的預測都會增強另一個模型的訓練集。該技術利用多個模型的多樣性來改善學習。

雙視圖方法：資料集分為兩個不同的視圖，即原始資料的子集，每個視圖包含不同的特徵。兩個新視圖中的每一個都具有相同的標籤，但理想情況下，這兩個視圖是有條件獨立的，這意味著了解一個表中的值不會為您提供有關另一個表中的任何資訊.
模型訓練：使用標記資料在每個視圖上單獨訓練兩個模型。
相互標記：每個模型都會預測未標記資料的標籤，並且最佳預測（所有高於特定置信度閾值的預測或只是列表頂部的固定數字）用於重新訓練另一個模型。

當資料適合提供補充資訊的多個視圖（例如與同一患者配對的醫學影像和臨床資料）時，協同訓練特別有用。在此範例中，一個模型將根據影像預測疾病的發生率，而另一個模型將根據醫療記錄中的數據進行預測。

這種方法有助於降低強化錯誤預測的風險，因為這兩個模型可以相互修正。

生成模型

生成模型學習給定的輸入和輸出對同時發生的可能性，稱為聯合機率分佈。這種方法使他們能夠產生類似於已經看到的數據的新數據。這些模型使用標記和未標記資料來捕獲底層資料分佈並改善學習過程。正如您可能從名稱中猜到的那樣，這是可以創建文字、圖像等的生成式人工智慧的基礎。

生成對抗網路（GAN）：GAN 由兩個模型組成：生成器和鑑別器。生成器創建合成資料點，而鑑別器嘗試區分這些合成資料點和真實資料。在訓練過程中，生成器提升了創建真實資料的能力，而鑑別器則更擅長識別虛假資料。這種對抗過程仍在繼續，每個模型都努力超越另一個模型。 GAN 可以透過兩種方式應用於半監督學習：
- 改進的判別器：判別器不是簡單地將資料分類為“假”或“真”，而是經過訓練將資料分類為多個類別和一個假類別。這使得鑑別器能夠進行分類和鑑別。
- 使用未標記的資料：鑑別器判斷輸入是否與它所看到的標記資料匹配，或是來自生成器的虛假資料點。這項額外的挑戰迫使鑑別器透過未標記數據與標記數據的相似性來識別未標記數據，幫助它學習使它們相似的特徵。
變分自動編碼器 (VAE)： VAE 找出如何將資料編碼為更簡單、抽象的表示形式，並且可以將其解碼為盡可能接近原始資料的表示形式。透過使用標記數據和未標記數據，VAE 創建了一個單一的抽象，可以捕捉整個數據集的基本特徵，從而提高其在新數據上的效能。

生成模型是半監督學習的強大工具，特別是對於豐富而複雜的未標記數據，例如語言翻譯或圖像識別。當然，您需要一些標籤，以便 GAN 或 VAE 知道目標是什麼。

基於圖的方法

基於圖的方法將資料點表示為圖上的節點，使用不同的方法來理解和提取有關它們之間關係的有用資訊。應用於半監督學習的許多基於圖的方法包括：

標籤傳播：一種相對簡單的方法，其中稱為邊緣的數值表示附近節點之間的相似性。在模型的第一次運行中，與標記點具有最強邊緣的未標記點借用該點的標籤。隨著越來越多的點被標記，該過程會重複，直到所有點都被標記。
圖神經網路 (GNN)：使用訓練神經網路的技術（例如注意力和卷積），將標記資料點的學習應用到未標記的資料點，特別是在社交網路和基因分析等高度複雜的情況下。
圖形自動編碼器：與 VAE 類似，它們建立一個捕獲標記和未標記資料的抽象表示。這種方法通常用於查找缺少的鏈接，這些鏈接是圖中未捕獲的潛在連接。

基於圖的方法對於自然形成網絡或具有內在關係的複雜數據特別有效，例如社交網絡、生物網絡和推薦系統。

半監督學習的應用

半監督學習的眾多應用包括：

文字分類：當您擁有大量可用資料（例如數百萬條產品評論或數十億封電子郵件）時，您只需標記其中的一小部分即可。半監督方法將使用剩餘的數據來完善模型。
醫學影像分析：醫學專家的時間非常昂貴，而且並不總是準確的。用許多未標記的影像來補充對 MRI 或 X 光等影像的分析可以產生等於甚至超過其準確性的模型。
語音辨識：手動轉錄語音是一個乏味且費力的過程，尤其是當您試圖捕捉各種方言和口音時。將標記的語音資料與大量未標記的音訊結合將提高模型準確辨別所說內容的能力。
詐欺偵測：首先，在一小部分標記交易上訓練模型，識別已知的詐欺和合法案例。然後添加更多未標記的交易，使模型暴露於可疑模式和異常情況，從而增強其識別金融系統中新的或不斷演變的詐欺活動的能力。
客戶細分：半監督學習可以透過使用小型標記資料集根據某些模式和人口統計資料定義初始細分，然後添加更大的未標記資料池來細化和擴展這些類別，從而提高精度。

半監督學習的優點

成本效益：半監督學習減少了對大量標記資料的需求，降低了標記成本和工作量以及人為錯誤和偏見的影響。
改進的預測：與純粹的監督學習相比，結合標記和未標記的數據通常會帶來更好的預測質量，因為它為模型提供了更多的數據可供學習。
可擴展性：半監督學習非常適合現實世界的應用程序，在這些應用程式中，徹底的標記是不切實際的，例如數十億潛在的詐欺交易，因為它可以用最少的標記數據處理大型數據集。
靈活性：結合監督學習和無監督學習的優勢，使這種方法適用於許多任務和領域。

半監督學習的缺點

複雜性：整合標記和未標記資料通常需要複雜的預處理技術，例如標準化資料範圍、估算缺失值和降維。
假設依賴：半監督方法通常依賴有關資料分佈的假設，例如同一簇中的資料點具有相同的標籤，但這可能並不總是成立。
潛在的噪音：如果未使用異常值檢測和針對標記資料進行驗證等技術進行正確處理，則未標記的資料可能會引入雜訊和不準確性。
更難評估：如果沒有太多標記數據，您將無法從標準監督學習評估方法中獲得太多有用的信息。