自我監督學習:它是什麼以及它如何運作
已發表: 2024-07-18自我監督學習是人工智慧領域的前沿技術,它使機器能夠發現資料中的內在模式和結構,模仿人類從上下文和經驗中學習的能力,而不是透過明確的指令來學習。
目錄
- 什麼是自我監督學習?
- 與其他機器學習類型相比,自我監督
- 自我監督學習如何運作
- 自我監督學習的類型
- 自監督學習的應用
- 自監督學習的優點
- 自我監督學習的缺點
什麼是自我監督學習?
自監督學習是機器學習 (ML) 的一種,它訓練模型使用原始的、未標記的資料來建立自己的標籤,即明確配對的輸入和輸出。 與需要大量標記資料的監督學習不同,自監督學習從資料本身產生偽標籤(人工標籤)。 該技術為模型提供了監督學習方法的目標導向和可測量性,以及無監督學習從大量未標記資料中得出有用結論的能力。
機器學習是人工智慧 (AI) 的一個子集,它使用資料和統計方法來建立模仿人類推理的模型,而不是依賴硬編碼指令。 自監督學習利用大量可用的未標記數據,使其成為一種以最少的手動幹預來提高模型性能的強大方法。 事實上,當今主要的生成式人工智慧文字和圖像模型很大程度上是使用自我監督學習進行訓練的。
使用 Grammarly 更聰明地工作
任何有工作要做的人的人工智慧寫作夥伴
與其他機器學習類型相比,自我監督
自監督學習結合了監督學習和無監督學習的元素,但與半監督學習不同:
- 監督學習:使用標記資料來訓練模型以執行特定任務,例如分類和迴歸。這些標籤提供了明確的指導,使模型能夠做出準確的預測。 常見應用包括垃圾郵件偵測、影像分類和天氣預報。
- 無監督學習:使用未標記的資料來尋找模式和分組。它識別群集和關聯並降低資料複雜性以便於處理。 例如客戶細分、推薦系統和異常檢測。
- 半監督式學習:使用適量的標記資料來提供初步指導,然後利用一個或多個更大的未標記資料集合來細化和改進模型。當您有一些標記數據,但產生足夠的完全監督學習所需的數據會非常困難或昂貴,這種方法特別有用。
- 自監督學習:使用原始資料產生自己的標籤,允許模型在沒有任何初始標記資料的情況下從資料中學習。當標記資料根本不可用或僅佔可用資料的一小部分時,例如自然語言處理 (NLP) 或影像識別,這種方法尤其有價值。
自我監督學習如何運作
自我監督意味著數據本身提供了正確的答案。 自監督學習過程涉及幾個步驟,結合了監督和無監督方法的各個方面:
資料收集:收集大量原始、未標記的資料。這些數據構成了創建偽標籤和訓練模型的基礎。 許多數據集都是免費提供的。
- 預處理:準備資料以確保品質。此步驟包括刪除重複項、處理缺失值以及標準化資料範圍。
- 任務創建:為模型創建要解決的謎題,稱為藉口任務。這些是透過刪除或打亂部分資料來創建的,例如刪除單字、刪除圖像像素或打亂視訊幀。 在這種故意破壞之前存在的任何東西都被稱為偽標籤:從數據本身而不是人類標籤創建的「正確答案」。
- 訓練:使用產生的偽標籤在藉口任務上訓練模型。這意味著模型嘗試產生正確的答案,將其答案與偽標籤進行比較,進行調整,然後再次嘗試產生正確的答案。 此階段幫助模型理解資料內的關係,並最終創建對輸入和輸出之間關係的複雜理解。
- 微調:切換模型以從較小的標記資料集中學習,以提高其在特定任務上的效能。此步驟確保模型利用在初始訓練階段學到的表示。 微調並不是絕對必要的,但它通常會帶來更好的結果。
- 評估:評估模型在尚未見過的數據上的表現。使用與任務相關的標準指標(例如 F1 分數),此評估可確保模型能夠很好地推廣到新資料。
- 部署和監控:在實際應用中部署經過訓練的模型並持續監控其效能。根據需要使用新數據更新模型,以保持其準確性和相關性。
自我監督學習的類型
自我監督學習涵蓋多種類型,每種類型都有多種技術和方法。 在這裡,我們將探討幾種類型,重點介紹它們獨特的訓練方法,並為每種類型提供一到兩個代表性範例。
對於圖像
- 自我預測學習:自我預測學習涉及自動編碼等技術,其中模型學習將資訊壓縮為更簡單的形式,然後從中重新建立原始資料。 在影像處理中,這通常意味著選擇性地破壞影像的某些部分(例如,透過屏蔽部分)並訓練模型以重建原始影像。 這有助於模型更好地識別不同位置、大小甚至部分隱藏的物體。
- 對比學習:在對比學習中,模型透過成對或成組比較來學習區分相似和不同的圖像。例如,SimCLR 方法使用影像增強(如裁切、扭曲和翻轉)來建立訓練對。 正對是透過對相同影像應用不同的變化而形成的,而負對來自不同的影像。 然後,模型學習相似對中的共同特徵以及不同對中的不同特徵。
- 基於聚類的方法:基於聚類的方法將相似的資料點分組在一起,並使用這些聚類作為訓練的偽標籤。例如,DeepCluster 透過相似的特徵對影像進行聚類,並使用這些聚類來訓練模型。 這個過程在聚類和訓練之間交替進行,直到模型表現良好。 SwAV(視圖之間交換分配)透過使用相同影像的多個版本來增強這一點,幫助模型學習保持不變的基本特徵,例如邊緣、紋理和物件位置。
對於文字
- 自我預測學習:這是大型語言模型(LLM)的核心訓練機制,它將文字理解為一系列標記。 這些通常代表一個單詞,但有時代表一個單字的一部分或一組單字。
- 掩碼語言模型 (MLM):這些模型顯示缺少一些標記的句子,並負責預測丟失的單字。透過學習如何填補這些空白,MLM 可以全面地表示語言結構和上下文,並且他們可以在進行預測時考慮整個輸入的上下文。 有用的輸出,例如情緒分析或命名實體識別,是透過微調開發的。 一個典型的例子是 BERT,Google用它來理解搜尋查詢的意圖。
- 因果語言模型 (CLM): ChatGPT、Claude 和 Gemini 等生成模型透過根據先前的標記一次預測一個單字來學習重新創建他們所看到的文字。經過訓練後,他們會將輸入文字視為預測的上下文,並繼續使用產生的每個新標記進行預測。 這種順序預測就是為什麼它們的輸出看起來像是自行輸入而不是同時出現。
- 對比學習:這種方法比較成對的文本樣本,強調它們之間的差異和相似之處。SimCSE 透過應用 dropout 創建同一句子的兩個略有不同的版本,它在訓練過程中隨機忽略隱藏層中句子表示的部分內容(有關隱藏層的更多信息,請參閱我們關於深度學習的文章)。 該模型學會將這些版本識別為相似的。 這項技術提高了模型理解和比較句子的能力,使其對於查找相似句子或檢索搜尋查詢的相關資訊等應用非常有用。
- 下一句預測(NSP):顧名思義,NSP 涉及預測給定句子是否是文件中另一個句子的後續句子,幫助模型理解句子之間的關係和文本的邏輯流。它通常與傳銷一起使用,以增強對較大文本體的理解。 例如,在BERT NSP中,模型預測兩個句子在原始文字中是否連續出現。
自監督學習的應用
自監督學習在各領域都有廣泛的應用:
- 自然語言處理: BERT 和 GPT-3 等模型使用自我監督學習來理解和生成聊天機器人、翻譯和文字摘要等應用中的人類語言。
- 電腦視覺:自我監督學習透過從原始視覺數據生成偽標籤來改進圖像和視訊分析。用途包括物體偵測(例如門鈴攝影機)、臉部辨識以及自動從較長影片建立剪輯。
- 語音辨識:自監督模型透過學習大量未標記的音訊資料來改善語音辨識系統。這種方法減少了手動轉錄的需要,並提高了不同口音和方言的準確性。
- 醫療保健:自我監督學習透過利用帶有最少標記範例的大型資料集,有助於改善醫學影像分析、藥物發現和病患監測。它提高了疾病檢測和治療建議的準確性,而無需大量且昂貴的專家人工標記。
- 機器人技術:機器人使用自我監督學習來了解其環境並改善其決策過程。用途包括自主導航、物件操縱和人機互動。
自監督學習的優點
- 經濟高效:減少對大量標記資料的需求,降低註釋成本和人力。
- 可擴展性:可以處理大型資料集,使其適合標記資料有限但未標記資料豐富的實際應用。
- 泛化:當接受足夠的原始資料訓練時,模型可以學習足夠的知識來執行新任務,即使它沒有接受直接相關資料的訓練。例如,基於一種語言的 NLP 模型可用於增強基於另一種語言的 NLP 模型的學習。
- 靈活性:適用於各種任務和領域,有許多子類型可滿足特定需求。
自我監督學習的缺點
- 複雜性:創建有效的藉口任務並產生偽標籤需要仔細的設計和實驗。
- 雜訊敏感度:從原始資料產生的偽標籤可能與目標無關,可能會因為給模型太多不必要的輸入來處理而影響效能。
- 運算資源:訓練自監督模型,尤其是使用大型資料集,需要大量的運算能力和時間。