零樣本學習解釋:無標籤機器學習的未來
已發表: 2025-01-13零樣本學習 (ZSL) 使模型能夠對以前從未遇到過的概念進行分類或預測結果,從而徹底改變了機器學習 (ML),這標誌著與需要大量標記資料的傳統方法的背離。本指南探討了 ZSL 的工作原理、應用、它與少樣本學習 (FSL) 的比較,以及它的挑戰和未來潛力。
目錄
- 什麼是零樣本學習?
- 零樣本學習如何運作
- 零樣本學習與少樣本學習和一次學習
- 零樣本學習與零樣本提示
- 零樣本學習的應用
- 零樣本學習的好處
- 零樣本學習的挑戰
什麼是零樣本學習(ZSL)?
ZSL 允許機器學習模型對看不見的類別進行預測,而無需針對這些類別進行特定的訓練範例。與傳統的監督學習模型不同,傳統的監督學習模型嚴重依賴標記資料集,其中每個類別都必須明確表示,而 ZSL 利用輔助資訊(例如語義嵌入或屬性)來概括知識。
例如,經過訓練對動物進行分類的監督學習模型需要標記「狗」、「貓」和「斑馬」的範例來識別它們,而經過動物圖像訓練的ZSL 模型可以根據「」等描述性屬性來識別斑馬。這使得 ZSL 對於涉及大型、未標記資料集的任務或收集標記資料不切實際的情況特別有用。其應用涵蓋電腦視覺、自然語言處理 (NLP)、機器人技術等。
零樣本學習如何運作
ZSL 模型首先在大型標記資料集上進行預訓練,以建立知識庫。此模型從標記資料中提取輔助訊息,包括顏色、形狀和情緒等特徵。
然後,它使用這些功能來映射已見和未見的資料類別(或類別)之間的語義關係。這個過程被稱為知識轉移,例如,ZSL 模型可以理解鴨子和鵝是相關的,因為它們都有喙、羽毛和有蹼的腳。
最常見的技術是基於屬性的 ZSL、基於語意嵌入的 ZSL 和廣義 ZSL。下面,我們逐一進行分析。
基於屬性的零樣本學習
基於屬性的 ZSL 模型最常用於電腦視覺任務。他們透過對人類標記的圖像資料集進行訓練來工作。標籤由個人標籤認為有用的屬性組成。對於每張圖像,人們都會應用其特徵的文字描述,例如顏色、形狀或其他特徵。
例如,在影像分類中,「灰色」、「四足」和「狗」等屬性可能描述不同的類別。透過訓練,模型學習將這些屬性與特定類別相關聯。
當您向模型展示新事物的範例(例如它以前從未見過的動物類型)時,它可以確定它正在查看的類別是否與訓練中看到的類別相似但不相同。
當模型遇到看不見的類別(例如狼)時,它可以透過分析與學習類別共享的屬性來推斷類別,即使「狼」標籤並未明確包含在訓練中。這些人類可解釋的屬性提高了可解釋性,並使模型能夠推廣到新的類別。
基於語意嵌入的零樣本學習
這種方法類似於基於屬性的 ZSL,但模型不是人類為訓練創建屬性標籤,而是產生訓練資料的語義嵌入。這些語義嵌入被編碼為向量(表示現實世界物件的數學方式),然後映射到嵌入空間。
嵌入空間允許模型透過將相關資訊更緊密地分組來組織其上下文知識。例如,由於共享語義特徵,“狗”和“狼”類別在嵌入空間中比“狗”和“鳥”類別彼此更接近。這類似於大型語言模型 (LLM) 使用語義嵌入來對同義詞進行聚類,因為同義詞的含義相似。
當模型被賦予未見過的類別(另一種說法是“模型以前沒有遇到過的新數據”)時,它將來自這些新類別的向量投影到相同的嵌入空間中,並測量它們與它已經知道的類別的向量之間的距離關於。這為未見過的範例提供了模型上下文,並允許其推斷已知類別和未知類別之間的語義關係。
廣義零樣本學習
大多數零樣本學習技術都會在一種資料上訓練模型,然後將其應用於不同但相關的問題。這就是「零鏡頭」的想法:模型在實際遇到新類別之前不會接觸到任何新類別的範例。
然而,現實世界的應用程式並不總是那麼黑白分明。您希望 ZSL 模型分類的資料集可能包含已知類別和新類別的內容。
問題在於,如果將新類別和熟悉類別混合在一起,傳統的 ZSL 模型有時會表現出強烈的偏見,將新類別錯誤地標記為它已經知道的事物。因此,擁有一個可以泛化到可能包含訓練中已經看到的類別的資料集的 ZSL 模型很有用。
在廣義 ZSL 中,模型採取了額外的步驟來減少對已知類別的偏差。在執行分類之前,它首先確定所討論的物件屬於已知類別還是未知類別。
零樣本學習與少樣本學習和一次學習
與 ZSL 一樣,少樣本學習 (FSL) 和單樣本學習 (OSL) 使深度學習模型能夠在使用最少或無需新資料的情況下執行新任務。所有三種方法都依賴於映射已知範例的特徵之間的關係來推斷未知範例中的模式。他們的主要目標是創建在資料稀缺或沒有時間為特定任務訓練新模型的現實場景中有效的模型。
主要區別在於它們處理新數據的方式:
- FSL涉及為模型提供少量標記範例以用於其需要識別的新類別。
- OSL是一種更具體的情況,其中模型僅顯示新類別的一個標記範例。
與 ZSL 相比,FSL 和 OSL 都需要額外的訓練步驟,這增加了學習新任務所需的時間。然而,這種額外的訓練使他們能夠處理與模型預先訓練的知識顯著偏離的任務,使他們在實踐中更具適應性。
雖然 ZSL 通常被視為“靈活”,因為它不需要新任務的標記範例,但這種靈活性很大程度上是理論上的。在實際應用中,ZSL 方法可能會遇到以下問題:
- 涉及混合看到和未見過的範例的任務(例如,廣義的 ZSL 場景)
- 與模型訓練資料有很大不同的任務
ZSL 模型對預訓練和評估期間資料集如何分割等因素也很敏感,這可能會影響效能。另一方面,FSL和OSL透過將新的例子融入學習過程中,為任務適應提供了更實際的靈活性,使它們能夠在不同的場景中表現得更好。
零樣本學習與零樣本提示
ZSL 是一種專為各種深度學習任務而設計的模型架構。相較之下,零樣本提示是指要求 ChatGPT 或 Claude 等法學碩士產生輸出,而無需在提示中提供具體範例來指導其回應。在這兩種情況下,模型執行任務時都沒有明確說明任務所涉及內容的範例。
在零樣本提示中,您不會向模型提供與任務相關的任何範例。相反,您依靠法學碩士預先訓練的知識來推斷和執行任務。
例如,您可以輸入餐廳評論的文本,並要求法學碩士將其分類為正面、中立或負面,而無需提供任何範例評論作為參考。法學碩士將利用其預培訓來確定審查的適當標籤。
雖然零樣本學習和零樣本提示共享在沒有範例的情況下執行任務的概念,但有一個關鍵區別:
- 零樣本學習是一種為此類任務建構的模型架構。
- 零樣本提示是一種專門用於與 LLM 互動的技術,而不是模型架構。
零樣本學習的應用
由於其專注於幫助深度學習模型適應新任務,ZSL 在 ML 的許多領域都有應用,包括電腦視覺、NLP 和機器人技術。 ZSL 可用於醫療保健、情感分析、客戶服務、文件翻譯和網路安全,例如:
- 情緒分析:當突發新聞發生時,零樣本 NLP 模型可以對公眾評論進行情緒分析,以近乎即時的方式了解公眾的反應。
- 多語言文件處理:經過訓練可以從英語稅務文件中提取資訊的 NLP 零樣本模型可以對西班牙語稅務文件執行相同的提取,而無需額外培訓。
- 醫療診斷:ZSL 模型已用於在沒有任何視覺範例的情況下識別 COVID-19 患者的 X 光。這些識別是基於現場醫生對 X 光檢查呈陽性的情況進行的文字描述。
- 更細緻的聊天機器人: ZSL NLP 模型可以理解他們以前在與人聊天時從未遇到過的俚語和習語,從而使他們能夠更有意義地回答他們沒有經過專門訓練來處理的問題。
- 異常偵測: ZSL 可用於網路安全,以偵測網路活動中的異常模式或在新威脅出現時標記新類型的駭客攻擊。
零樣本學習的好處
考慮到所需的大型資料集、訓練時間、資金和計算資源,傳統的監督學習方法對於許多現實世界的應用來說通常是不切實際的。 ZSL 可以緩解其中一些挑戰。好處包括降低與訓練新模型相關的成本以及應對資料稀缺或尚未可用的情況:
具有成本效益的開發
取得和整理監督學習所需的大型標記資料集既昂貴又耗時。除了伺服器、雲端運算空間和工程師的成本之外,在高品質標記資料集上訓練模型可能會花費數萬美元。
ZSL 讓機構在無需額外培訓的情況下將模型重新用於新任務,從而有望降低 ML 專案的成本。它還允許較小的實體或個人重新利用其他人建立的模型。
解決數據稀缺的問題
ZSL 的靈活性使其成為可用數據很少或數據仍在不斷湧現的情況的良好工具。例如,當資訊尚未廣泛傳播時,它對於診斷新疾病很有用,或者對於資訊快速發展的災難情況很有用。當資料量太大而人類分析師無法處理時,ZSL 對於異常檢測也很有用。
零樣本學習的挑戰
ZSL 在預訓練階段很大程度上依賴高品質的訓練數據,以充分理解類別之間的語義關係,從而推廣到新的類別。如果沒有高品質的數據,ZSL 可能會產生不可靠的結果,有時難以評估。
ZSL 模型面臨的常見問題包括難以適應與其已訓練的任務不同的任務,以及訓練資料的問題導致其在預測未見過的類別時過度依賴某些標籤。
領域適應
當被要求處理來自與其訓練資料沒有顯著差異的領域的新資料時,ZSL 模型表現最佳。例如,如果模型是在靜態照片上進行訓練的,那麼它將很難對影片進行分類。
ZSL模型依賴將未知資料的輔助資訊對應到已知數據,因此如果資料來源差異太大,則模型無法將其知識泛化到新任務。
樞紐問題
當模型在對未見過的類別進行預測時開始僅使用幾個標籤時,ZSL 中就會出現中心問題。當嵌入特徵空間中的許多點聚集在一起,形成“中心”,使模型偏向特定標籤時,就會發生這種情況。
發生這種情況的原因可能是訓練資料中存在雜訊、某些資料的範例過多而其他資料的範例不足,或因為模型的語義嵌入不夠清晰。