少樣本學習解釋:用最少的數據改變人工智慧
已發表: 2025-01-13與需要大量資料集的傳統方法不同,小樣本學習 (FSL) 正在改變機器學習 (ML),使模型能夠從少數範例中學習並產生準確的輸出。本指南探討了 FSL 的工作原理、應用、與零樣本學習 (ZSL) 的比較及其挑戰和潛力。
目錄
- 什麼是小樣本學習?
- 少樣本學習與少樣本提示:有什麼不同?
- 少樣本學習如何運作
- 小樣本學習與零樣本學習
- 少樣本學習的應用
- 少樣本學習的好處
- 少樣本學習的挑戰
什麼是少樣本學習(FSL)?
少樣本學習 (FSL) 是指一系列 ML 技術,旨在創建適應性強的模型,這些模型能夠在僅對每個類別的幾個標記範例進行訓練後產生準確的輸出。當每個類別只有一個標記範例可用時,稱為一次性學習。例如,現代智慧型手機利用 FSL 只需幾張照片甚至一張照片即可辨識使用者的臉部。
FSL 特別有價值,因為它允許 ML 模型解決資料稀缺的問題,就像現實世界中經常出現的情況一樣。 FSL 模型還可以處理比傳統監督式學習模型更廣泛的任務,因為它們可以學習泛化。這可以節省資源,因為使 FSL 模型適應新任務通常比從頭開始訓練全新模型更便宜、更快。 FSL 通常被描述為透過學習從少數例子中抽象化來教導 ML 模型更像人類「思考」。
FSL 通常用於電腦視覺應用,但也部署在機器人和自然語言處理 (NLP) 中。例如,FSL 已被用來翻譯古代蘇美文本——鑑於蘇美語專家供不應求,這是一項有用的任務。蘇美翻譯器 FSL 模型學會如何從一小部分高品質的楔形文字板樣本中進行翻譯。然後,他們準確地翻譯了大量不熟悉的文本,供學者分析。
少樣本學習與少樣本提示:有什麼不同?
FSL 和少樣本提示是 ML 和 NLP 中的相關概念,但它們有不同的用途。
少樣本學習
FSL 是一種模型訓練技術,可教導模型將看不見的資料分類。它的工作原理是利用先驗知識調整模型參數以適應新型分類任務。 FSL 與監督學習相關,但不同之處在於 FSL 模型是在更有限的資料集上進行訓練的。
少鏡頭提示
Few-shot 提示是一種使用大型語言模型 (LLM) 的方法。它使用上下文學習——一種模型使用提示中的信息(例如格式和情緒)來預測輸出的學習類型。與 FSL 和傳統的監督學習不同,few-shot 提示不涉及更改 LLM 的參數。當您使用少量提示時,您可以向法學碩士提供您正在尋找的回應類型的幾個範例。與 FSL 一樣,few-shot 提示是透過向模型展示一些類似任務的範例來幫助模型進行泛化。
少樣本學習如何運作
小樣本學習涉及兩個階段:首先,在通用資料集上對模型進行預訓練以了解世界。然後它們進行任務適應,模型學習如何從小資料樣本中進行概括。
預訓練
大多數 FSL 模型的第一階段從大型標記資料集上的預訓練開始,就像監督學習一樣。該模型對此資料集執行特徵提取,並透過開發有關資料中模式和關係的知識庫來學習對範例進行分類。
任務適應
預訓練後,FSL 的下一階段是訓練模型以泛化到新的分類任務。這稱為任務適應,發生在多個訓練階段。
在每一集中,都有一個由兩到五個範例組成的支援集供模型研究,以及一個包含未見過目標的查詢集供模型嘗試分類。這個框架被稱為N-way K-shot分類,其中N指類別(稱為類別)的數量, K指每個類別的標記範例(鏡頭)的數量。
所有FSL模型都是為了實現任務適應而設計的。在 FSL 技術集中,最重要和最令人興奮的研究領域之一是元學習。
元學習方法
元學習涉及將模型暴露於與模型最初訓練要解決的分類任務類似或相關的任務。它只獲取每個新任務的幾個範例,但從這些範例中,它透過開發一個元框架來學習泛化,以便在遇到任何不熟悉的任務時做什麼。
從廣義上講,元學習有三種方法:
- 基於最佳化的學習:這包括訓練模型以快速改進其參數的方法。其中一些使用兩階段過程,其中學習器接受特定任務的訓練,然後元學習器使用學習器階段的損失函數來改進下一個任務的模型參數。
- 度量級學習:度量學習主要用於電腦視覺任務,其工作原理是將提取的特徵映射到嵌入空間中,並使用映射上特徵之間的距離來輸出兩個圖像相似的機率。
- 與模型無關的元學習 (MAML):在 MAML 中,訓練過程的目標是減少最佳化模型參數所需的梯度步驟數,無論任務為何。 MAML 分析任務的學習過程,推斷該過程的工作模式,並開發充當捷徑的模型,從而加快它看到的每個新任務的學習過程。
隨著研究人員設計新方法來幫助模型變得適應性強,使用元學習技術的模型架構清單一直在成長。
非元學習方法
還有不使用元學習的 FSL 和 FSL 相鄰方法。 FSL 有時會與這些技術一起部署以建立混合方法:
- 遷移學習:此方法涉及採用預先訓練的模型並微調神經網路的外層。在您希望模型執行的任務與其已訓練的任務接近的情況下,遷移學習更有用。
- 數據增強: FSL 可以透過數據增強來增強,這涉及使用有限的數據作為基礎,使用生成對抗網路 (GAN) 或變分自動編碼器創建合成數據,以增加訓練集的樣本數量。
小樣本學習與零樣本學習
少樣本學習(或單樣本學習)通常用於訓練模型的資料有限但高品質的場景。但如果您根本沒有高品質數據怎麼辦?在零樣本學習(ZSL)中,您不會給模型任何範例,而是要求它僅依賴先驗知識和語義嵌入來處理不熟悉的任務。
ZSL 提供快速、靈活的解決方案,用於處理資料很少的情況。然而,ZSL 模型可能會遇到域轉移問題,這意味著如果它們看到的資料類型與知識庫差異太大,它們可能會遇到困難,而且很難評估模型的效能。
少樣本學習的應用
FSL 的應用範圍廣泛且不斷發展,但在可用範例相對較少的領域,它具有巨大的應用潛力。最近的一些用例研究領域包括:
- 醫學診斷: FSL 可以幫助基於影像的腫瘤分類,而傳統的監督式學習模型沒有足夠的標記資料來提供幫助。
- 遙感: FSL 可以加快遙感任務的速度,例如使用無人機鏡頭來評估環境災難的影響。
- F1 賽車原型:FSL 模型根據流體動力學、空氣動力學以及其他數據對數百輛賽車在數千場比賽中進行了預先訓練。然後,他們根據少量昂貴的試運行,使用 FSL 來預測新車原型的空氣動力學和零件退化。
- 機器翻譯: FSL 幫助建立了更有效率的機器翻譯器,它只需要很少的輸入,就能以前所未有的準確度捕捉方言和地區差異的細微差別。
- 機器人技術: FSL 被用來教導機器人透過觀看人類演示來學習抓取物體。
- 情緒分析:最初針對飯店評論訓練的 FSL 模型可用於對餐廳評論進行分類。
FSL 也是建立通用人工智慧的一部分,因為它更接近模仿人類解決問題的方式。
少樣本學習的好處
FSL 模型的主要優點是它們可以處理可用資料有限的問題,並且可以幫助減少訓練新模型所需的計算和財務資源。
用有限的數據進行概括
FSL 模型可以做到這一點,因為它們不會透過多次迭代來記憶影像、聲音或語言。相反,他們學會快速分析相似點和差異。儘管傳統模型擅長執行高度具體的任務,例如識別特定鳥類或匹配指紋,但一旦您要求它們完成任何其他任務,它們就會失敗。
使用更少的資源
MAML 等技術是使用模型訓練資源的更有效方法。它們允許非常昂貴的大型模型快速有效地適應特定的用例,而無需昂貴的重新訓練步驟。機器學習的一大挑戰是需要多少資料來訓練模型以產生有用的輸出,無論是在編譯大型、高品質資料集還是需要多少時間和計算方面。 FSL 預計將解決許多資料稀缺或跨領域的現實問題。
少樣本學習的挑戰
儘管 FSL 前景廣闊,但它也面臨著阻礙模型有效性的挑戰。
過擬合
使用有限的資料集可能會導致過度擬合,即模型與其訓練集中的資料過於緊密地對齊且難以泛化。這是 ML 中常見的問題,與其他 ML 方法相比,FSL 更容易出現此問題。過度擬合的 FSL 模型在測試資料上表現良好,但在呈現真實範例時無法識別新類別。為了防止這種情況發生,用於小樣本訓練的有限樣本具有多樣性非常重要。上面討論的資料增強試圖透過合成更多的訓練範例來減輕過度擬合。
數據品質
預訓練和小樣本學習階段的高品質資料都很重要。 FSL 模型更容易受到雜訊、標記不良的資料的阻礙。當資料中有太多一種類型而不是另一種類型或有太多特徵可供模型分析時,它們也表現不佳;在這些情況下,它們往往會變得過於複雜。研究人員有時可以透過使用正規化技術來解決這些問題,這些技術是平滑資料的方法,以幫助模型找出要注意的內容和要忽略的內容。