生成式人工智慧模型的解釋
已發表: 2024-04-15當您想到生成式人工智慧模型時,您可能會想到近年來引起轟動的大型語言模型(LLM)。然而,生成式人工智慧本身可以追溯到幾十年前,而法學碩士只是最新的演進。除了法學碩士之外,許多不同類型的生成式人工智慧模型也用於不同的生成式人工智慧工具和用例,例如用於圖像生成的擴散模型。
在本文中,我們將解釋什麼是生成式AI 模型、它們是如何開發的,並深入探討當今一些最常見的生成式AI 模型,足以讓您對這些模型有一個概念性的了解,這些模型會給您留下深刻的印象。
什麼是生成式人工智慧模型?
生成式人工智慧模型是人工智慧系統的一個子集,專門創建反映訓練資料特徵的新的原創內容。透過學習資料中的模式和關係,這些模型可以產生類似於來源資料的風格、語氣和細微差別的文字、圖像、聲音或視訊等輸出。這種能力將生成式人工智慧置於創新的核心,透過解釋輸入資料並將其轉換為新穎的創作,允許跨不同領域的創造性和動態應用。
生成式人工智慧模型如何運作
生成式 AI 模型透過利用一種複雜的 ML 演算法(稱為神經網路)來發揮作用。神經網路包含多層互連的節點,每個節點都以一段電腦程式碼表示。這些節點執行較小的單獨任務,但共同有助於做出複雜的決策,反映了人腦中的神經元功能。
為了說明這一點,請考慮一個負責區分派和蛋糕圖像的神經網路。此網路在粒度層級上分析影像,將其分解為像素。在非常基礎的層面上,網路中會有不同的節點致力於理解不同的像素和像素組。也許有些人會看看甜點中是否有分層,而有些人會確定是否有糖霜或硬皮。每個節點都儲存有關餡餅與蛋糕的特徵的信息,每當新圖像發揮作用時,它都會通過每個節點進行處理以輸出最終預測。
在生成人工智慧的背景下,這項原則不僅限於簡單的識別,還延伸到新的原創內容的創建。生成模型不只是辨識特徵,而是使用神經網路來理解所訓練資料的底層模式和結構。這個過程涉及神經網路內複雜的交互和調整,由旨在優化生成輸出的創造力和準確性的演算法引導。
生成式人工智慧模型是如何開發的?
生成式人工智慧模型的開發涉及一系列複雜且相互關聯的步驟,通常由研究人員和工程師團隊執行。這些模型,例如 OpenAI 的 GPT(生成式預訓練變壓器)和其他類似架構,旨在產生模仿其訓練資料分佈的新內容。
以下是該過程的逐步分解:
1數據收集
資料科學家和工程師首先確定其專案的目標和要求,這指導他們收集廣泛且適當的資料集。他們經常使用公共資料集,這些資料集提供大量文字或圖像來滿足他們的需求。例如,ChatGPT (GPT-3.5) 的訓練涉及處理 570GB 的數據,相當於公共互聯網資源中的 3000 億個單詞,包括幾乎所有維基百科的內容。
2型號選擇
選擇正確的模型架構是開發生成式人工智慧系統的關鍵一步。此決策取決於手邊任務的性質、可用資料的類型、所需的輸出品質和計算限制。本文稍後將更詳細地討論具體架構,包括 VAE、GAN 以及基於變壓器和擴散模型。在此階段,重要的是要了解新模型通常從預先存在的架構框架開始。這種方法利用經過驗證的結構作為基礎,允許根據當前專案的獨特要求進行改進和創新。
3模型訓練
使用第一步收集的資料集來訓練所選模型。訓練生成式人工智慧模型通常需要大量的運算能力,需要使用 GPU(圖形處理單元)和 TPU(張量處理單元)等特殊硬體。雖然訓練方法因模型架構而異,但所有模型都會經歷一個稱為超參數調整的過程。這是資料科學家調整某些效能設定以獲得最佳結果的地方。
4評估與微調
最後,在現實世界中評估或測試模型表現。評估生成式人工智慧模型與評估傳統的機器學習模型不同,因為生成式人工智慧創造了全新的輸出,而該輸出的品質往往是主觀的。指標根據模型創建的內容而有所不同,生成式人工智慧的評估技術通常包括使用人類評估者,並且可能採用讓生成式人工智慧模型相互評估的策略。評估階段的學習通常會應用在模型的微調甚至重新訓練。模型的性能經過驗證後,即可投入生產。
生成式人工智慧模型的類型
基於我們對生成式 AI 模型和為其提供動力的神經網路的基礎知識,我們現在準備好深入研究 2010 年代初期以來出現的特定類型的模型架構。我們將探討每種模型的獨特優點和缺點以及它們的實際應用。
以下是我們將討論的模型的簡要概述:
- 變分自動編碼器(VAE)擅長學習複雜的資料分佈,通常用於影像生成和編輯等任務。
- 生成對抗網路(GAN)以其創建高度逼真的圖像的能力而聞名,並在各種創意應用中變得流行。
- 擴散模型是一類較新的模型,它透過逐漸添加然後去除雜訊的過程來產生高品質樣本。
- 語言模型擅長理解和產生人類語言,這使得它們對於聊天機器人和文字完成等應用非常有用。
- 基於 Transformer 的模型最初是為自然語言處理 (NLP) 任務而設計的,但由於其處理順序資料的強大能力,已適用於生成模型。
讓我們更深入地研究這些架構,以了解它們的工作原理以及它們的最佳應用場景。
變分自動編碼器 (VAE)
變分自動編碼器由 Max Welling 和 Diederik P. Kingma 於 2013 年發明。這有時被稱為原始資料的“壓縮”或“投影”。
例如,如果模型查看蛋糕的圖像,它可能會將其轉換為包含圖像所有特徵(灑水、糖霜顏色、海綿層等)的編碼。它可以由另一個神經網路進行解碼,以嘗試重新創建原始圖像 - 儘管它會存在一些間隙,因為編碼是一種壓縮。這種類型的模型,編碼器和解碼器一起工作,稱為自動編碼器。
變分自動編碼器對自動編碼器的想法進行了改進,以產生新的輸出。在產生編碼時,VAE 使用機率而不是離散數。畢竟,生奶油算糖霜嗎?有時是的;有時不。
事實證明,如果你訓練一個神經網路來創建這些機率編碼並訓練另一個神經網路來解碼它們,你可以獲得一些非常有趣的結果。解碼器可以對變分編碼「空間」中的點進行取樣,並創建全新的輸出,這些輸出仍然看起來很真實,因為它們保留了訓練資料的機率關係。
優點和缺點
變分自動編碼器使用無監督學習,這意味著模型可以從原始資料中自行學習,而不需要人類標記不同的特徵或結果。此類模型在創建與原始內容略有不同的內容方面尤其成功。由於它們如何使用編碼,還可以根據訓練數據的特徵向它們發出具體指令:“向我展示一款代表蛋糕和餡餅之間完美中間點的甜點。”也就是說,VAE 會針對可能的結果進行最佳化,因此它們不太可能擅長創建非常原創或突破性的內容。
關於 VAE 的一個常見抱怨是,由於編碼和解碼涉及壓縮,從而導致資訊遺失,因此它們會產生雜訊(即模糊)影像。
使用案例
變分自動編碼器適用於各種數據,儘管它們主要用於生成圖像、音訊和文字。一個有趣的應用是異常檢測:在資料集中,VAE 可以找到偏離標準最多的資料點,因為這些點將具有最高的重建誤差,這意味著它們將與 VAE 編碼的機率最遠。
生成對抗網路(GAN)
生成對抗網路由 Ian Goodfellow 於 2014 年開發。 GAN 背後的核心問題(和見解)是:如果兩個神經網路相互對抗會發生什麼?其中一個稱為生成器,被訓練如何產生新內容,而另一個稱為鑑別器,則被訓練以了解真實內容和虛假內容之間的區別。
生成器建立候選影像並將其顯示給鑑別器。根據回饋,生成器相應地更新其預測,越來越擅長「欺騙」鑑別器。一旦它能在 50% 的時間內欺騙鑑別器(就像在真假之間拋硬幣一樣好),反饋訓練循環就會停止。然後,GAN 的生成器部分就可以進行評估和生產了。
自 2014 年以來,針對不同用例開發了數百種 GAN 變體,以平衡 GAN 固有的優點和缺點。
優點和缺點
生成對抗網路和 VAE 最初引發了人們對生成人工智慧潛力的廣泛關注。他們使用無監督學習,因此模型會自行變得更好,而無需研究人員告訴它其輸出是好是壞。生成對抗網路的學習速度也非常快;與其他現有解決方案首次發佈時相比,它們可以用更少的訓練資料(數百張圖像而不是數千張圖像)獲得良好的結果。
然而,GAN 通常很難創建與其訓練資料不相似的內容——它們是模仿者,而不是創造者。有時他們可能會「過度擬合」他們的訓練數據,例如當 GAN 創建包含字母的貓照片圖像時,因為他們看到了很多貓表情包。
訓練 GAN 是一項挑戰。在訓練期間必須同時處理兩個網路。當判別器太好時,也會出現問題,導致訓練週期永無止境,或者如果判別器不夠好,則會導致不良結果。它們也可能遭受所謂的模式崩潰,即它們無法產生不同的輸出,因為生成器學習了一些欺騙鑑別器的方法,並專注於這些策略以排除其他策略。
使用案例
生成對抗網路主要用於生成與原始內容非常相似的內容。例如,他們可以製作令人信服的人臉或逼真的室內或風景照片,用於圖庫攝影或電玩遊戲。他們還可以創建經過某種方式更改的圖像,例如將圖像從彩色更改為黑白或使圖像中的臉部變老。也就是說,並非所有 GAN 都會產生圖像。例如,一些 GAN 已被用於生成文字到語音的輸出。
擴散模型
擴散模型也在 2010 年代中期出現,提供了一些突破,並在 2020 年代初提供了更好的性能。它們為 DALL-E、Stable Diffusion 和 Midjourney 等影像生成工具提供支援。
擴散模型的工作原理是向影像引入高斯噪聲,透過一系列步驟進行扭曲,然後訓練模型來反轉這些步驟並將「雜訊」影像轉換為清晰影像。 (「高斯雜訊」僅意味著使用機率鐘形曲線隨機添加雜訊。)
您可以將雜訊影像視為有點像 VAE 編碼,而且 VAE 和擴散模型確實是相關的。例如,酸橙派的訓練資料影像最終會得到非常相似的雜訊版本。但即使是相同的雜訊影像也不會每次都對相同的事物進行“去噪”,因為模型一路上都會做出有根據的猜測。
您可能已經弄清楚生成部分的作用。這有點像解碼器如何從編碼中取樣。但有一個重要的區別:一路上沒有任何壓縮。因此,沒有真正的資料遺失,並且生成的影像品質更高。
從文字提示到圖像的生成式人工智慧工具借助一個單獨的模型來實現這一點,該模型了解「獨角獸主題生日蛋糕」之類的東西如何映射到不同的圖像特徵。然後將這些特徵的雜訊版本反轉以顯示清晰的影像。
優點和缺點
擴散模型不會壓縮訓練數據,因此它們能夠創建非常逼真的高品質影像。然而,與其他模型相比,它們需要更多的資源和時間來訓練。也就是說,訓練本身比較簡單,因為它們不會遇到 GAN 的模式崩潰和對抗網路的其他缺點。它們也不會像 VAE 那樣遭受資料遺失(並導致輸出品質較低)的問題。
使用案例
擴散模型主要用於影像、聲音和視訊生成。沒有固有的原因表明它們也不能用於生成文本,但到目前為止,基於 Transformer 的模型對於自然語言更有效。
語言模型
語言模型是指產生自然語言機率模型的任何機器學習技術。當今最著名的語言模型類型是 LLM,它接受大量原始資料的訓練,並使用基於轉換器的架構來產生文字。 (下一節將詳細介紹變壓器。)
在基於 Transformer 的模型出現之前,大多數最先進的語言模型都使用循環神經網路 (RNN)。 RNN 在節點之間的互連中引入小循環,以便除了像傳統前饋神經網路 (FNN) 一樣從當前訊號中學習之外,節點還可以從最近的訊號中學習。這對於處理或產生自然語言(例如文字流或語音輸入)非常重要。與圖像不同,語言具有高度的語境性——我們如何解釋它取決於之前發生的事情。
優點和缺點
由於「語言模型」指的是如此大的一組模型,因此很難概括它們的優缺點。語言建模的挑戰包括這樣一個事實:語言是如此高維——任何給定語言中都存在大量不同的單詞,並且某些組合可能永遠不會出現在訓練資料中。
此外,語言在很大程度上取決於序列中之前出現的上下文,要求網路以某種方式處理或表示該上下文。滿足這一需求的能力使得具有長期和短期記憶的 RNN 以及隨後可以處理整個句子的 Transformer 成為最先進的語言模型架構。
使用案例
語言模型可用於翻譯、摘要、文法糾錯、語音辨識以及更多任務。它們被用來在許多應用程式中產生新的創意文本內容,並被證明能夠進行高級推理,例如分析數據和解決邏輯難題。有趣的是,研究發現法學碩士的一項新興能力是空間意識和創建基本繪圖的能力,即使他們完全接受文本訓練。
基於變壓器的模型
Transformers 由 Google 和多倫多大學的研究人員於 2017 年發明,徹底改變了深度學習領域。像 ChatGPT 這樣的 LLM 是基於 Transformer 的模型,Google 搜尋結果也由 Transformer 提供支援。
基於 Transformer 的模型使用其訓練資料來學習不同單字之間的關係。例如,它可能會了解到蛋糕和派在概念上相似,而蛋糕和斗篷沒有直接關係。它還可能了解到slice可以連結到cake和pie ,特別是如果這些字出現得很接近的話。
在分析文本時,該模型使用這種基線理解來建立類似於大型電子表格的內容。它可以查找文本中的任意兩個單詞,並得到它們可能的相關程度的答案。
透過利用這些上下文線索,變壓器模型可以熟練地解釋語言並預測對話中的潛在連續性。例如,如果有人在一個片段中提到蛋糕,然後在下一個片段中討論他們的生日,則模型會根據已建立的語言聯繫預測最終會提到蠟燭或派對。
優點和缺點
在分析和產生語言方面,Transformer 比它們的前身 RNNS 有一些優勢。他們可以透過網路並行處理文本,而不是順序處理每個單字。這使得它們能夠更快、更有效率地在非常大的資料集上進行訓練。他們還可以在單字之間建立聯繫,無論它們相距多遠,從而使他們能夠利用文本中的更多上下文。
然而,Transformers 需要大量資料才能表現良好,並且對於較小的資料集,更傳統的神經網路架構可能會運作得更好。
使用案例
變形金剛有許多生成式人工智慧應用。雖然基於變壓器的模型通常用於生成文字或語音,但研究人員正在探索它們在圖像生成中的用途,因為它們的計算強度低於擴散模型。
最著名的是,法學碩士是基於變壓器的模型。語言模型僅使用該架構的解碼器部分。提示作為編碼(我們之前提到的一組數值、機率和注意力數據)輸入到模型中。該模型使用自註意力機制並並行查看提示中的所有單字來解碼輸入。這個模型的目標是輸出句子中下一個單字的預測。
除了在自然語言處理中產生文字之外,Transformer 還有許多應用。事實上,它們最初的構想是將文本從一種語言翻譯或轉換為另一種語言。 Grammarly 致力於使用 Transformer 修正語法錯誤的研究。
結論
生成式人工智慧模型在過去十年中取得了長足的進展。我們希望您現在能夠更多地了解這些模型的演變、它們的工作原理以及它們如何應用於不同的用例。然而,本文僅觸及表面,省略了許多重要細節,旨在為一般讀者提供概述。我們鼓勵您透過研究這些模型所依據的研究論文,並從機率和統計的角度更多地了解它們的工作原理,繼續了解這些模型背後的數學和科學。