Transformer 模型簡介：它們是什麼以及它們如何運作

已發表: 2024-08-07

Transformer 是人工智慧領域的突破，尤其是在自然語言處理 (NLP) 領域。它們以其性能和可擴展性而聞名，在語言翻譯和對話式人工智慧等應用中至關重要。本文探討了它們的結構、與其他神經網路的比較以及它們的優缺點。

什麼是變壓器模型？
Transformer 與 CNN 和 RNN
變壓器模型如何運作
變壓器模型範例
優點
缺點

什麼是變壓器模型？

Transformer 是一種廣泛應用於 NLP 中的深度學習模型。由於其任務性能和可擴展性，它是GPT系列（OpenAI製造）、Claude（Anthropic製造）和Gemini（Google製造）等模型的核心，並在整個行業中廣泛應用。

深度學習模型由三個主要部分組成：模型架構、訓練資料和訓練方法。在這個框架內，變壓器代表一種模型架構。它定義了神經網路的結構及其相互作用。 Transformer 與其他機器學習 (ML) 模型的關鍵創新在於「注意力」的使用。

注意力是 Transformer 中的一種機制，使它們能夠有效地處理輸入並維護長序列（例如整篇文章）的資訊。

下面舉一個例子來說明。「那隻貓坐在河邊。然後它就移到附近樹的樹枝上。你可以認清這裡的「銀行」並不是你存錢的銀行。您可能會使用“河流”的上下文線索來解決這個問題。注意力的作用類似；它使用其他單字來定義每個單字的意思。例子中的「it」指的是什麼？這個模型會將「移動」和「樹」這兩個詞視為線索，以認識到答案是「貓」。

尚未解答的重要問題是模型如何知道要查看哪些單字。我們稍後會討論這個問題。現在我們已經定義了變壓器模型，讓我們進一步解釋為什麼它被如此頻繁地使用。

使用 Grammarly 更聰明地工作

任何有工作要做的人的人工智慧寫作夥伴

Transformer 與 CNN 和 RNN

循環神經網路（RNN）和卷積神經網路（CNN）是另外兩種常見的深度學習模型。雖然 RNN 和 CNN 有其優點，但 Transformer 的使用更為廣泛，因為它們可以更好地處理長輸入。

Transformer 與 RNN

循環神經網路是順序模型。一個恰當的比喻是一個人在讀書。當他們逐字閱讀時，他們對書的記憶和理解不斷發展。對於精明的讀者來說，他們甚至可能根據之前發生的事情來預測接下來會發生什麼。 RNN 以相同的方式運作。它逐字讀取，更新其記憶（稱為隱藏狀態），然後可以做出預測（例如，句子中的下一個單字或某些文字的情緒）。缺點是隱藏狀態不能容納太多資訊。如果您將整本書輸入 RNN，它不會記住有關介紹章節的許多細節，因為其隱藏狀態下的空間有限。後面的章節由於最近被添加到隱藏狀態而獲得優先權。

變形金剛不會遇到同樣的記憶體問題。他們將輸入中的每個單字與其他單字進行比較（作為注意力機制的一部分），因此他們不需要使用隱藏狀態或「記住」之前發生的事情。使用同一本書的類比，變壓器就像一個人閱讀書中的下一個單詞，然後查看書中前面的每個單詞以正確理解新單詞。如果一本書的第一句包含短語“他出生在法國”，而一本書的最後一句包含短語“他的母語”，則變壓器將能夠推斷出他的母語是法語。 RNN 可能無法做到這一點，因為隱藏狀態無法保證保留該資訊。此外，RNN 需要一次讀取每個單字，然後更新其隱藏狀態。變壓器可以並行地應用它的注意力。

Transformer 與 CNN

卷積神經網路使用序列中每個項目的周圍上下文來分配含義。對於頁面上的某個單詞，CNN 會查看緊鄰該單字周圍的單詞，以找出該單字的含義。它無法連接一本書的最後一頁和第一頁。 CNN 主要用於圖像，因為像素與其鄰居的相關性通常比單字的相關性高得多。也就是說，CNN 也可用於 NLP。

Transformer 與 CNN 的不同之處在於，它們不僅僅關注某個專案的直接鄰居。他們使用注意力機制將輸入中的每個單字與其他單字進行比較，從而提供對上下文更廣泛、更全面的理解。

變壓器模型如何運作？

Transformer 具有多層注意力模組、前饋神經網路和嵌入。該模型接受基於文字的輸入並返回輸出文字。為此，它遵循以下步驟：

標記化：將文字轉換為標記（類似於將句子分解為單字）。
嵌入：將標記轉換為向量，並結合位置嵌入，以便模型了解標記在輸入中的位置。
注意機制：使用自註意力（對於輸入令牌）或交叉注意力（在輸入令牌和生成令牌之間）處理令牌。這種機制允許模型在產生輸出時權衡不同令牌的重要性。
前饋神經網路：將結果透過前饋神經網路傳遞，該網路允許模型透過引入非線性來捕捉複雜的模式。
重複：透過多個層重複步驟多次 3-4，以細化輸出。
輸出分佈：產生所有可能標記的機率分佈。
令牌選擇：選擇機率最高的令牌。

這個過程構成了變壓器模型的一次前向傳遞。該模型會重複執行此操作，直到完成輸出文字為止。在每次傳遞中，嵌入過程可以並行執行，注意力機制和前饋階段也可以並行執行。本質上，變壓器不需要一次處理每個令牌。它可以同時關注所有代幣。

我們現在可以轉向先前的問題：模型如何知道要關注哪些代幣？答案很簡單，只需查看大量訓練資料即可。首先，模型會處理錯誤的標記，因此會產生錯誤的輸出。使用訓練資料附帶的正確輸出，可以修改注意力機制以在下次輸出正確答案。在數十億（甚至數萬億）個範例中，注意力機制幾乎總是可以選擇正確的標記。

變壓器模型範例

變形金剛無所不在。雖然 Transformer 最初是為翻譯而設計的，但它已經可以很好地擴展到幾乎所有語言、視覺甚至音訊任務。

大型語言模型

Transformer 架構支援幾乎所有大型語言模型 (LLM)：GPT、Claude、Gemini、Llama 和許多較小的開源模型。法學碩士可以處理各種文本（以及越來越多的圖像和音訊）任務，例如問答、分類和自由格式生成。

這是透過數十億個文字範例（通常從互聯網上抓取）訓練 Transformer 模型來實現的。然後，公司根據分類範例對模型進行微調，以教導模型如何正確執行分類。簡而言之，該模型學習廣泛的知識庫，然後透過微調「教授」技能。

視覺變形金剛

視覺變壓器是適用於影像的標準變壓器。主要區別在於標記化過程必須使用圖像而不是文字。一旦輸入變成標記，就會發生正常的轉換器計算，最後，輸出標記用於對影像進行分類（例如，貓的影像）。視覺轉換器通常與文本法學碩士合併形成多模式法學碩士。這些多模態模型可以接收圖像並對其進行推理，例如接受使用者介面草圖並獲取創建它所需的程式碼。

CNN 在圖像任務中也很流行，但 Transformer 允許模型使用圖像中的所有像素，而不僅僅是附近的像素。例如，如果圖像最左側包含停車標誌，最右側包含汽車，則模型可以確定汽車需要停車。 CNN 可能無法連接這兩個數據點，因為它們在圖像中彼此相距較遠。

音頻變壓器

音頻變壓器與視覺變壓器一樣，都是標準變壓器，具有專為音頻數據量身定制的獨特標記化方案。這些模型可以處理文字和原始音訊作為輸入，輸出文字或音訊。 Whisper 就是一個例子，它是一種將原始音訊轉換為文字記錄的語音到文字模型。它透過將音訊分割成區塊，將這些區塊轉換成頻譜圖，並將頻譜圖編碼成嵌入來實現這一點。然後，這些嵌入由轉換器處理，產生最終的轉錄標記。

除了語音到文字應用程式之外，音訊轉換器還有各種其他用例，包括音樂生成、自動字幕和語音轉換。此外，該公司正在將音訊變壓器與法學碩士集成，以實現基於語音的交互，允許用戶透過語音命令提出問題並接收回應。

變壓器型號的優點

由於其在各種任務中的可擴展性和卓越性能，Transformer 在機器學習領域變得無處不在。他們的成功歸功於幾個關鍵因素：

長情境

注意力機制可以將輸入序列中的所有標記進行相互比較。因此，整個輸入中的信息將被記住並用於產生輸出。相較之下，RNN 會忘記較舊的訊息，而 CNN 只能使用與每個 token 接近的訊息。這就是為什麼您可以將數百個頁面上傳到 LLM 聊天機器人，向其詢問有關任何頁面的問題，並獲得準確的答案。 RNN 和 CNN 缺乏長上下文是 Transformer 在任務中擊敗它們的最大原因。

平行性

變壓器中的注意力機制可以在輸入序列中的所有標記上並行執行。這與 RNN 形成鮮明對比，RNN 順序處理標記。因此，變壓器可以更快地進行培訓和部署，從而為使用者提供更快的回應。與 RNN 相比，這種平行處理能力顯著提高了 Transformer 的效率。

可擴展性

研究人員不斷增加變壓器的尺寸和用於訓練它們的資料量。他們還沒有看到 Transformer 可以學習的數量的限制。 Transformer 模型越大，它可以理解和產生的文本就越複雜和細緻（GPT-3 有 1750 億個參數，而 GPT-4 有超過 1 兆個參數）。值得注意的是，擴大 Transformer 模型（例如與 10 億參數模型相比創建 100 億參數模型）並不需要明顯更多的時間。這種可擴展性使 Transformer 成為各種高級應用程式的強大工具。

變壓器模型的缺點

變壓器模型的缺點是它們需要大量的計算資源。注意力機制是二次的：輸入中的每個標記都會與其他每個標記進行比較。兩個令牌將進行 4 次比較，三個令牌將進行 9 次比較，四個令牌將進行 16 次比較，依此類推 — 本質上，計算成本是令牌計數的平方。這個二次方成本有幾個意義：

專用硬體

LLM 無法輕鬆在普通計算機上運作。由於其尺寸，它們通常需要數十 GB 的 RAM 來載入模型參數。此外，傳統 CPU 並未針對平行計算進行最佳化。相反，需要 GPU。在 CPU 上運行的 LLM 可能需要幾分鐘才能產生單一令牌。不幸的是，GPU 並不是最便宜或最容易使用的硬體。

輸入長度有限

Transformer 可以處理的文字量有限（稱為上下文長度）。 GPT-3 最初只能處理 2,048 個令牌。注意力實現的進步已經產生了上下文長度高達 100 萬個標記的模型。即便如此，仍需要大量研究來找到每個上下文長度的額外標記。相反，RNN 沒有最大上下文長度。隨著輸入的增加，它們的準確性會大大下降，但您現在可以將 200 萬個令牌長的輸入輸入其中。

能源成本

為變壓器計算供電的資料中心需要能量來運行它們，並需要水來冷卻它們。據估計，GPT-3 的訓練需要 1,300 兆瓦時的電力：相當於為美國 130 個家庭提供一整年的電力。隨著模型變得越來越大，所需的能量也會增加。到 2027 年，人工智慧產業每年所需的電力可能與荷蘭一樣多。人們正在做出重大努力來減少能源變壓器的需求，但這個問題尚未解決。