Transformatör Modellerine Giriş: Nedirler ve Nasıl Çalışırlar?

Yayınlanan: 2024-08-07

Transformatörler yapay zekada, özellikle de doğal dil işlemede (NLP) çığır açan bir gelişmedir. Performansları ve ölçeklenebilirlikleri ile tanınan bu cihazlar, dil çevirisi ve konuşma yapay zekası gibi uygulamalarda hayati öneme sahiptir. Bu makale bunların yapısını, diğer sinir ağlarıyla karşılaştırmalarını ve artılarını ve eksilerini araştırıyor.

İçindekiler

Transformatör modeli nedir?
Transformers ve CNN'ler ve RNN'ler
Transformatör modelleri nasıl çalışır?
Transformatör modellerine örnekler
Avantajları
Dezavantajları

Transformatör modeli nedir?

Transformatör, NLP'de yaygın olarak kullanılan bir tür derin öğrenme modelidir. Görev performansı ve ölçeklenebilirliği nedeniyle GPT serisi (OpenAI tarafından yapılmıştır), Claude (Anthropic tarafından yapılmıştır) ve Gemini (Google tarafından yapılmıştır) gibi modellerin temelidir ve sektörde yaygın olarak kullanılmaktadır.

Derin öğrenme modelleri üç ana bileşenden oluşur: model mimarisi, eğitim verileri ve eğitim yöntemleri. Bu çerçevede transformatör bir tür model mimarisini temsil eder. Sinir ağlarının yapısını ve etkileşimlerini tanımlar. Transformatörleri diğer makine öğrenimi (ML) modellerinden ayıran en önemli yenilik, "dikkatin" kullanılmasıdır.

Dikkat, dönüştürücülerde, girdilerin verimli bir şekilde işlenmesini ve bilginin uzun diziler boyunca (örneğin bir makalenin tamamı) korunmasını sağlayan bir mekanizmadır.

İşte açıklamak için bir örnek. “Kedi nehrin kıyısındaki bankta oturuyordu. Daha sonra yakındaki ağacın dalına taşındı.” Buradaki “banka”nın para yatırdığınız banka olmadığını anlayabilirsiniz. Bunu anlamak için muhtemelen "nehir" bağlam ipucunu kullanırsınız. Dikkat de benzer şekilde çalışır; her kelimenin ne anlama geldiğini tanımlamak için diğer kelimeleri kullanır. Örnekte “o” neyi ifade ediyor? Model, cevabın "kedi" olduğunu anlamak için "taşındı" ve "ağaç" kelimelerine ipucu olarak bakacak.

Cevaplanmayan önemli soru, modelin hangi kelimelere bakacağını nasıl bildiğidir. Buna biraz sonra değineceğiz. Ancak artık trafo modelini tanımladığımıza göre neden bu kadar yoğun kullanıldığını biraz daha açıklayalım.

Grammarly ile daha akıllıca çalışın

Yapacak işi olan herkesin yapay zeka yazma ortağı

Transformers ve CNN'ler ve RNN'ler

Tekrarlayan sinir ağları (RNN'ler) ve evrişimli sinir ağları (CNN'ler), diğer iki yaygın derin öğrenme modelidir. RNN'lerin ve CNN'lerin yararları olsa da transformatörler daha yaygın olarak kullanılır çünkü uzun girdileri çok daha iyi idare ederler.

Transformatörler ve RNN'ler

Tekrarlayan sinir ağları sıralı modellerdir. Uygun bir benzetme, kitap okuyan bir insandır. Kelime kelime okudukça hafızaları ve kitaba dair anlayışları gelişir. Zeki okuyucular, daha önce olup bitenlere dayanarak bundan sonra ne olacağını bile tahmin edebilirler. Bir RNN de aynı şekilde çalışır. Kelime kelime okur, hafızasını günceller (gizli durum olarak adlandırılır) ve ardından bir tahminde bulunabilir (örneğin, cümledeki bir sonraki kelime veya bir metnin duygusu). Dezavantajı ise gizli durumun çok fazla bilgi tutamamasıdır. Bir kitabın tamamını bir RNN'ye doldurursanız, giriş bölümleriyle ilgili pek fazla ayrıntıyı hatırlamaz çünkü gizli durumunda çok fazla alan vardır. Daha sonraki bölümler gizli duruma daha yakın zamanda eklendiği için öncelik kazanır.

Transformatörler aynı hafıza problemini yaşamazlar. Girdideki her kelimeyi diğer tüm kelimelerle karşılaştırırlar (dikkat mekanizmasının bir parçası olarak), böylece gizli bir durumu kullanmalarına veya daha önce olanları "hatırlamalarına" gerek kalmaz. Aynı kitap benzetmesini kullanırsak, transformatör bir insanın kitaptaki bir sonraki kelimeyi okuması ve ardından yeni kelimeyi doğru bir şekilde anlamak için kitaptaki her önceki kelimeye bakmasına benzer. Bir kitabın ilk cümlesi "Fransa'da doğdu" ibaresini içeriyorsa ve bir kitabın son cümlesi "ana dili" ibaresini içeriyorsa, dönüştürücü onun ana dilinin Fransızca olduğu sonucunu çıkarabilir. Gizli durumun bu bilgiyi tutacağı garanti edilmediğinden, bir RNN bunu yapamayabilir. Ek olarak, bir RNN'nin her kelimeyi teker teker okuması ve ardından gizli durumunu güncellemesi gerekir. Bir transformatör dikkatini paralel olarak uygulayabilir.

Transformers ve CNN'ler

Evrişimli sinir ağları, anlam atamak için her bir öğenin çevreleyen bağlamını bir sırayla kullanır. Bir sayfadaki bir kelime için CNN'ler, kelimenin anlamını anlamak için onu hemen çevreleyen kelimelere bakardı. Bir kitabın son ve ilk sayfasını birbirine bağlayamaz. CNN'ler ağırlıklı olarak görsellerle birlikte kullanılıyor çünkü pikseller genellikle komşularıyla kelimelerden çok daha fazla ilişki kuruyor. Bununla birlikte, CNN'ler NLP için de kullanılabilir.

Transformatörler, bir öğenin yakın komşularından daha fazlasına bakmaları açısından CNN'lerden farklıdır. Her kelimeyi girdideki diğer kelimelerle karşılaştırmak için bir dikkat mekanizması kullanırlar ve bağlamın daha geniş ve daha kapsamlı anlaşılmasını sağlarlar.

Transformatör modelleri nasıl çalışır?

Transformatörlerin dikkat blokları, ileri beslemeli sinir ağları ve yerleştirme katmanları vardır. Model, metin tabanlı bir girdi alır ve çıktı metnini döndürür. Bunu yapmak için şu adımları takip eder:

Belirteçleştirme:Metni belirteçlere dönüştürür (bir cümleyi tek tek kelimelere ayırmaya benzer).
Gömme:Konumsal yerleştirmeleri birleştirerek jetonları vektörlere dönüştürür, böylece model jetonun girişteki konumunu anlar.
Dikkat mekanizması:Kişisel dikkati (giriş belirteçleri için) veya çapraz dikkati (giriş belirteçleri ile oluşturulan belirteçler arasında) kullanarak belirteçleri işler. Bu mekanizma, modelin çıktı üretirken farklı tokenlerin önemini tartmasına olanak tanır.
İleri beslemeli sinir ağı:Sonucu, doğrusal olmayan bir durum sunarak modelin karmaşık modelleri yakalamasına olanak tanıyan ileri beslemeli bir sinir ağı üzerinden iletir.
Tekrarlama:Çıktıyı iyileştirmek için 3-4 arasındaki adımlar birkaç katman boyunca birden çok kez tekrarlanır.
Çıktı dağıtımı:Tüm olası tokenler üzerinde bir olasılık dağılımı üretir.
Token seçimi:En yüksek olasılığa sahip tokenı seçer.

Bu işlem transformatör modelinden bir ileri geçiş oluşturur. Model, çıktı metnini tamamlayana kadar bunu tekrar tekrar yapar. Her geçişte yerleştirme süreci, dikkat mekanizması ve ileri besleme aşaması gibi paralel olarak gerçekleştirilebilir. Esasen transformatörün her jetonu teker teker yapmasına gerek yoktur. Dikkatleri aynı anda tüm tokenlara yönlendirebilir.

Artık daha önceki soruya dönebiliriz: Model hangi tokenlarla ilgileneceğini nasıl biliyor? Cevap, çok sayıda eğitim verisine bakmaktır. İlk başta model yanlış tokenları ele alacak ve dolayısıyla yanlış çıktılar üretecektir. Eğitim verileriyle birlikte gelen doğru çıktıyı kullanarak, dikkat mekanizması bir dahaki sefere doğru cevabı verecek şekilde değiştirilebilir. Milyarlarca (ve hatta trilyonlarca) örnekten fazla olan dikkat mekanizması, neredeyse her zaman uygun belirteçleri seçebilmektedir.

Transformatör modellerine örnekler

Transformatörler her yerde. Her ne kadar ilk başta çeviri için tasarlanmış olsa da, transformatörler neredeyse tüm dil, görüntü ve hatta ses görevlerine iyi bir şekilde ölçeklendirilmiştir.

Büyük dil modelleri

Transformatör mimarisi neredeyse tüm büyük dil modellerine (LLM'ler) güç sağlar: GPT, Claude, Gemini, Llama ve birçok küçük açık kaynaklı model. Yüksek Lisans'lar soru cevaplama, sınıflandırma ve serbest biçim oluşturma gibi çeşitli metin (ve giderek daha fazla görüntü ve ses) görevlerini yerine getirebilir.

Bu, transformatör modelinin milyarlarca metin örneği (genellikle internetten alınan) üzerinde eğitilmesiyle elde edilir. Daha sonra şirketler, modele sınıflandırmanın nasıl doğru şekilde yapılacağını öğretmek için sınıflandırma örnekleri üzerinde modele ince ayar yapar. Kısacası, model geniş bir bilgi tabanını öğrenir ve ardından ince ayar yoluyla becerilere "öğretilir".

Görüş transformatörleri

Görüntü transformatörleri, görüntüler üzerinde çalışmaya uyarlanmış standart transformatörlerdir. Temel fark, tokenizasyon sürecinin metin yerine görsellerle çalışması gerektiğidir. Giriş jetonlara dönüştürüldükten sonra normal transformatör hesaplaması gerçekleşir ve son olarak çıktı jetonları görüntüyü (örneğin bir kedi görüntüsü) sınıflandırmak için kullanılır. Vizyon transformatörleri genellikle multimodal LLM'ler oluşturmak için metin LLM'leriyle birleştirilir. Bu çok modlu modeller, bir kullanıcı arayüzü taslağını kabul etmek ve onu oluşturmak için gereken kodu geri almak gibi bir görüntüyü alıp onun üzerinde mantık yürütebilir.

CNN'ler görüntü görevleri için de popülerdir, ancak transformatörler modelin yalnızca yakındaki pikseller yerine görüntüdeki tüm pikselleri kullanmasına olanak tanır. Örnek olarak, bir görüntünün en sol tarafında bir dur işareti ve en sağ tarafında bir araba varsa, model arabanın durması gerektiğini belirleyebilir. Bir CNN, görüntüde birbirlerinden uzakta oldukları için bu iki veri noktasını birbirine bağlayamayabilir.

Ses transformatörleri

Ses transformatörleri, görüntü transformatörleri gibi, ses verileri için özel olarak tasarlanmış benzersiz bir tokenizasyon şemasına sahip standart transformatörlerdir. Bu modeller hem metni hem de ham sesi giriş olarak işleyebilir ve metin veya ses çıkışı sağlayabilir. Bunun bir örneği, ham sesi bir metne dönüştüren konuşmayı metne dönüştürme modeli olan Whisper'dır. Bunu, sesi parçalara ayırarak, bu parçaları spektrogramlara dönüştürerek ve spektrogramları yerleştirmeler halinde kodlayarak başarır. Bu yerleştirmeler daha sonra nihai transkript jetonlarını üreten transformatör tarafından işlenir.

Konuşmayı metne dönüştürme uygulamalarının ötesinde, ses transformatörlerinin müzik oluşturma, otomatik altyazı ekleme ve ses dönüştürme dahil olmak üzere çeşitli başka kullanım durumları vardır. Ek olarak şirketler, ses tabanlı etkileşimleri mümkün kılmak için ses transformatörlerini Yüksek Lisans'lara entegre ediyor ve kullanıcıların sesli komutlar aracılığıyla soru sormasına ve yanıt almasına olanak tanıyor.

Transformatör modellerinin avantajları

Transformatörler, ölçeklenebilirlikleri ve çok çeşitli görevlerde olağanüstü performansları nedeniyle makine öğrenimi alanında her yerde bulunur hale geldi. Başarıları birkaç temel faktöre bağlanıyor:

Uzun bağlam

Dikkat mekanizması, giriş dizisindeki tüm jetonları birbiriyle karşılaştırabilir. Böylece girdinin tamamındaki bilgiler hatırlanacak ve çıktıyı oluşturmak için kullanılacaktır. Bunun aksine, RNN'ler eski bilgileri unutur ve CNN'ler yalnızca her tokene yakın olan bilgileri kullanabilir. Bu nedenle bir LLM chatbot'una yüzlerce sayfa yükleyebilir, sayfalardan herhangi biri hakkında soru sorabilir ve doğru yanıt alabilirsiniz. RNN'lerde ve CNN'lerde uzun bağlamın olmaması, transformatörlerin görevlerde onları geride bırakmasınınen büyüknedenidir.

Paralelleştirilebilirlik

Transformatörlerdeki dikkat mekanizması, giriş sırasındaki tüm jetonlar boyunca paralel olarak yürütülebilir. Bu, belirteçleri sırayla işleyen RNN'lerle çelişir. Sonuç olarak transformatörler daha hızlı eğitilip konuşlandırılabilir ve böylece kullanıcılara daha hızlı yanıt verilebilir. Bu paralel işlem yeteneği, RNN'lere kıyasla transformatörlerin verimliliğini önemli ölçüde artırır.

Ölçeklenebilirlik

Araştırmacılar, transformatörlerin boyutunu ve onları eğitmek için kullanılan veri miktarını sürekli olarak artırdı. Henüz transformatörlerin ne kadar öğrenebileceğinin bir sınırını görmediler. Transformatör modeli ne kadar büyük olursa, anlayabileceği ve oluşturabileceği metin de o kadar karmaşık ve incelikli olur (GPT-3'te 175 milyar parametre bulunurken GPT-4'te 1 trilyondan fazla parametre vardır). Dikkat çekici bir şekilde, 1 milyar parametreli bir modele kıyasla 10 milyar parametreli bir model oluşturmak gibi transformatör modellerinin ölçeğini büyütmek, önemli ölçüde daha fazla zaman gerektirmez. Bu ölçeklenebilirlik, transformatörleri çeşitli gelişmiş uygulamalar için güçlü araçlar haline getirir.

Transformatör modellerinin dezavantajları

Transformatör modellerinin dezavantajı, çok fazla hesaplama kaynağı gerektirmeleridir. Dikkat mekanizması ikinci derecedendir: girdideki her jeton diğer jetonlarla karşılaştırılır. İki jetonun 4 karşılaştırması olur, üç jetonun 9, dört jetonun 16 karşılaştırması olur ve bu şekilde devam eder; esasen hesaplama maliyeti, jeton sayısının karesidir. Bu ikinci dereceden maliyetin birkaç sonucu vardır:

Özel donanım

Yüksek Lisans'lar ortalama bir bilgisayarda kolayca çalıştırılamaz. Boyutlarından dolayı, model parametrelerini yüklemek için genellikle düzinelerce gigabayt RAM gerektirirler. Ayrıca geleneksel CPU'lar paralel hesaplama için optimize edilmemiştir; bunun yerine bir GPU gereklidir. CPU üzerinde çalışan bir LLM'nin tek bir token oluşturması dakikalar sürebilir. Ne yazık ki GPU'lar tam olarak en ucuz veya en erişilebilir donanım değildir.

Sınırlı giriş uzunluğu

Transformatörlerin işleyebilecekleri sınırlı miktarda metin vardır (bağlam uzunlukları olarak bilinir). GPT-3 başlangıçta yalnızca 2.048 jetonu işleyebiliyordu. Dikkat uygulamalarındaki ilerlemeler, bağlam uzunluğu 1 milyona kadar olan modeller ortaya çıkardı. Öyle olsa bile, bağlam uzunluğunun her bir ekstra belirtecini bulmak için önemli araştırmalara ihtiyaç vardır. Bunun aksine, RNN'lerin maksimum içerik uzunluğu yoktur. Girdi arttıkça doğrulukları da büyük ölçüde düşüyor, ancak şu anda 2 milyon jeton uzunluğundaki bir girdiyi tek bir girdiye besleyebilirsiniz.

Enerji maliyeti

Transformatör hesaplamasına güç veren veri merkezleri, onları çalıştırmak için enerjiye ve soğutmak için suya ihtiyaç duyar. Bir tahmine göre, GPT-3'ün eğitilmesi için 1.300 megawatt-saat elektrik gerekiyordu; bu, ABD'de bir yıl boyunca 130 eve elektrik sağlamaya eşdeğerdi. Modeller büyüdükçe ihtiyaç duyulan enerji miktarı da artar. Yapay zeka endüstrisi 2027 yılına kadar her yıl Hollanda'daki kadar elektriğe ihtiyaç duyabilir. Enerji trafosu ihtiyacını azaltmak için ciddi çalışmalar yapılıyor ancak bu sorun henüz çözülmedi.