Üretken Yapay Zeka Modelleri, Açıklaması
Yayınlanan: 2024-04-15Üretken yapay zeka modellerini düşündüğünüzde, muhtemelen son yıllarda büyük bir sıçrama yaratan büyük dil modellerini (LLM'ler) düşünürsünüz. Bununla birlikte, üretken yapay zekanın kendisi onlarca yıl öncesine dayanıyor ve Yüksek Lisans yalnızca en son evrimdir. Ve yüksek lisansların yanı sıra, görüntü oluşturmak için kullanılan yayılma modelleri gibi farklı üretken yapay zeka araçları ve kullanım durumları için birçok farklı türde üretken yapay zeka modeli kullanılır.
Bu makalede, üretken yapay zeka modellerinin ne olduğunu, nasıl geliştirildiklerini açıklayacağız ve günümüzün en yaygın üretken yapay zeka modellerinden bazılarına daha derinlemesine bir bakış sunacağız. arkadaşlarınız ve meslektaşlarınız, makine öğrenimi (ML) konusunda üniversite kursu almanıza gerek kalmadan.
Üretken yapay zeka modeli nedir?
Üretken yapay zeka modelleri, eğitim verilerinin özelliklerini yansıtan yeni, orijinal içerik oluşturma konusunda uzmanlaşmış yapay zeka sistemlerinin bir alt kümesidir. Verilerdeki kalıplardan ve ilişkilerden öğrenerek bu modeller, kaynak materyallerinin stiline, tonuna ve nüanslarına benzeyen metin, resim, ses veya video gibi çıktılar üretebilir. Bu yetenek, girdi verilerini yorumlayıp yeni yaratımlara dönüştürerek farklı alanlarda yaratıcı ve dinamik uygulamalara olanak tanıyarak, üretken yapay zekayı inovasyonun merkezine yerleştiriyor.
Üretken yapay zeka modelleri nasıl çalışır?
Üretken yapay zeka modelleri, sinir ağı olarak bilinen makine öğrenimi algoritmasının karmaşık bir formundan yararlanarak çalışır. Bir sinir ağı, her biri bir bilgisayar kodu parçacığıyla temsil edilen, birbirine bağlı düğümlerden oluşan birden fazla katmandan oluşur. Bu düğümler küçük, bireysel görevleri yerine getirir ancak kolektif olarak karmaşık kararların alınmasına katkıda bulunur ve insan beynindeki nöron işlevselliğini yansıtır.
Örnek olarak, turta ve kek görsellerini ayırt etmekle görevli bir sinir ağını düşünün. Ağ, görüntüyü granüler düzeyde analiz ederek piksellere böler. Çok temel düzeyde, ağda farklı pikselleri ve piksel gruplarını anlamaya adanmış farklı düğümler olacaktır. Belki bazıları tatlıda katman olup olmadığına bakacak, bazıları ise krema veya kabuk olup olmadığına karar verecek. Düğümlerin her biri, pasta ve pastanın neye benzediğine ilişkin özellikler hakkında bilgi depolar ve ne zaman yeni bir görüntü ortaya çıksa, bu, nihai bir tahminin çıktısı olmak üzere her bir düğüm aracılığıyla işlenir.
Üretken yapay zeka bağlamında bu prensip, basitçe tanınmanın ötesine geçerek yeni, orijinal içerik yaratılmasına kadar uzanır. Üretken modeller, yalnızca özellikleri tanımlamak yerine, üzerinde eğitim aldıkları verilerin temel kalıplarını ve yapılarını anlamak için sinir ağlarını kullanır. Bu süreç, üretilen çıktının yaratıcılığını ve doğruluğunu optimize etmek için tasarlanmış algoritmalar tarafından yönlendirilen sinir ağı içindeki karmaşık etkileşimleri ve ayarlamaları içerir.
Üretken yapay zeka modelleri nasıl geliştirilir?
Üretken yapay zeka modellerinin geliştirilmesi, genellikle araştırmacı ve mühendislerden oluşan ekipler tarafından gerçekleştirilen bir dizi karmaşık ve birbiriyle ilişkili adımı içerir. OpenAI ve diğer benzer mimarilerden GPT (üretken önceden eğitilmiş transformatör) gibi bu modeller, üzerinde eğitim aldıkları verilerin dağıtımını taklit eden yeni içerik oluşturmak üzere tasarlanmıştır.
İşte bu sürecin adım adım dökümü:
1 Veri toplama
Veri bilimcileri ve mühendisleri öncelikle projelerinin hedeflerini ve gereksinimlerini belirler, bu da onları geniş ve uygun bir veri seti toplamaya yönlendirir. Genellikle ihtiyaçları için çok miktarda metin veya resim sunan halka açık veri kümelerini kullanırlar. Örneğin, ChatGPT'nin (GPT-3.5) eğitimi, Vikipedi içeriğinin neredeyse tamamı dahil olmak üzere, kamuya açık internet kaynaklarından alınan 300 milyar kelimeye eşdeğer olan 570 GB verinin işlenmesini içeriyordu.
2 Model seçimi
Doğru model mimarisini seçmek, üretken yapay zeka sistemlerinin geliştirilmesinde kritik bir adımdır. Karar, eldeki görevin doğasına, mevcut veri türüne, istenen çıktı kalitesine ve hesaplama kısıtlamalarına göre yönlendirilir. VAE'ler, GAN'lar ve transformatör tabanlı ve difüzyon modelleri dahil olmak üzere belirli mimariler, bu makalenin ilerleyen kısımlarında daha ayrıntılı olarak ele alınacaktır. Bu aşamada yeni modellerin genellikle önceden var olan bir mimari çerçeveden başladığını anlamak önemlidir. Bu yaklaşım, kanıtlanmış yapılardan yararlanarak eldeki projenin benzersiz gereksinimlerine göre uyarlanmış iyileştirmelere ve yeniliklere olanak tanır.
3 Model eğitimi
Seçilen model, ilk adımdan itibaren toplanan veri seti kullanılarak eğitilir. Üretken yapay zeka modellerinin eğitimi genellikle GPU'lar (grafik işlem birimleri) ve TPU'lar (tensör işlem birimleri) gibi özel donanımlar kullanılarak büyük miktarda bilgi işlem gücü gerektirir. Eğitim yaklaşımı model mimarisine göre değişiklik gösterse de tüm modeller hiperparametre ayarı adı verilen bir süreçten geçer. Veri bilimcilerin en iyi sonuçları elde etmek için belirli performans ayarlarını yaptığı yer burasıdır.
4 Değerlendirme ve ince ayar
Son olarak model performansı gerçek dünyada değerlendirilir veya test edilir. Üretken yapay zeka modellerini değerlendirmek, geleneksel makine öğrenimi modellerini değerlendirmekten farklıdır çünkü üretken yapay zeka tamamen yeni bir çıktı oluşturur ve bu çıktının kalitesi öznel olma eğilimindedir. Metrikler, modelin yarattığı şeye göre farklılık gösterir ve üretken yapay zekaya yönelik değerlendirme teknikleri genellikle insan değerlendiricilerin kullanılmasını içerir ve üretken yapay zeka modellerinin birbirini değerlendirmesini sağlama stratejisini kullanabilir. Değerlendirme aşamasından edinilen bilgiler genellikle modelin ince ayarının yapılmasına ve hatta yeniden eğitilmesine uygulanır. Modelin performansı doğrulandıktan sonra üretime hazır hale gelir.
Üretken yapay zeka modeli türleri
Üretken yapay zeka modelleri ve bunlara güç veren sinir ağları hakkındaki temel bilgimize dayanarak, şimdi 2010'ların başından bu yana ortaya çıkan belirli model mimarisi türlerine dalmaya hazırız. Her modelin benzersiz güçlü ve zayıf yönlerinin yanı sıra pratik uygulamalarını da keşfedeceğiz.
İşte tartışacağımız modellere kısa bir genel bakış:
- Değişken otomatik kodlayıcılar (VAE'ler)karmaşık veri dağıtımlarını öğrenme konusunda uzmandır ve genellikle görüntü oluşturma ve düzenleme gibi görevlerde kullanılır.
- Üretken rakip ağlar (GAN'lar),son derece gerçekçi görüntüler oluşturma yetenekleriyle bilinir ve çeşitli yaratıcı uygulamalarda popüler hale gelir.
- Difüzyon modelleri,kademeli olarak gürültü ekleme ve ardından çıkarma işlemi yoluyla yüksek kaliteli örnekler üreten daha yeni bir model sınıfıdır.
- Dil modelleri,insan dilini anlama ve oluşturma konusunda üstündür ve bu da onları sohbet robotları ve metin tamamlama gibi uygulamalar için yararlı kılar.
- Transformatör tabanlı modellerbaşlangıçta doğal dil işleme (NLP) görevleri için tasarlandı ancak sıralı verileri işleme konusundaki güçlü yetenekleri nedeniyle üretken modellerde kullanılmak üzere uyarlandı.
Nasıl çalıştıklarını ve en iyi nerede uygulanabileceklerini anlamak için bu mimarilerin her birini daha derinlemesine inceleyelim.
Değişken otomatik kodlayıcılar (VAE'ler)
Varyasyonel otomatik kodlayıcılar, 2013 yılında Max Welling ve Diederik P. Kingma tarafından icat edildi. Bir sinir ağının, modelin eğitim adımı sırasında öğrendiği üst düzey kavramları kodlayabildiği gerçeğine dayanıyorlar. Buna bazen ham verilerin "sıkıştırılması" veya "projeksiyon" adı verilir.
Örneğin bir model bir pasta görseline bakarsa, bunu görselin tüm özelliklerini (serpintiler, krema rengi, süngerimsi katmanlar vb.) içeren bir kodlamaya dönüştürebilir. Bu kodlama, anlamlı olan bir sayı dizisine benzer. model ama insanlara değil. Orijinal görüntüyü yeniden oluşturmaya çalışmak için başka bir sinir ağı tarafından kodu çözülebilir; ancak kodlama bir sıkıştırma olduğundan bazı boşluklar olacaktır. Kodlayıcı ve kod çözücü parçalarının birlikte çalıştığı bu tür modele otomatik kodlayıcı adı verilir.
Varyasyonel otomatik kodlayıcılar, yeni çıktılar oluşturmak için otomatik kodlayıcı fikrine bir yön verir. VAE, kodlamalarını oluştururken ayrık sayılar yerine olasılıkları kullanır. Sonuçta çırpılmış krema krema olarak sayılır mı? Bazen evet; bazen hayır.
Bu olasılıksal kodlamaları oluşturmak için bir sinir ağını eğitirseniz ve bunların kodunu çözmek için başka bir sinir ağını eğitirseniz, oldukça ilginç sonuçlar elde edebileceğiniz ortaya çıktı. Kod çözücü, varyasyonel kodlama "uzayındaki" noktaları örnekleyebilir ve eğitim verilerinin olasılıksal ilişkilerini korudukları için yine de gerçekçi görünecek tamamen yeni çıktılar oluşturabilir.
Avantajları ve dezavantajları
Varyasyonel otomatik kodlayıcılar denetimsiz öğrenmeyi kullanır; bu, modelin, insanların farklı özellikleri veya sonuçları etiketlemesine gerek kalmadan ham verilerden kendi başına öğrenmesi anlamına gelir. Bu tür modeller özellikle orijinalinden biraz sapan içerikler oluşturma konusunda başarılıdır. Kodlamalarla çalışma şekilleri nedeniyle, onlara eğitim verilerinin özelliklerine dayalı olarak özel talimatlar da verilebilir: "Bana pasta ile pasta arasındaki mükemmel orta noktayı temsil eden bir tatlı gösterin." Bununla birlikte, VAE'ler olası sonuçlar için optimizasyon yaptıklarından, çok orijinal veya çığır açıcı içerik oluşturma konusunda başarılı olmaları pek olası değildir.
VAE'lerle ilgili yaygın bir şikayet, kodlama ve kod çözmenin sıkıştırma içermesi ve bunun da bilgi kaybına yol açması nedeniyle gürültülü (yani bulanık) görüntüler üretebilmeleridir.
Kullanım durumları
Varyasyonsal otomatik kodlayıcılar her türlü veriyle çalışır, ancak bunlar öncelikle görüntü, ses ve metin oluşturmak için kullanılır. İlginç bir uygulama anormallik tespitidir: Bir veri kümesinde VAE'ler normdan en fazla sapan veri noktalarını bulabilir, çünkü bu noktalar en yüksek yeniden yapılandırma hatasına sahip olacaktır; yani VAE'nin kodladığı olasılıklardan en uzak noktalar olacaklardır.
Üretken çekişmeli ağlar (GAN'lar)
Üretken çekişmeli ağlar, 2014 yılında Ian Goodfellow tarafından geliştirildi. Sinir ağları bundan önce görüntü üretebiliyor olsa da, sonuçlar genellikle bulanık ve ikna edici olmuyordu. GAN'ların ardındaki temel soru (ve içgörü) şudur: İki sinir ağını birbiriyle karşı karşıya getirirseniz ne olur? Jeneratör olarak adlandırılan bir tanesine yeni içerik üretmesi öğretilirken, ayırıcı olarak adlandırılan bir diğeri ise gerçek ve sahte içerik arasındaki farkı bilmek üzere eğitiliyor.
Jeneratör aday görüntüler oluşturur ve bunları ayırıcıya gösterir. Geri bildirime dayanarak, üretici tahminlerini buna göre günceller ve ayrımcıyı "kandırma" konusunda giderek daha iyi hale gelir. Ayırt ediciyi zamanın %50'sinde kandırabildiğinde (gerçek ile sahte arasında yazı tura atmak kadar iyi), geri bildirim eğitim döngüsü durur. GAN'ın jeneratör kısmı daha sonra değerlendirme ve üretime hazırdır.
2014 yılından bu yana, farklı kullanım durumları için ve GAN'ların doğal avantaj ve dezavantajlarını dengelemek için yüzlerce GAN çeşidi geliştirildi.
Avantajları ve dezavantajları
Üretken rakip ağlar, VAE'lerle birlikte, başlangıçta üretken yapay zekanın potansiyeli hakkında çok fazla söylenti uyandırdı. Denetimsiz öğrenmeyi kullanıyorlar, böylece araştırmacıların çıktılarının iyi mi yoksa kötü mü olduğunu söylemesine gerek kalmadan model kendi kendine daha iyi hale geliyor. Üretken rakip ağlar da çok hızlı öğrenmeyi başarıyor; İlk piyasaya sürüldüklerinde diğer mevcut çözümlerle karşılaştırıldığında, çok daha az eğitim verisi (binlerceye kıyasla yüzlerce görüntü) ile iyi sonuçlar elde edebiliyorlardı.
Ancak GAN'lar genellikle eğitim verilerine benzemeyen içerik oluşturmakta zorlanırlar; onlar yaratıcı değil, taklitçilerdir. Ve bazen, GAN'ların kendilerine çok sayıda kedi memi gösterildiği için harfler içeren kedi fotoğrafları görselleri oluşturması gibi, eğitim verilerini "fazla doldurabiliyorlar".
Bir GAN'ı eğitmek zorlu bir iştir. Eğitim sırasında iki ağ arasında denge kurulmalıdır. Ayırıcının çok iyi olması durumunda da sorunlar ortaya çıkabilir ve bu da hiç bitmeyen eğitim döngülerine yol açabilir ya da ayırıcı yeterince iyi değilse kötü sonuçlara yol açabilir. Ayrıca, jeneratörün ayrımcıyı kandırmanın birkaç yolunu öğrenmesi ve diğerlerini dışlayarak bu stratejilere odaklanması nedeniyle farklı çıktılar üretemedikleri, mod çöküşü olarak adlandırılan durumdan da muzdarip olabilirler.
Kullanım durumları
Üretken rakip ağlar öncelikle orijinaline çok benzeyen içerik üretmek için kullanılır. Örneğin, hazır fotoğrafçılıkta veya video oyunlarında kullanılmak üzere ikna edici insan yüzleri veya gerçekçi iç mekan veya manzara fotoğrafları üretebilirler. Ayrıca bir görüntüyü renkliden siyah beyaza değiştirmek veya görüntüdeki bir yüzü eskitmek gibi bir şekilde değiştirilmiş görüntüler de oluşturabilirler. Bununla birlikte, tüm GAN'lar görüntü üretmez. Örneğin, bazı GAN'lar metinden konuşmaya çıktı üretmek için kullanılmıştır.
Difüzyon modelleri
Difüzyon modelleri de 2010'ların ortalarında ortaya çıktı ve 2020'lerin başlarında daha iyi performans sağlayan bazı atılımlar sundu. DALL-E, Stable Diffusion ve Midjourney gibi görüntü oluşturma araçlarına güç veriyorlar.
Difüzyon modelleri, bir görüntüye Gauss gürültüsü katarak, görüntüyü bir dizi adımda bozarak ve ardından bu adımları tersine çevirerek "gürültülü" görüntüyü net bir görüntüye dönüştürecek şekilde bir model eğiterek çalışır. (“Gauss gürültüsü”, gürültünün olasılıkların çan eğrisi kullanılarak rastgele eklendiği anlamına gelir.)
Gürültülü görüntünün bir nevi VAE kodlaması gibi olduğunu düşünebilirsiniz ve aslında VAE'ler ve yayılma modelleri birbiriyle ilişkilidir. Örneğin limonlu turtanın eğitim verisi görüntüleri oldukça benzer gürültülü versiyonlarla sonuçlanacaktır. Ancak aynı gürültülü görüntü bile her seferinde aynı şeye "suçlanmayacaktır" çünkü model yol boyunca bilinçli tahminler yapmaktadır.
Üretken kısmın nerede devreye girdiğini zaten çözmüş olabilirsiniz. Eğer modele gürültülü alandaki görüntünün bir temsilini verirseniz, görüntünün gürültüsünü giderebilecek ve tamamen yeni, net bir resim ortaya çıkarabilecektir. Bu, kod çözücünün kodlamadan nasıl örnek aldığına benzer. Ancak önemli bir fark var: Yol boyunca herhangi bir sıkışma yaşanmadı. Yani gerçek bir veri kaybı yaşanmaz ve ortaya çıkan görüntü daha yüksek kalitede olur.
Bir metin isteminden bir görüntüye giden üretken yapay zeka araçları, bunu "tek boynuzlu at temalı doğum günü pastası" gibi bir şeyin farklı görüntü özellikleriyle nasıl eşleşebileceğini anlayan ayrı bir modelin yardımıyla yapıyor. Daha sonra bu özelliklerin gürültülü versiyonu tersine çevrilerek net bir resim ortaya çıkar.
Avantajları ve dezavantajları
Difüzyon modelleri eğitim verilerini sıkıştırmaz, bu nedenle çok gerçekçi, yüksek kaliteli görüntüler oluşturmayı başarırlar. Ancak diğer modellere göre eğitim için çok daha fazla kaynak ve zaman gerekir. Bununla birlikte, eğitimin kendisi daha basittir çünkü GAN'ların mod çöküşüyle ve rakip ağın diğer dezavantajlarıyla karşılaşmazlar. Ayrıca VAE'lerin sahip olduğu veri kaybından (ve bunun sonucunda ortaya çıkan düşük kaliteli çıktılardan) da etkilenmezler.
Kullanım durumları
Difüzyon modelleri öncelikle görüntü, ses ve video üretimi için kullanılır. Metin oluşturmak için de kullanılmamalarının doğal bir nedeni yok, ancak şu ana kadar dönüştürücü tabanlı modeller doğal dil için daha etkili oldu.
Dil modelleri
Dil modelleri, doğal dilin olasılıksal bir modelini üreten herhangi bir makine öğrenimi tekniğini ifade eder. Günümüzde en iyi bilinen dil modeli türü, büyük miktarda ham veri üzerinde eğitilen ve metin oluşturmak için dönüştürücü tabanlı bir mimari kullanan LLM'dir. (Bir sonraki bölümde transformatörler hakkında daha fazla bilgi.)
Transformatör tabanlı modellerden önce, en son teknolojiye sahip dil modellerinin çoğu, yinelenen sinir ağlarını (RNN'ler) kullanıyordu. RNN'ler, düğümler arasındaki ara bağlantılara küçük döngüler ekler; böylece, geleneksel ileri beslemeli sinir ağlarında (FNN) olduğu gibi, mevcut sinyallerden öğrenmeye ek olarak düğümler, yakın geçmişten de öğrenebilir. Bu, metin akışı veya ses girişi gibi doğal dilin işlenmesi veya üretilmesi için önemlidir. Görüntülerin aksine dil oldukça bağlamsaldır; onu nasıl yorumladığımız daha önce ne olduğuna bağlıdır.
Avantajları ve dezavantajları
“Dil modelleri” çok geniş bir model grubunu ifade ettiğinden bunların avantaj ve dezavantajları hakkında genelleme yapmak zordur. Dil modellemenin zorlukları arasında dilin çok boyutlu olduğu gerçeği yer alır; herhangi bir dilde çok sayıda farklı kelime bulunur ve bazı kombinasyonlar eğitim verilerinde hiçbir zaman görünmeyebilir.
Dahası, dil büyük ölçüde dizide daha önce gelenlerin bağlamına bağlıdır ve ağın bu bağlamı bir şekilde ele almasını veya temsil etmesini gerektirir. Bu ihtiyaca cevap verebilme kapasitesi, uzun ve kısa süreli hafızalara ve ardından tüm cümleyi bir bütün olarak işleyebilen dönüştürücülere sahip RNN'lerin, dil modelleri için son teknoloji mimari olarak ortaya çıkmasına neden olmuştur.
Kullanım durumları
Dil modelleri çeviri, özetleme, dil bilgisi hatalarını düzeltme, konuşma tanıma ve daha birçok görev için kullanılabilir. Birçok uygulamayla yeni yaratıcı metin içeriği oluşturmak için kullanılırlar ve verileri analiz etme ve mantık bulmacalarını çözme gibi ileri düzey akıl yürütme yeteneklerine sahip oldukları kanıtlanmıştır. İlginç bir şekilde, araştırmalar, yüksek lisans öğrencilerinin ortaya çıkan bir yeteneğinin, tamamen metin üzerine eğitilmiş olsalar bile, mekansal farkındalık ve temel çizimler oluşturma yeteneği olduğunu bulmuştur.
Transformatör tabanlı modeller
Google ve Toronto Üniversitesi'ndeki araştırmacılar tarafından 2017 yılında icat edilen transformatörler, derin öğrenme alanında devrim yarattı. ChatGPT gibi Yüksek Lisans'lar transformatör tabanlı modellerdir ve Google arama sonuçları da transformatörler tarafından desteklenmektedir.
Transformatör tabanlı bir model, farklı kelimelerin nasıl ilişkili olduğunu öğrenmek için eğitim verilerini kullanır. Örneğin,kekveturtanınkavramsal olarak benzer olduğunu ancakkekvepelerinindoğrudan ilişkili olmadığını öğrenebilir. Ayrıcadiliminpasta veturtaile bağlantılı olabileceğini de öğrenebilir, özellikle de bu kelimeler birbirine yakın geçiyorsa.
Metni analiz ederken model, büyük bir elektronik tabloya benzeyen bir şey oluşturmak için bu temel anlayışı kullanır. Metindeki herhangi iki kelimeye bakabilir ve bunların muhtemelen ne kadar ilişkili olduğuna dair bir yanıt alabilir.
Dönüştürücü model, bu bağlamsal ipuçlarından yararlanarak dili ustaca yorumlar ve bir konuşmadaki potansiyel süreklilikleri tahmin eder. Örneğin, birisi bir bölümde pastadan bahsederse ve ardından bir sonraki bölümde doğum gününü tartışmaya geçerse, model, yerleşik dilsel bağlantılara dayanarak en sonunda mumlardan veya bir partiden bahsedileceğini tahmin eder.
Avantajları ve dezavantajları
Dili analiz etme ve üretme söz konusu olduğunda, transformatörlerin öncülleri olan RNNS'ye göre birkaç avantajı vardır. Her kelimeyi sırayla işlemek yerine, metni ağ üzerinden paralel olarak işleyebilirler. Bu onların çok büyük veri kümeleri üzerinde eğitim vermelerini daha hızlı ve daha verimli hale getirir. Ayrıca, birbirlerinden ne kadar uzakta olduklarına bakılmaksızın kelimeler arasında bağlantı kurabilirler, böylece metinden daha fazla bağlamdan faydalanabilirler.
Ancak transformatörlerin iyi performans gösterebilmesi için çok fazla veriye ihtiyacı vardır ve daha küçük veri kümeleriyle daha geleneksel sinir ağı mimarileri daha iyi çalışabilir.
Kullanım durumları
Transformatörlerin birçok üretken yapay zeka uygulaması vardır. Transformatör tabanlı modeller genellikle metin veya konuşma üretmek için kullanılırken, difüzyon modellerine göre hesaplama açısından daha az yoğun oldukları için araştırmacılar bunların görüntü üretimi için kullanımlarını araştırıyorlar.
En ünlüsü, LLM'ler transformatör tabanlı modellerdir. Dil modelleri mimarinin yalnızca kod çözücü kısmını kullanır. Bilgi istemi, daha önce bahsettiğimiz sayısal değerler, olasılıklar ve dikkat verileri kümesinden oluşan bir kodlama olarak modele beslenir. Model, kişisel dikkat mekanizmasını kullanarak ve istemdeki tüm kelimelere paralel olarak bakarak girdinin kodunu çözer. Modelin amacı cümledeki bir sonraki kelime için bir tahmin ortaya koymaktır.
Transformatörlerin doğal dil işlemede metin üretmenin dışında birçok uygulaması vardır. Aslında, başlangıçta metni bir dilden diğerine çevirmek veya dönüştürmek için tasarlandılar. Grammarly, dilbilgisi hatalarını düzeltmek için dönüştürücülerin kullanılmasına yönelik araştırmalara katkıda bulunmuştur.
Çözüm
Üretken yapay zeka modelleri son on yılda çok yol kat etti. Artık bu modellerin evrimi, nasıl çalıştıkları ve farklı kullanım durumlarına nasıl uygulanabilecekleri hakkında biraz daha bilgi sahibi olduğunuzu umuyoruz. Ancak bu makale sadece yüzeysel olarak kalmış ve ortalama okuyucuya genel bir bakış sağlamak amacıyla birçok önemli ayrıntıyı dışarıda bırakmıştır. Bu modellerin temelini oluşturan araştırma makalelerini inceleyerek ve olasılıksal ve istatistiksel açıdan nasıl çalıştıkları hakkında daha fazla bilgi edinerek bu modellerin ardındaki matematik ve bilim hakkında bilgi edinmeye devam etmenizi öneririz.