Sıfır Atışlı Öğrenme Açıklandı: Etiketsiz Makine Öğreniminin Geleceği

Yayınlanan: 2025-01-13

Sıfır atışlı öğrenme (ZSL), modellerin daha önce hiç karşılaşmadıkları kavramların sonuçlarını sınıflandırmasına veya tahmin etmesine olanak tanıyarak makine öğreniminde (ML) devrim yaratıyor ve kapsamlı etiketli veriler gerektiren geleneksel yaklaşımlardan bir ayrılığa işaret ediyor. Bu kılavuz ZSL'nin nasıl çalıştığını, uygulamalarını, birkaç adımlı öğrenmeyle (FSL) nasıl karşılaştırıldığını, zorluklarını ve gelecekteki potansiyelini araştırıyor.

İçindekiler

Sıfır atışlı öğrenme nedir?
Sıfır atışlı öğrenme nasıl çalışır?
Sıfır atışta öğrenme ve birkaç atışta öğrenme ve tek atışta öğrenme
Sıfır adımlı öğrenme ve sıfır adımlı yönlendirme
Sıfır atışlı öğrenme uygulamaları
Sıfır atışlı öğrenmenin faydaları
Sıfır atışta öğrenmenin zorlukları

Grammarly ile daha akıllıca çalışın

Yapacak işi olan herkesin yapay zeka yazma ortağı

Sıfır atışlı öğrenme (ZSL) nedir?

ZSL, makine öğrenimi modellerinin, bu kategoriler için özel eğitim örnekleri gerektirmeden, görünmeyen kategoriler hakkında tahminlerde bulunmasına olanak tanır. Her kategorinin açıkça temsil edilmesi gereken etiketli veri kümelerine büyük ölçüde dayanan geleneksel denetimli öğrenme modellerinden farklı olarak ZSL, bilgiyi genelleştirmek için anlamsal yerleştirmeler veya nitelikler gibi yardımcı bilgilerden yararlanır.

Örneğin, hayvanları sınıflandırmak için eğitilmiş denetimli bir öğrenme modelinin onları tanıyabilmesi için "köpek", "kedi" ve "zebra" etiketli örneklerine ihtiyacı olacaktır; oysa hayvan görüntüleri üzerinde eğitilmiş bir ZSL modeli, bir zebrayı "" gibi tanımlayıcı niteliklere dayalı olarak tanımlayabilir. Daha önceki örneklere maruz kalmadan bile çizgili” ve “ata benzer”. Bu, ZSL'yi özellikle büyük, etiketlenmemiş veri kümelerini içeren görevler veya etiketli verilerin toplanmasının pratik olmadığı durumlar için yararlı kılar. Uygulamaları bilgisayarlı görme, doğal dil işleme (NLP), robot bilimi ve daha fazlasını kapsar.

Sıfır atışlı öğrenme nasıl çalışır?

ZSL modelleri, bir bilgi tabanı oluşturmak için öncelikle büyük etiketli bir veri kümesi üzerinde önceden eğitilir. Model, etiketli verilerden renk, şekil ve duygu gibi özellikler dahil olmak üzere yardımcı bilgileri çıkarır.

Daha sonra bu özellikleri, görülen ve görülmeyen veri kategorileri (veya sınıfları) arasındaki anlamsal ilişkileri haritalamak için kullanır. Bilgi aktarımı adı verilen bu süreç, bir ZSL modelinin örneğin bir ördek ile bir kazın her ikisinin de gagaları, tüyleri ve perdeli ayakları olması nedeniyle akraba olduğunu anlamasını sağlar.

En yaygın teknikler öznitelik tabanlı ZSL, anlamsal gömme tabanlı ZSL ve genelleştirilmiş ZSL'dir. Aşağıda her birini inceliyoruz.

Özellik tabanlı sıfır atışlı öğrenme

Öznitelik tabanlı ZSL modelleri çoğunlukla bilgisayarlı görme görevleri için kullanılır. İnsan etiketli görüntü veri kümeleri üzerinde eğitim alarak çalışırlar. Etiketler, etiketleyen kişinin yararlı olduğunu düşündüğü niteliklerden oluşur. Kişi, her görsel için renk, şekil veya diğer özellikler gibi özelliklerinin metin açıklamasını uygular.

Örneğin, görüntü sınıflandırmasında "gri", "dört ayaklı" ve "köpek" gibi özellikler farklı kategorileri tanımlayabilir. Model, eğitim yoluyla bu nitelikleri belirli kategorilerle ilişkilendirmeyi öğrenir.

Modele yeni bir şeyin örneğini (daha önce görmediği bir hayvan türü gibi) gösterdiğinizde, model, eğitimde görülen sınıflara benzer ancak aynı olmayan bir sınıfa bakıp bakmadığını anlayabilir.

Model, görünmeyen bir kategoriyle (örneğin bir kurt) karşılaştığında, "kurt" etiketi açıkça eğitimin bir parçası olmasa bile, öğrenilen kategorilerle paylaşılan nitelikleri analiz ederek sınıf hakkında çıkarımlarda bulunabilir. İnsanlar tarafından yorumlanabilen bu nitelikler, açıklanabilirliği artırır ve modelin yeni sınıflara genelleştirilmesine olanak tanır.

Anlamsal yerleştirme tabanlı sıfır atışlı öğrenme

Bu yaklaşım öznitelik tabanlı ZSL'ye benzer, ancak insanların eğitim için öznitelik etiketleri oluşturması yerine model, eğitim verilerinin anlamsal yerleştirmeleri olarak bilinen şeyi üretir. Bu semantik yerleştirmeler vektörler (gerçek dünyadaki nesneleri temsil etmenin matematiksel yolları) olarak kodlanır ve ardından bir yerleştirme alanında haritalanır.

Gömme alanı, modelin ilgili bilgileri birbirine daha yakın gruplayarak bağlamsal bilgisini düzenlemesine olanak tanır. Örneğin, "köpek" ve "kurt" kategorileri, ortak anlamsal özellikler nedeniyle bir yerleştirme alanında birbirine "köpek" ve "kuş" kategorilerinden daha yakın olacaktır. Bu, büyük dil modellerinin (LLM'ler) benzer anlamlarından dolayı eşanlamlıları kümelemek için anlamsal yerleştirmeler kullanmasına benzer.

Modele görünmeyen kategoriler verildiğinde ("modelin daha önce karşılaşmadığı yeni veriler" demenin başka bir yolu), bu yeni sınıflardan gelen vektörleri aynı yerleştirme alanına yansıtır ve bunlar ile zaten bildiği sınıfların vektörleri arasındaki mesafeyi ölçer. hakkında. Bu, görünmeyen örnekler için model bağlamını verir ve bilinen ve bilinmeyen sınıflar arasındaki anlamsal ilişkilerin çıkarımına olanak tanır.

Genelleştirilmiş sıfır atışlı öğrenme

Sıfır atışlı öğrenme tekniklerinin çoğu, modeli bir tür veri üzerinde eğitir ve ardından onu farklı ancak ilgili bir soruna uygular. "Sıfır çekim" fikri budur: Model, vahşi doğada karşılaşmadan önce yeni sınıfların hiçbir örneğine maruz kalmaz.

Ancak gerçek dünyadaki uygulamalar her zaman bu kadar siyah ve beyaz değildir. ZSL modelinizin sınıflandırmasını istediğiniz veri kümesi, yeni sınıfların yanı sıra bilinen sınıflardan da şeyler içerebilir.

Sorun şu ki, geleneksel ZSL modelleri, yeni ve tanıdık şeyleri bir araya getirirseniz, bazen yeni sınıfları zaten bildiği şeyler olarak yanlış etiketleme konusunda güçlü bir önyargı gösterebilir. Bu nedenle, eğitimde halihazırda görülen sınıfları içerebilecek bir veri kümesine genelleştirilebilecek bir ZSL modeline sahip olmak faydalıdır.

Genelleştirilmiş ZSL'de model, bilinen kategorilere yönelik önyargıyı azaltmak için ek bir adım atar. Sınıflandırma yapmadan önce öncelikle söz konusu nesnenin bilinen veya bilinmeyen bir sınıfa ait olup olmadığına karar verir.

Sıfır atışta öğrenme ve birkaç atışta öğrenme ve tek atışta öğrenme

ZSL gibi, birkaç adımlı öğrenme (FSL) ve tek adımlı öğrenme (OSL), derin öğrenme modellerinin çok az yeni veriyle veya hiç yeni veri olmadan yeni görevleri gerçekleştirmesine olanak tanır. Her üç yaklaşım da, bilinmeyen örneklerdeki kalıpları çıkarmak için bilinen örneklerin özellikleri arasındaki ilişkilerin haritalandırılmasına dayanır. Birincil hedefleri, verilerin az olduğu veya belirli bir görev için yeni bir model eğitmek için zamanın olmadığı gerçek dünya senaryolarında etkili modeller oluşturmaktır.

Temel fark, yeni verileri nasıl ele aldıklarında yatmaktadır:

FSL,modele tanımlaması gereken yeni sınıf için az sayıda etiketli örnek sağlamayı içerir.
OSL, modelin yeni sınıfın yalnızca etiketli bir örneğini gösterdiği daha spesifik bir durumdur.

Hem FSL hem de OSL, ZSL'ye kıyasla ek bir eğitim adımı gerektirir ve bu da yeni görevleri öğrenmek için gereken süreyi artırır. Ancak bu ekstra eğitim, onları modelin önceden eğitilmiş bilgisinden önemli ölçüde farklı olan görevleri yerine getirebilecek şekilde donatır ve onları pratikte daha uyarlanabilir hale getirir.

ZSL, yeni görevler için etiketli örnekler gerektirmediği için sıklıkla "esnek" olarak görülse de, bu esneklik büyük ölçüde teoriktir. Gerçek dünya uygulamalarında ZSL yöntemleri aşağıdakilerle mücadele edebilir:

Görülen ve görülmeyen örneklerin bir karışımını içeren görevler (örneğin, genelleştirilmiş ZSL senaryoları)
Modelin eğitim verilerinden önemli ölçüde farklı olan görevler

ZSL modelleri, ön eğitim ve değerlendirme sırasında veri kümelerinin nasıl bölündüğü gibi performansı etkileyebilecek faktörlere de duyarlıdır. Öte yandan FSL ve OSL, öğrenme sürecine yeni örnekler dahil ederek görev adaptasyonu için daha pratik esneklik sunarak farklı senaryolarda daha iyi performans göstermelerine olanak tanır.

Sıfır adımlı öğrenme ve sıfır adımlı yönlendirme

ZSL, çeşitli derin öğrenme görevleri için tasarlanmış bir tür model mimarisidir. Buna karşılık, sıfır atışlı yönlendirme, ChatGPT veya Claude gibi bir LLM'den, yanıtını yönlendirecek istemde belirli örnekler sağlamadan bir çıktı oluşturmasını istemek anlamına gelir. Her iki durumda da model, görevin neleri içerdiğine dair açık örnekler olmadan bir görevi gerçekleştirir.

Sıfır adımlı yönlendirmede, modele görevle ilgili herhangi bir örnek sağlamazsınız. Bunun yerine, görevi anlamak ve yürütmek için LLM'nin önceden eğitilmiş bilgisine güvenirsiniz.

Örneğin, bir restoran incelemesinin metnini girebilir ve LLM'den bunu olumlu, nötr veya olumsuz olarak sınıflandırmasını isteyebilirsiniz; referans olarak kullanmak üzere herhangi bir örnek inceleme vermeden. LLM, inceleme için uygun etiketi belirlemek amacıyla ön eğitiminden yararlanacaktır.

Sıfır adımlı öğrenme ve sıfır adımlı yönlendirme, görevleri örnekler olmadan gerçekleştirme kavramını paylaşsa da, önemli bir ayrım vardır:

Sıfır atışlı öğrenme, bu tür görevler için oluşturulmuş bir tür model mimarisidir.
Sıfır atışlı yönlendirme,bir model mimarisi değil, LLM'lerle etkileşime özgü bir tekniktir.

Sıfır atışlı öğrenme uygulamaları

Derin öğrenme modellerinin yeni görevlere uyum sağlamasına yardımcı olmaya odaklandığı için ZSL'nin bilgisayarlı görme, NLP ve robotik dahil olmak üzere makine öğreniminin birçok alanında uygulamaları vardır. ZSL sağlık hizmetleri, duyarlılık analizi, müşteri hizmetleri, belge çevirisi ve siber güvenlik alanlarında kullanılabilir, örneğin:

Duyarlılık analizi:Bir son dakika haberi ortaya çıktığında, sıfır atışlı bir NLP modeli, halkın tepkilerine neredeyse gerçek zamanlı bir bakış sağlamak için kamu yorumlarına ilişkin duyarlılık analizi gerçekleştirebilir.
Çok dilli belge işleme:İngilizce vergi belgelerinden bilgi çıkarmak üzere eğitilmiş NLP sıfır atış modelleri, ek eğitim gerektirmeden İspanyolca vergi belgelerinden aynı ayıklamayı gerçekleştirebilir.
Tıbbi teşhis:ZSL modelleri, herhangi bir görsel örnek olmaksızın, COVID-19 hastalarının röntgenlerini tanımlamak için kullanılmıştır. Tanımlamalar, pozitif röntgen ışınlarının neye benzediğine dair alanda çalışan doktorlar tarafından yapılan metinsel açıklamalara dayanıyor.
Daha incelikli sohbet robotları:ZSL NLP modelleri, insanlarla sohbet sırasında daha önce karşılaşmadıkları argo ve deyimleri anlayarak, özel olarak ele almak üzere eğitilmedikleri sorulara daha anlamlı yanıt vermelerine olanak tanır.
Anormallik tespiti:ZSL, siber güvenlikte ağ etkinliğindeki olağandışı kalıpları tespit etmek veya yeni tehditler ortaya çıktıkça yeni türdeki bilgisayar korsanlığı saldırılarını etiketlemek için kullanılabilir.

Sıfır atışlı öğrenmenin faydaları

Geleneksel denetimli öğrenme yaklaşımları, ihtiyaç duydukları büyük veri kümeleri, eğitim süresi, para ve hesaplama kaynakları göz önüne alındığında, çoğu gerçek dünya uygulaması için genellikle pratik değildir. ZSL bu zorlukların bazılarını hafifletebilir. Faydaları arasında yeni bir modelin eğitimiyle ilgili maliyetlerin azaltılması ve verilerin az olduğu veya henüz mevcut olmadığı durumlarla başa çıkılması yer alıyor:

Uygun maliyetli geliştirme

Denetimli öğrenmenin gerektirdiği büyük etiketli veri kümelerinin elde edilmesi ve düzenlenmesi pahalı ve zaman alıcıdır. Bir modeli yüksek kaliteli etiketli bir veri kümesi üzerinde eğitmek, sunucuların, bulut bilişim alanının ve mühendislerin maliyetine ek olarak on binlerce dolara mal olabilir.

ZSL, kurumların modelleri ek eğitim gerektirmeden yeni görevler için yeniden kullanmalarına olanak tanıyarak makine öğrenimi projelerinin maliyetini düşürme konusunda umut vaat ediyor. Ayrıca daha küçük kuruluşların veya bireylerin, başkaları tarafından oluşturulan modelleri yeniden kullanmalarına da olanak tanır.

Kıt verilerle sorunları çözme

ZSL'nin esnekliği, az miktarda verinin mevcut olduğu veya verilerin hala ortaya çıktığı durumlar için onu iyi bir araç haline getirir. Örneğin, bilginin henüz yaygın olmadığı durumlarda yeni hastalıkların teşhisinde veya bilginin hızla geliştiği felaket durumlarında faydalıdır. ZSL, verilerin insan analistlerin işleyemeyeceği kadar önemli olduğu durumlarda anormallik tespiti için de kullanışlıdır.

Sıfır atışta öğrenmenin zorlukları

ZSL, kategoriler arasındaki anlamsal ilişkileri yeni kategorilere genelleştirebilecek kadar iyi anlamak için eğitim öncesi aşamasında yüksek kaliteli eğitim verilerine sahip olmaya büyük ölçüde güveniyor. Yüksek kaliteli veriler olmadan ZSL, bazen değerlendirilmesi zor olan güvenilmez sonuçlar üretebilir.

ZSL modellerinin karşılaştığı yaygın sorunlar arasında, halihazırda eğitim aldığı görevlerden farklı görevlere uyum sağlama sorunları ve görünmeyen sınıfları tahmin ederken belirli etiketlere aşırı derecede güvenmesine neden olan eğitim verileriyle ilgili sorunlar yer alır.

Etki alanı uyarlaması

ZSL modelleri, üzerinde eğitildiğinden önemli ölçüde farklı olmayan bir alandan gelen yeni verilerle ilgilenmesi istendiğinde en iyi performansı gösterir. Örneğin bir model durağan fotoğraflar üzerinde eğitilmişse videoları sınıflandırmada zorluk çekecektir.

ZSL modelleri, bilinmeyen verilerdeki yardımcı bilgilerin bilinen verilerle eşleştirilmesine dayanır; bu nedenle, veri kaynakları çok farklıysa, modelin bilgisini yeni göreve genelleştirmesinin bir yolu yoktur.

Hububat sorunu

ZSL'deki hubness sorunu, bir modelin görünmeyen kategoriler için tahminler yaparken yalnızca birkaç etiket kullanmaya başlamasıyla ortaya çıkar. Gömülü özellik alanındaki birçok nokta birlikte kümelendiğinde, modeli belirli etiketlere yönlendiren "merkezler" oluştuğunda gerçekleşir.

Bunun nedeni, eğitim verilerindeki gürültüden, bazı veri türlerinden çok fazla örnek alınmasından ve diğerlerinden yeterli olmamasından veya modelin anlamsal yerleştirmelerinin yeterince belirgin olmamasından kaynaklanabilir.