Denetimsiz Öğrenme: Nedir ve Nasıl Çalışır?
Yayınlanan: 2024-07-03Makinelerin otonom veri analistleri haline gelmesini ve insan müdahalesi olmadan değerli bilgiler elde etmesini sağlayan devrim niteliğinde bir teknik olan denetimsiz öğrenmenin gizemlerini açığa çıkarın.
İçindekiler
- Denetimsiz öğrenme nedir?
- Denetimsiz ve denetimli öğrenme
- Denetimsiz öğrenme nasıl çalışır?
- Denetimsiz öğrenme türleri
- Denetimsiz öğrenme uygulamaları
- Denetimsiz öğrenmenin avantajları
- Denetimsiz öğrenmenin dezavantajları
Denetimsiz öğrenme nedir?
Denetimsiz öğrenme, verilerdeki kalıpları ve ilişkileri kendi başına bulan bir tür makine öğrenimidir (ML).Denetimsizterimi, modelin etiketlenmemiş veriler kullandığı anlamına gelir; bu, insanlardan neye bakacağına dair hiçbir talimat ve hatta neye baktığına dair rehberlik almadığı anlamına gelir. Bunun yerine, veri kümelerini değerlendirmek ve korelasyonları, benzerlikleri, farklılıkları bulmak ve verileri matematik kullanarak tanımlamanın diğer yollarını bulmak için algoritmaları kullanır.
Makine öğrenimi, sabit kodlanmış talimatlara dayanmak yerine insan muhakemesini taklit eden modeller oluşturmak için verileri ve istatistiksel yöntemleri kullanan bir yapay zeka (AI) alt kümesidir. Denetimsiz öğrenme, varlıkları ortak özelliklere göre gruplamak veya hangi veri noktalarının bir arada oluşma eğiliminde olduğunu bulmak gibi büyük veri kümelerinden sonuçlar çıkarmak için keşfedici, veri odaklı bir yaklaşım benimser; bu, yaprak döken ağaçların resimlerini yaprak dökmeyen ağaçlardan ayırmak veya bulmak gibi bir işlev görebilir.Susam Sokağıakışını izleyenlerin muhtemelenDaniel Tiger'ıda izlemesi muhtemel.
Denetimsiz ve denetimli öğrenme
Denetimsiz yöntemlerin aksine denetimli öğrenme, girdileri doğru çıktılarla eşleştiren etiketli verileri kullanır. Tersine, denetimsiz öğrenmede modelin sezeceği girdi ve çıktılar yoktur, yalnızca analiz edilecek veriler vardır.
Etiketler, modelin öğrenme sürecinin sözde denetimini sağlayarak modelin belirli bir girdiden doğru cevaba doğru tersine mühendislik yapmasına rehberlik eder. Aşağıdakiler dahil olmak üzere, modelin hedefleyebileceği ve bunlardan tahminde bulunabileceği bu tür verilere sahip olduğunuzda denetimli öğrenmeyi kullanmak mantıklıdır:
- Spam veya sahtekarlık tespiti gibi evet veya hayır kararları
- Bir görüntü veya konuşma tanıma içindeki nesnelerin tanımlanması gibi sınıflandırma
- Ev fiyatları veya hava durumu gibi tahminler
Denetimsiz öğrenme ise aksine, doğru cevaba ulaşmak için değil, veriler içindeki kalıpları veya gruplamaları bulmak içindir. Üç ana uygulama şunlardır:
- Müşteri segmentasyonu veya belge gruplaması gibi kümeleme
- Öneri motorları veya güvenlik anormallikleri gibi ilişkilendirmeler
- Boyut azaltma , genellikle büyük veri kümelerini daha yönetilebilir hale getirmek amacıyla sıkıştırmak için kullanılır
Makine öğrenimi yalnızca denetimli veya denetimsiz yöntemlerle sınırlı değildir; bunlar bir spektrumun yalnızca iki ucudur. Diğer makine öğrenimi yöntemleri arasında yarı denetimli, takviyeli ve kendi kendini denetleyen öğrenme bulunur.
Denetimsiz öğrenme nasıl çalışır?
Denetimsiz öğrenme kavramsal olarak basittir: Algoritmalar, çeşitli veri noktalarının nasıl ilişkili olduğunu belirlemek için büyük miktarda veriyi işler. Veriler etiketlenmediğinden denetimsiz öğrenmenin bağlamı veya hedefi yoktur. Sadece kalıpları ve diğer özellikleri bulmaya çalışıyor.
Denetimsiz öğrenme sürecine kısa bir genel bakış:
1 Veri toplama ve temizleme.Denetimsiz öğrenme aynı anda bir tabloyu değerlendirir; bu nedenle birden fazla veri kümeniz varsa bunları dikkatli bir şekilde birleştirmeniz gerekir. Yinelenenleri kaldırmak ve hataları düzeltmek gibi verileri elinizden gelen en iyi şekilde düzenlemek de önemlidir.
2 Özellik ölçeklendirme.Denetimsiz algoritmalar geniş aralıklar nedeniyle başarısız olabilir; bu nedenle aşağıdaki teknikleri kullanarak özellikleri daha dar aralıklara dönüştürmeyi düşünün:
- Normalleştirme: En yüksek değeri 1'e, en düşük değeri 0'a ve diğer her şeyi ondalık sayıya dönüştürür.
- Standardizasyon: ortalama değeri 0 ve standart sapmayı 1 olarak belirtir ve her veri noktası buna göre ayarlanır.
- Logaritmik dönüşüm: geniş aralıkları sıkıştırır, böylece 10 tabanlı logaritmayla 100.000 6 olur ve 1.000.000 7 olur.
3 Algoritma seçimi.Her denetimsiz öğrenme türü için, her birinin güçlü ve zayıf yönleri olan birden fazla algoritma vardır (bunları bir sonraki bölümde ele alacağız). Aynı veri setine farklı algoritmalar uygulamayı ve karşılaştırmayı seçebilirsiniz.
4 Örüntü keşfi ve tanımlanması.Seçilen algoritma çalışmaya başlar. Bu, veri kümesinin boyutuna ve algoritmanın verimliliğine bağlı olarak saniyeler ila saatler sürebilir. Büyük bir veri kümeniz varsa, tümünü işlemeden önce algoritmayı bir alt kümede çalıştırmak isteyebilirsiniz.
5 Yorumlama.Bu aşamada işi insanların devralma zamanı gelmiştir. Bir veri analisti, verileri analiz etmek ve yorumlamak için çizelgeleri, anlık kontrolleri ve çeşitli hesaplamaları kullanabilir.
6 Uygulama.Yararlı sonuçlar alacağınızdan emin olduktan sonra onu kullanın. Denetimsiz öğrenmenin bazı uygulamalarından daha sonra bahsedeceğiz.
Denetimsiz öğrenme türleri
Denetimsiz öğrenmenin çeşitli türleri vardır, ancak en yaygın kullanılan üçü kümeleme, birliktelik kuralları ve boyut azaltmadır.
Kümeleme
Kümeleme, veri noktaları grupları oluşturur. Daha sonra insan analiziyle sınıflandırılabilmeleri için birbirine benzer öğeleri bir araya getirmek gerçekten yararlıdır. Örneğin, müşteri yaşını ve ortalama işlem tutarı tutarını içeren bir veri kümeniz varsa, reklam bütçenizi nereye hedefleyeceğinize karar vermenize yardımcı olacak kümeler bulabilir.
Kümeleme türleri şunları içerir:
- Özel veya sabit kümeleme.Her veri noktası yalnızca bir kümeye ait olabilir. K-means olarak bilinen popüler yaklaşımlardan biri, kaç tane küme oluşturmak istediğinizi belirlemenize olanak sağlarken diğerleri optimum küme sayısını belirleyebilir.
- Örtüşen veya yumuşak kümelenme. Bu yaklaşım, bir veri noktasının birden fazla kümede yer almasına ve yalnızca içeri veya dışarı değil, her birinde bir "dereceye" üyelik bulunmasına olanak tanır.
- Hiyerarşik kümeleme. Aşağıdan yukarıya yapılırsa buna hiyerarşik toplayıcı kümeleme veya HAC denir; yukarıdan aşağıya bölücü kümeleme denir. Her ikisi de gittikçe daha büyük kümeler halinde organize olmuş çok sayıda kümeyi içerir.
- Olasılıksal kümeleme. Bu, herhangi bir veri noktasının herhangi bir kategoriye ait olma olasılığının yüzdesini hesaplayan farklı bir yaklaşımdır. Bu yaklaşımın bir avantajı, belirli bir veri noktasına belirli bir kümenin parçası olma olasılığının çok düşük olması ve bu durumun anormal veya bozuk verileri vurgulayabilmesidir.
Birliktelik kuralları
Birliktelik kuralı madenciliği veya birliktelik kuralı öğrenme olarak da bilinen bu yaklaşım, veri noktaları arasında ilginç ilişkiler bulur. Birliktelik kurallarının en yaygın kullanımı, hangi öğelerin yaygın olarak satın alındığını veya birlikte kullanıldığını bulmaktır; böylece model, satın alınacak veya izlenecek bir sonraki şeyi önerebilir.
Birliktelik kurallarının üç temel kavramı şunlardır:
- Destek.A ve B, mevcut tüm örneklerin (örn. işlemler) yüzdesi olarak ne sıklıkta bir arada bulunur? A ve B, tek tek öğeler veya birden fazla öğeyi temsil eden kümeler olabilir.
- Kendinden emin. A görülüyorsa B de ne sıklıkla görülür?
- Kaldırmak. Korelasyon olmadığı durumda A ve B'nin birlikte görülme olasılığı nedir? Artış, bir ilişkinin “ilginçliğinin” ölçüsüdür.
Boyutsal küçülme
Boyut azaltma, bir tablodaki sütun sayısına karşılık gelir. Bu bağlamda sütunlara ilişkin diğer terimlerözelliklerveyaniteliklerdir. Bir veri kümesindeki özelliklerin sayısı arttıkça, verileri analiz etmek ve en iyi sonuçlara ulaşmak daha zor hale gelir.
Yüksek boyutlu verilerin işlenmesi daha fazla zaman, bilgi işlem gücü ve enerji gerektirir. Aynı zamanda standartların altında çıktılara da yol açabilir. Özellikle zararlı bir örnek, aşırı uyumdur; makine öğrenimi modellerinin, yeni verilere iyi bir şekilde genelleştirilebilen daha geniş kalıplar pahasına, eğitim verilerindeki ayrıntılardan çok fazla şey öğrenme eğilimi.
Boyut azaltıcı algoritmalar, orijinal verileri en önemli bilgileri koruyan daha küçük, daha yönetilebilir sürümlere yoğunlaştırarak basitleştirilmiş veri kümeleri oluşturur. İlişkili özellikleri birleştirerek ve genel eğilimden sapmaları kaydederek, önemli ayrıntıları kaybetmeden sütun sayısını etkili bir şekilde azaltarak çalışırlar.
Örneğin, oteller ve tesisleri hakkında bir veri kümeniz varsa, model birçok özelliğin yıldız derecelendirmesiyle ilişkili olduğunu bulabilir ve böylece spa, oda servisi ve 24 saat resepsiyon gibi özellikleri tek bir sütuna sıkıştırabilir.
Tipik olarak mühendisler, kümeleme ve birliktelik kuralı öğrenimi dahil ancak bunlarla sınırlı olmamak üzere diğer süreçlerin performansını ve sonuçlarını iyileştirmek için bir ön işleme adımı olarak boyutluluğu azaltır.
Denetimsiz öğrenme uygulamaları
Bazı örnekler şunları içerir:
- Pazar sepeti analizi.Perakendeciler birliktelik kurallarını bol miktarda kullanırlar. Örneğin, market alışveriş sepetinize sosisli sandviç koyarsanız, bu kombinasyonlar diğer alışveriş yapanlardan yüksek bir artış gördüğü için ketçap ve sosisli sandviç çörekleri satın almanızı önerebilir. Aynı veriler onların süpermarkette ketçap ve sosisli sandviçi yan yana koymalarına da yol açabilir.
- Tavsiye motorları. Bunlar kişisel verilerinize (demografi ve davranış kalıpları) bakar ve bir sonraki adımda neyi satın almaktan veya izlemekten keyif alacağınızı tahmin etmek için bunları başkalarının verileriyle karşılaştırır. Denetimsiz öğrenmenin üç türünü kullanabilirler: diğer müşterilerin hangi kalıplarının sizinkini tahmin edebileceğini belirlemek için kümeleme, belirli faaliyetler veya satın almalar arasındaki korelasyonları bulmak için ilişkilendirme kuralları ve karmaşık veri kümelerinin işlenmesini kolaylaştırmak için boyut azaltma.
- Müşteri segmentasyonu. Pazarlamacılar onlarca yıldır hedef kitlelerini adlandırılmış kategorilere ayırırken, denetimsiz kümeleme herhangi bir insanın aklına gelmeyen gruplamaları belirleyebilir. Bu yaklaşım, davranışa dayalı analize olanak tanır ve ekiplerin mesajları ve promosyonları yeni yollarla hedeflemesine yardımcı olabilir.
- Anomali tespiti.Kalıpları anlamada çok iyi olduğundan, denetimsiz öğrenme genellikle bir şeyler anormal olduğunda uyarıda bulunmak için kullanılır. Kullanım alanları arasında sahte kredi kartı satın alma işlemlerinin, tablodaki bozuk verilerin ve finansal piyasalardaki arbitraj fırsatlarının işaretlenmesi yer alır.
- Konuşma tanıma.Arka plan gürültüsü, aksanlar, lehçeler ve seslerle uğraşmak zorunda olduklarından, bilgisayarların konuşmayı ayrıştırması karmaşıktır. Denetimsiz öğrenme, konuşma tanıma motorlarının, arka plandaki gürültüyü ve diğer iyileştirmeleri filtrelemenin yanı sıra, hangi seslerin hangi ses birimleriyle (konuşma birimleri) ilişkili olduğunu ve hangi ses birimlerinin genellikle birlikte duyulduğunu öğrenmesine yardımcı olur.
Denetimsiz öğrenmenin avantajları
- Düşük insan katılımı.Denetimsiz bir öğrenme sisteminin güvenilirliği kanıtlandıktan sonra, onu çalıştırmak, giriş ve çıkışların uygun şekilde yönlendirilmesini sağlamanın ötesinde çok az çaba gerektirir.
- Ham veriler üzerinde çalışır. Etiket sağlamaya, yani belirli bir girdiden hangi çıktının kaynaklanacağını belirtmeye gerek yoktur. Verileri geldiği gibi işleme yeteneği, çok büyük miktarlarda dokunulmamış verilerle uğraşırken son derece değerlidir.
- Gizli desen keşfi. Örüntü bulmaktan başka hiçbir amacı veya gündemi olmayan denetimsiz öğrenme, sizi "bilinmeyen bilinenlere", yani daha önce dikkate almadığınız ancak bir kez sunulduğunda anlamlı olan verilere dayanan sonuçlara yönlendirebilir. Bu yaklaşım özellikle hücre ölümünün nedeni için DNA'nın analiz edilmesi gibi samanlıklarda iğne bulmak için kullanışlıdır.
- Veri araştırması. Denetimsiz öğrenme, boyutluluğu azaltarak ve kalıplar ile kümeler bularak, analistlere yeni veri kümelerini anlamlandırma konusunda bir avantaj sağlar.
- Artımlı eğitim. Pek çok denetlenmeyen model ilerledikçe öğrenebilir: Daha fazla veri geldikçe, daha önce keşfettikleri şeylerle ilgili olarak en son girdiyi değerlendirebilirler. Bu çok daha az zaman ve bilgi işlem çabası gerektirir.
Denetimsiz öğrenmenin dezavantajları
- Çok fazla veriye ihtiyacınız var.Denetimsiz öğrenme, sınırlı örneklerle eğitilirse büyük hatalara eğilimlidir. Verilerde gerçek dünyada geçerli olmayan modeller bulabilir (aşırı uyum), yeni veriler karşısında çarpıcı biçimde değişebilir (kararsızlık) veya anlamlı herhangi bir şeyi belirlemek için yeterli bilgiye sahip olmayabilir (sınırlı model keşfi).
- Düşük yorumlanabilirlik. Kümeleme mantığı gibi bir algoritmanın neden belirli bir sonuca ulaştığını anlamak zor olabilir.
- Yanlış pozitifler. Denetimsiz bir model, anormal ancak önemsiz veri noktalarını etiketsiz olarak çok fazla okuyabilir ve ona neyin dikkate değer olduğunu öğretebilir.
- Sistematik olarak değerlendirilmesi zordur.Karşılaştırılacak "doğru" bir cevap olmadığından, çıktının doğruluğunu veya faydasını ölçmenin doğrudan bir yolu yoktur. Aynı veriler üzerinde farklı algoritmalar çalıştırılarak sorun bir miktar hafifletilebilir, ancak sonuçta kalite ölçüsü büyük ölçüde öznel olacaktır.