Bilgisayarla Görme ve Yapay Zeka: Görsel Anlamayı Dönüştürmek

Yayınlanan: 2025-01-15

Bilgisayarla görme, yapay zekanın (AI) temel alt alanlarından biridir. Bu kılavuz bilgisayarlı görmeyi, nasıl çalıştığını, nerede uygulandığını, avantajlarını ve dezavantajlarını açıklamaktadır.

İçindekiler

  • Bilgisayarla görme nedir?
  • Bilgisayarlı görmenin tarihi ve evrimi
  • Bilgisayarlı görme nasıl çalışır?
  • Bilgisayarlı görme uygulamaları
  • Bilgisayarlı görmenin avantajları
  • Bilgisayarla görmenin dezavantajları
  • Çözüm

Bilgisayarla görme nedir?

Bilgisayarla görme alanı, video ve fotoğraflardaki veriler gibi görsel verileri analiz etmek için bilgisayar sistemlerini kullanan tüm yapay zeka tekniklerini kapsar. Alan resmi olarak 1960'lardan bu yana varlığını sürdürüyor ve ilk bilgisayarlı görme uygulamaları, biyomedikal, ileri fizik ve diğer ileri araştırma alanlarındaki görüntüleri iyileştirmek için desen eşleştirme ve diğer buluşsal yöntemlerden yararlandı. Yeni bilgisayarlı görme sistemlerinin neredeyse tamamı, eski tekniklerden çok daha etkili olduklarından, işlerini yapmak için yalnızca makine öğrenimi (ML) algoritmalarına (daha spesifik olarak derin öğrenme algoritmalarına) güveniyorlar.

Grammarly ile daha akıllıca çalışın
Yapacak işi olan herkesin yapay zeka yazma ortağı

Bilgisayarlı görmenin tarihi ve evrimi

Bilgisayarlı görmenin kökleri, göz tarafından üretilen görüntülerin beyinde nasıl işlendiğini anlamaya çalışan nörofizyologlar tarafından yürütülen deneylere kadar uzanır. Gelişiminin ilk birkaç on yılı boyunca bilgisayarlı görme, büyük ölçüde insan ve hayvan görüşü üzerine yapılan araştırmalardan ilham aldı ve bunlardan ilham aldı.

Kesin bir başlangıç ​​yılı belirlemek zor olsa da, 1959 genellikle alanın başlangıcı olarak kabul edilir. O yıl, görüntü analizine ilişkin iki temel kavram oluşturuldu: (1) görüntü analizinin öncelikle bir görüntünün alt bileşenlerini tanımlamaya odaklanması ve (2) bu bileşenlerin daha sonra hiyerarşik olarak analiz edilmesi gerektiği.

Aşağıdaki liste, bu temel kavramların keşfi ile bilgisayarlı görme alanındaki son gelişmelerdeki patlama arasındaki bazı önemli kilometre taşlarını vurgulamaktadır. Günümüzde bilgisayarlı görme sistemleri, gerçek zamanlı olarak gerçekçi görüntüleri işlemek, anlamak, düzenlemek ve oluşturmak için karmaşık derin öğrenme algoritmalarına dayanmaktadır.

Bilgisayarla görmenin geliştirilmesindeki önemli kilometre taşları

1959:Hayvan beyinleri üzerinde yapılan araştırmalar, bir görüntünün basit bileşenlerinin (kenarlar ve çizgiler gibi) önce tespit edildiğini ve ardından hiyerarşik olarak işlendiğini gösterdi. Bu içgörüler bilgisayarlı görmedeki temel kavramlardan ikisi haline geldi ve alanın resmi başlangıcı olarak kabul edildi.

1960'lar:İlk resmi yapay zeka ve bilgisayarla görme çalışmaları başladı. Gelişmeler, fotoğrafların bazı kısımlarını otomatik olarak eşdeğer üç boyutlu nesnelere dönüştüren sistemleri içeriyordu.

1970'ler:Bilgisayarlı görü araştırmalarına ve eğitimine odaklanılması, örüntü algılama, hareket tahmini, kenar algılama, çizgi etiketleme ve görüntü bileşenlerinin geometrik modellemesi dahil olmak üzere bugün hala kullanımda olan birçok temel bilgisayarlı görme algoritmasını üretti.

1980'ler:Evrişimli sinir ağları (CNN'ler) on yıl boyunca önemli ölçüde geliştirildi. 1989'da ilk CNN, görüntülerdeki posta kodlarını otomatik olarak tespit ederek bir görme sorununa başarıyla uygulandı.

1990'lar:Akıllı kameralar giderek daha popüler hale geldi ve endüstriyel ortamlarda yaygın olarak kullanıldı. Büyük miktarlarda dijital görüntüleri işlemeye yönelik araçlara yönelik artan talep, ticari yatırımlarda bir patlamaya yol açarak alanın daha da ilerlemesine yol açtı. Bilgisayarlı görme endüstrisi doğdu ve bilgisayarlı görme sistemlerinin kalitesini değerlendirmek için resmi yöntemler geliştirildi.

2000:1990'ların sonu ve 2000'lerin başında, araştırmacılar değişim körlüğü kavramını oluşturdular. İnsanların görsel verileri gözlemlerken sıklıkla önemli değişiklikleri gözden kaçırdığını gösterdiler. Bu keşif, bilgisayarlı görmenin temel unsurları olarak başka bir kavram çiftinin (dikkat ve kısmi işleme fikirleri) oluşturulmasına yardımcı oldu.

2011:İlk kez İsviçre'deki bir ekip, GPU'lara uygulanan CNN'lerin kesinlikle verimli bir bilgisayarlı görüntü makine öğrenimi sistemi olduğunu gösterdi. Bu sistemler devrim niteliğindeydi, çok sayıda görme rekoru kırdı ve ilk kez insanlardan daha iyi performans gösterdi. Bilgisayarlı görme sistemleri CNN tabanlı uygulamalara geçiş yapmaya başladı.

2015:CNN'lerin derin öğrenme uygulaması ImageNet yarışmasını ilk kez kazandı ve modern bilgisayarlı görme çağının başlangıcı oldu.

Bilgisayarlı görme nasıl çalışır?

Bilgisayarla görme çalışması genellikle aşağıda açıkladığımız üç bölümden oluşur. Alt düzey uygulama ayrıntıları, aşağıdaki üçüncü bölümde açıklandığı gibi, sıklıkla tekrarlanan aşamaları içerecek şekilde çok karmaşık olabilir. Uygulama ayrıntıları karmaşık olsa bile çalışma genellikle bu kalıpları takip eder.

1 Görüntü edinme

Diğer ML sistemleri gibi görsel veri işleme sistemleri de erişebilecekleri verinin miktarına ve kalitesine bağlıdır. Bir bilgisayarlı görme sistemi tasarlanırken, işleme kalitesini artırmak için kaynak veri ve görüntülerin ne zaman ve nasıl elde edildiğine dikkat edilir. Aşağıdakiler de dahil olmak üzere çeşitli faktörler dikkate alınmalı ve optimize edilmelidir:

  • Sensörler:Kullanılan sensörlerin sayısı ve türleri. Bilgisayarlı görme sistemleri, video kameralar, lidar (ışık algılama ve menzil), radar ve kızılötesi sensörler dahil olmak üzere çevrelerinden veri elde etmek için sensörler kullanır.
  • Dağıtım:Kör noktaları en aza indirecek ve sensör bilgisinden en iyi şekilde yararlanacak şekilde sensörlerin düzenlenmesi ve yönlendirilmesi.
  • Sensör verileri:Farklı tür ve miktarlardaki verilerin farklı şekilde işlenmesi ve yorumlanması gerekir. Örneğin MRI, X-ışını ve video verilerinin özel işleme, depolama ve yorumlama gereksinimleri vardır.

Bir bilgisayarlı görme sisteminin ideal olarak yeterli görüntü verisine erişimi olmalıdır. Çok az veriyle, çözmek üzere tasarlandığı sorunları çözmek için yeterli bilgiyi göremeyecektir. Çok fazla ilgisiz veri, sistemin kaynaklarını maksimuma çıkaracak, sistemi yavaşlatacak ve işletimini pahalı hale getirecektir. Görüntü edinme aşamasının dikkatli optimizasyonu, etkili bilgisayarlı görme sistemleri oluşturmak için çok önemlidir.

2 Görüntü (ön) işleme

İki farklı kaynaktan gelen aynı görsel veriler farklı anlamlara gelebilir. Görüntünün çekildiği bağlamla ilgili ayrıntılar (ortam ışığı, sıcaklık ve kamera hareketi gibi) görüntünün farklı şekilde yorumlanması gerektiğini de gösterebilir.

Görüntü ön işleme, görüntülerin anlaşılmasını ve analiz edilmesini kolaylaştırmak için birçok çalışma gerektirir. Örneğin, görüntüler normalleştirilebilir; bu, boyut, renk, çözünürlük ve yön gibi özelliklerin görüntüler arasında tutarlı olacak şekilde ayarlandığı anlamına gelir. Görme algoritmalarının alana özgü özellikleri tespit etmesine yardımcı olmak için ön işleme sırasında diğer özellikler de ayarlanabilir. Örneğin, bazı nesneleri veya özellikleri daha görünür hale getirmek için kontrast artırılabilir.

Sensörlerdeki, sensör hasarındaki ve ilgili bakım işlerindeki farklılıkları telafi etmek için özel ayarlamalar yapılabilir. Son olarak, görüntülerin nasıl analiz edileceğine ilişkin belirli ayrıntıları hesaba katarak işleme verimliliğini ve maliyetini optimize etmek için bazı ayarlamalar yapılabilir.

3 Görüntü işleme ve analiz: özellik çıkarma, örüntü tanıma ve sınıflandırma

Mevcut bilgisayarlı görme sistemleri hiyerarşiktir ve her görüntünün parçalarını bağımsız olarak dikkate alır. Bir hiyerarşideki her katman genellikle üç şeyden birini gerçekleştirmek üzere uzmanlaşmıştır:

  • Özellik çıkarma:Bir özellik çıkarma katmanı ilginç görüntü bileşenlerini bulur. Örneğin görüntüde düz çizgilerin nerede bulunabileceğini belirleyebilir.
  • Desen tanıma:Bir desen tanıma katmanı, çeşitli özelliklerin desenler halinde nasıl birleştiğine bakar. Örneğin görüntüdeki hangi çizgi kombinasyonlarının çokgen oluşturduğunu belirleyebilir.
  • Sınıflandırma:Özellik çıkarma ve örüntü tanıma işlemlerinin yeterince tekrarlanmasından sonra sistem, "Bu resimde hiç araba var mı?" gibi bir sınıflandırma sorusunu yanıtlamak için belirli bir görüntü hakkında yeterince bilgi edinmiş olabilir. Bir sınıflandırma katmanı bu tür soruları yanıtlar.

Aşağıdaki şema bunun CNN'lerle oluşturulmuş bir bilgisayarlı görüntü sistemi mimarisinde nasıl uygulandığını göstermektedir. Sistemin analiz ettiği girdi (genellikle bir resim veya video), diyagramın en solundadır. Derin bir sinir ağı olarak uygulanan bir CNN, özellik çıkarmada üstün olan evrişimli katmanları, örüntü tanımada üstün olan havuzlama katmanlarıyla değiştirir. Görüntü ayrıntıları soldan sağa işlenir ve iki katmanın aşağıda gösterilenden çok daha fazla tekrarı olabilir.

Evrişimli sinir ağı (CNN) mimarisi

Yeterince derin bir analiz tamamlandığında, tamamen bağlantılı bir nöron katmanı, tüm veri modellerini ve özelliklerini toplu olarak dikkate alır ve bir sınıflandırma problemini ("Fotoğrafta bir araba var mı?" gibi) çözer.

Bilgisayarlı görme uygulamaları

Bilgisayarla görme her yerde uygulanabilir. Sistemler daha güçlü hale geldikçe ve uygulanması daha kolay hale geldikçe, uygulama sayısında patlama yaşandı. İşte daha iyi bilinen uygulamalardan bazıları.

Yüz tanıma

Bilgisayarla görmenin en yaygın ve gelişmiş uygulamalarından biri, yüzleri tespit etmeyi ve tanımayı içerir. Akıllı telefonlar, güvenlik sistemleri ve erişim kontrol cihazları, görüntülerin yüz içerdiğini tespit etmek ve bulunan yüzleri analiz edilebilecek şekilde dönüştürmek için sensörler, kameralar ve eğitimli sinir ağlarından oluşan bir kombinasyon kullanır.

Yüz tanıma sistemi yakındaki yüzleri düzenli olarak tarar. Kızılötesi ışık kaynağı ve düşük çözünürlüklü ancak yüksek kontrastlı kamera gibi ucuz ve hızlı sensörlerden gelen veriler, yüzlerin varlığını tanımlayan bir ML modelinden geçirilir.

Herhangi bir potansiyel yüz tespit edilirse, daha yavaş, daha pahalı, daha yüksek çözünürlüklü bir kamera onlara doğrultularak kısa bir kayıt yapılabilir. Daha sonra bir görsel işleme sistemi, bir yüzün mevcut olduğunu doğrulamaya yardımcı olmak için kaydı 3 boyutlu yeniden yapılandırmalara dönüştürebilir. Daha sonra yüz sınıflandırıcı, görüntüdeki kişilerin bir telefonun kilidini açmasına veya bir binaya erişmesine izin verilen bir grubun parçası olup olmadığına karar verebilir.

Otonom araçlar

Bir aracı kontrol edebilecek, dünyayı dolaşabilecek ve çevresindeki değişikliklere gerçek zamanlı tepki verebilecek bir sistem oluşturmak zordur. Bilgisayarlı görüş sistemleri, otonom araçları mümkün kılan temel teknolojilerden yalnızca biridir.

Bu görüş sistemleri yolları, yol işaretlerini, araçları, engelleri, yayaları ve sürüş sırasında karşılaşabilecekleri diğer birçok şeyi tanımlamayı öğrenir. Etkili olabilmeleri için öncelikle her türlü sürüş koşulu altında elde edilen büyük miktarda veriyi analiz etmeleri gerekiyor.

Gerçek koşullarda faydalı olabilmesi için, otonom araçlarda kullanılan bilgisayarlı görme sistemlerinin çok hızlı olması (böylece otonom aracın değişen koşullara tepki vermek için maksimum süreye sahip olması), doğru (çünkü bir hata hayatları tehlikeye atabilir) ve güçlü olması gerekir (sorun karmaşıktır; sistemin nesneleri her türlü hava ve aydınlatma koşulunda tanımlaması gerekir). Otonom araç şirketleri ekosisteme yoğun yatırım yapıyor. Mevcut veri hacimleri katlanarak artıyor ve bunları işlemek için kullanılan teknikler hızla gelişiyor.

Artırılmış gerçeklik

Akıllı gözlükler ve mevcut telefon kameraları, kullanıcılarına artırılmış gerçeklik deneyimleri sunmak için bilgisayarlı görme sistemlerine güveniyor. Otonom araçları etkinleştirmek için kullanılanlara benzer iyi eğitilmiş sistemler, bir kamera veya bir akıllı gözlük seti için çerçevedeki nesneleri ve nesnelerin 3 boyutlu alanda birbirine göre konumunu tanımlar.

Gelişmiş görüntü oluşturma sistemleri daha sonra bu bilgileri kullanarak kameranın veya gözlüğün kullanıcıya gösterdiği şeyi çeşitli şekillerde artırır. Örneğin, verilerin yüzeylere yansıtıldığı yanılsamasını yaratabilir veya mobilya gibi nesnelerin 3 boyutlu alana nasıl sığabileceğini gösterebilirler.

Bilgisayarlı görmenin avantajları

Bilgisayarla görme sistemleri insan görüşünü artırmaya, güvenlik sistemlerini geliştirmeye ve verileri geniş ölçekte analiz etmeye yardımcı olabilir. Bunları kullanmanın başlıca faydaları aşağıdakileri içerir:

Nesne tanımanın hızı ve ölçeği

Son teknoloji ürünü bilgisayarlı görme sistemleri, nesneleri insanlardan çok daha hızlı ve çok daha yüksek bir hacimde tanımlayabilmektedir. Örneğin bir montaj hattı, otomatik bir bilgisayarlı görüş sistemi amirine yardımcı olduğunda daha hızlı hareket edecektir. Kendi kendine giden araçlar, sürücü destek modunda çalışarak sürücülerin çevreden gelen ve hızlı bir şekilde algılayamayacakları bilgilerden haberdar olmalarına yardımcı olabilir. Ayrıca, yardımsız bir insana göre kontrolü tamamen devralabilir ve daha hızlı ve daha güvenli kararlar alabilirler.

Kesinlik

İyi eğitilmiş bilgisayarlı görme sistemleri, eğitildikleri görevlerde insanlardan daha doğrudur. Örneğin nesnelerdeki kusurları daha doğru bir şekilde tanımlayabilir veya tıbbi görüntülerdeki kanserli büyümeleri daha erken tespit edebilirler.

Büyük miktarda veri işleme

Görüş sistemleri, büyük miktarlardaki görüntü ve video yayınlarındaki anormallikleri ve tehditleri insanlardan çok daha hızlı ve daha doğru bir şekilde tespit edebilir. Bilgiyi işleme yetenekleri, mevcut bilgi işlem gücüyle ilişkilidir ve süresiz olarak ölçeklendirilebilir.

Bilgisayarla görmenin dezavantajları

Yüksek performanslı bilgisayarlı görme sistemlerinin üretilmesi zordur. Bazı zorluklar ve dezavantajlar şunlardır:

Aşırı uyum

Mevcut bilgisayarlı görme sistemleri derin öğrenme algoritmaları ve ağları üzerine inşa edilmiştir. Eğitim sırasında çok sayıda açıklamalı veriye erişime bağımlıdırlar. Şu anda, diğer uygulamalarda görülen geniş hacimlerde görsel eğitim verileri mevcut değildir ve bunları oluşturmak zorlu ve maliyetlidir. Sonuç olarak, pek çok bilgisayarlı görme sistemi yetersiz verilerle eğitilir ve gereğinden fazla uyum sağlar; yeni ve görülmemiş durumlara genelleme yapmak için yardıma ihtiyaç duyacaklardır.

Gizliliğin geniş ölçekte garanti edilmesi zordur

Bilgisayarlı görüş sistemleri büyük miktarlarda özel veya korumalı verileri gözlemleyebilir ve bunlardan öğrenebilir. Sahaya çıktıklarında çevrelerindeki rastgele verileri de gözlemleyebilirler. Eğitim verilerinin özel bilgiler içermediğini garanti etmek zordur ve sahadaki bir sistemin özel bilgileri eğitimine dahil etmesini önlemek daha da zordur.

Hesaplama açısından karmaşık

Bilgisayar görüşünü kullanan sistemler, yapay zeka alanındaki en zorlu sorunlardan bazılarına uygulanma eğilimindedir. Sonuç olarak pahalı ve karmaşıktırlar ve doğru şekilde inşa edilip monte edilmeleri zor olabilir.

Çözüm

Makine öğrenimi ve yapay zekadaki en ilginç ve zorlu sorunların çoğu, bilgisayarlı görme sistemlerinin kullanımını ve uygulanmasını içerir. Güvenlik sistemleri, sürücüsüz araçlar, tıbbi görüntü analizi ve diğer alanlar da dahil olmak üzere her yerde faydalıdırlar. Bununla birlikte, bilgisayarlı görme sistemleri pahalıdır ve inşa edilmesi zordur.

Büyük ölçekte zaman alıcı veri toplamaya dayanırlar, etkili bir şekilde kullanılmadan önce özel veya pahalı kaynaklara ihtiyaç duyarlar ve gizlilik endişelerine yol açarlar. Hızla ilerleyen makine öğreniminin bu önemli alanında kapsamlı araştırmalar sürüyor.