電腦視覺與人工智慧:改變視覺理解

已發表: 2025-01-15

電腦視覺是人工智慧(AI)的基本子領域之一。本指南解釋了電腦視覺、它的工作原理、應用場合以及它的優點和缺點。

目錄

  • 什麼是電腦視覺?
  • 電腦視覺的歷史與演變
  • 電腦視覺如何運作
  • 電腦視覺的應用
  • 電腦視覺的優點
  • 電腦視覺的缺點
  • 結論

什麼是電腦視覺?

電腦視覺領域涵蓋了所有使用電腦系統分析視覺數據(例如影片和照片中的數據)的人工智慧技術。該領域自 20 世紀 60 年代起就正式存在,早期的電腦視覺應用使用模式匹配和其他啟發式方法來改善生物醫學、先進物理和其他前沿研究領域的圖像。幾乎所有最新的電腦視覺系統都完全依賴機器學習 (ML) 演算法(更具體地說,深度學習演算法)來完成工作,因為它們比舊技術更有效。

使用 Grammarly 更聰明地工作
任何有工作要做的人的人工智慧寫作夥伴

電腦視覺的歷史與演變

電腦視覺的根源可以追溯到神經生理學家進行的實驗,他們試圖了解眼睛產生的圖像是如何在大腦中處理的。在其發展的最初幾十年中,電腦視覺很大程度上借鑒了人類和動物視覺研究並受到其啟發。

儘管很難確定確切的起始年份,但 1959 年通常被認為是該領域的開始。那一年,影像分析的兩個核心概念被確立:(1)影像分析應首先關注識別影像的子成分,(2)然後對這些成分進行分層分析。

下面的清單重點介紹了這些基本概念的發現與電腦視覺最近的爆炸性進步之間的一些主要里程碑。如今,電腦視覺系統依靠複雜的深度學習演算法來即時處理、理解、編輯和創建逼真的圖像。

電腦視覺發展的主要里程碑

1959:對動物大腦的研究表明,首先檢測影像的簡單組成部分(例如邊緣和線條),然後進行分層處理。這些見解成為電腦視覺的兩個基本概念,並被認為是該領域的正式開端。

20 世紀 60 年代:第一個正式的人工智慧和電腦視覺工作開始。進步包括自動將部分照片轉換為等效三維物體的系統。

20 世紀 70 年代:對電腦視覺研究和教育的關注產生了許多至今仍在使用的核心電腦視覺演算法,包括用於模式檢測、運動估計、邊緣檢測、線條標記和影像組件幾何建模的演算法。

20 世紀 80 年代:卷積神經網路 (CNN) 在這十年中得到了顯著發展。 1989 年,第一個 CNN 成功應用於視覺問題,自動偵測影像中的郵遞區號。

1990年代:智慧相機日益流行,並廣泛應用於工業環境。對處理大量數位影像的工具的需求不斷增長,導致商業投資激增,進一步推動了該領域的發展。電腦視覺產業誕生了,並開發了評估電腦視覺系統品質的正式方法。

2000年:1990年代末和2000年代初,研究者建立了變革盲目性的概念。他們證明,人類在觀察視覺數據時經常會錯過重大變化。這項發現幫助建立了另一對概念——注意力和部分處理的思想——作為電腦視覺的核心要素。

2011 年:瑞士的一個團隊首次證明,應用於 GPU 的 CNN 是絕對有效率的電腦視覺 ML 系統。這些系統是革命性的,打破了多項視覺記錄,並首次超越了人類。電腦視覺系統開始過渡到基於 CNN 的實現。

2015 年:CNN 的深度學習實作首次贏得 ImageNet 競賽,標誌著現代電腦視覺時代的開始。

電腦視覺如何運作

電腦視覺工作通常涉及三個部分,我們在下面描述。較低層級的實作細節可能非常複雜,通常涉及重複的階段,如下文第三部分所述。即使實作細節很複雜,工作通常也會遵循這些模式。

1影像擷取

與其他機器學習系統一樣,視覺資料處理系統取決於它們可以存取的資料的數量和品質。在設計電腦視覺系統時,需要特別注意何時以及如何取得來源資料和影像,以提高處理品質。必須考慮和優化各種因素,包括:

  • 感測器:使用的感測器的數量和類型。電腦視覺系統使用感測器從環境中獲取數據,包括攝影機、光達(光檢測和測距)、雷達和紅外線感測器。
  • 部署:感測器的佈置和方向,以最大限度地減少盲點並充分利用感測器資訊。
  • 感測器資料:不同類型和數量的資料必須以不同的方式處理和解釋。例如,MRI、X 光和視訊資料具有專門的處理、儲存和解釋要求。

理想情況下,電腦視覺系統應該能夠存取足夠的影像資料。如果數據太少,它將無法看到足夠的資訊來解決其旨在解決的問題。太多不相關的資料會耗盡系統資源,降低系統速度,並導致運作成本高。仔細優化影像擷取階段對於建立有效的電腦視覺系統至關重要。

2影像(預處理)處理

來自兩個不同來源的相同視覺數據可能意味著不同的事情。有關拍攝影像的環境的詳細資訊(例如環境光、溫度和相機運動)也可能表明應該對影像進行不同的解釋。

影像預處理涉及大量工作,以使影像更易於理解和分析。例如,影像可能會被標準化,這意味著尺寸、顏色、解析度和方向等屬性會被調整為在影像之間保持一致。還可以在預處理過程中調整其他屬性,以幫助視覺演算法檢測特定領域的特徵。例如,可以增強對比度以使某些物件或特徵更加明顯。

可進行客製化調整以補償感測器的差異、感測器損壞和相關維護工作。最後,可能會進行一些調整以優化處理效率和成本,並考慮如何分析影像的具體細節。

3影像處理與分析:特徵擷取、模式辨識、分類

目前的電腦視覺系統是分層的,獨立地考慮每個圖像的部分。層次結構中的每一層通常專門用來執行以下三件事之一:

  • 特徵提取:特徵提取層發現有趣的圖像成分。例如,它可能會識別圖像中何處可以找到直線。
  • 模式識別:模式識別層著眼於各種特徵如何組合成模式。例如,它可以識別圖像中哪些線條組合形成多邊形。
  • 分類:經過足夠多的特徵提取和模式識別重複之後,系統可能已經足夠了解給定圖像來回答分類問題,例如“這張圖片中有汽車嗎?”分類層回答了這些問題。

下圖顯示如何在使用 CNN 建立的電腦視覺系統架構中實現這一點。系統分析的輸入(通常是影像或影片)位於圖表的最左側。 CNN 作為深度神經網路實現,交替使用擅長特徵提取的捲積層和擅長模式識別的池化層。影像細節是從左到右處理的,兩層的重複次數可能比下面顯示的要多得多。

卷積神經網路 (CNN) 架構

一旦完成足夠深入的分析,完全連接的神經元層就會綜合考慮所有資料模式和特徵,並解決分類問題(例如「照片中有汽車嗎?」)。

電腦視覺的應用

電腦視覺的應用無所不在。隨著系統變得更強大、更容易應用,應用程式的數量呈現爆炸性成長。以下是一些較知名的應用程式。

人臉辨識

電腦視覺最普遍、最先進的應用之一涉及檢測和識別人臉。智慧型手機、安全系統和存取控制設備結合使用感測器、相機和訓練有素的神經網路來識別影像何時包含臉部,並轉換任何發現的臉部,以便對其進行分析。

臉部辨識系統會定期掃描附近的臉部。來自廉價且快速的感測器(例如紅外線光源和低解析度但高對比度的相機)的數據透過機器學習模型傳遞,以識別臉部的存在。

如果偵測到任何潛在的面孔,可以將速度較慢、更昂貴、解析度更高的攝影機對準他們,然後進行簡短的記錄。然後,視覺處理系統可以將記錄轉換為 3D 重建,以幫助驗證臉部是否存在。然後,臉部分類器可以確定影像中的人是否屬於允許解鎖手機或進入建築物的群體的一部分。

自動駕駛汽車

要建構一個能夠控制車輛、導航世界並對環境變化做出即時反應的系統是很困難的。電腦視覺系統只是實現自動駕駛汽車的核心技術。

這些視覺系統學習識別道路、路標、車輛、障礙物、行人以及駕駛時可能遇到的大多數其他物體。在它們發揮作用之前,他們必須分析在各種駕駛條件下獲得的大量數據。

為了在實際條件下發揮作用,用於自動駕駛汽車的電腦視覺系統必須非常快(因此自動駕駛汽車有最大的時間對不斷變化的條件做出反應)、準確(因為錯誤可能危及生命)和強大(因為問題很複雜——系統必須在所有天氣和照明條件下識別物體)。自動駕駛汽車公司正在對該生態系統進行大量投資。可用數據量呈指數級增長,用於處理這些數據的技術也迅速改進。

擴增實境

智慧眼鏡和目前的手機相機依靠電腦視覺系統為用戶提供擴增實境體驗。訓練有素的系統,類似於用於自動駕駛汽車的系統,可以識別相機或智慧眼鏡框架中的物體以及物體在 3D 空間中相對於彼此的位置。

然後,先進的影像生成系統將這些資訊插入其中,以各種方式增強相機或眼鏡向使用者顯示的內容。例如,它們可以創造資料投影在表面上的錯覺,或顯示家具等物體如何適合 3D 空間。

電腦視覺的優點

電腦視覺系統可以幫助增強人類視覺、增強安全系統並大規模分析數據。使用它們的主要好處包括:

物體辨識的速度和規模

尖端的電腦視覺系統可以比人類更快、更大量地辨識物體。例如,當自動化電腦視覺系統協助其主管時,裝配線將運作得更快。自動駕駛汽車可以在駕駛員輔助模式下運行,幫助駕駛員了解周圍環境中他們無法快速檢測到的信息。他們還可以完全接管並比無人幫助的人類做出更快、更安全的決策。

準確性

訓練有素的電腦視覺系統在執行訓練任務時比人類更準確。例如,他們可以更準確地識別物體的缺陷或在醫學影像中更早檢測到癌性生長。

大數據量處理

視覺系統可以比人類更快、更準確地識別大量圖像和影片中的異常和威脅。它們處理資訊的能力與可用的計算能力相關,並且可以無限擴展。

電腦視覺的缺點

高性能電腦視覺系統很難生產。一些挑戰和缺點包括:

過擬合

目前的電腦視覺系統建立在深度學習演算法和網路的基礎上。它們依賴在訓練期間存取大量已註釋的資料。目前,在其他應用程式中無法獲得大量的視覺訓練數據,並且產生這些數據具有挑戰性且成本高昂。因此,許多電腦視覺系統在數據不足的情況下進行訓練,並且會過度擬合——它們需要幫助泛化到新的和未見過的情況。

隱私難以大規模保證

電腦視覺系統可以觀察大量私有或受保護的資料並從中學習。一旦他們進入現場,他們也可能觀察環境中的任意數據。很難保證訓練數據不包含隱私訊息,更難以阻止現場系統將隱私資訊納入其訓練中。

計算複雜

使用電腦視覺的系統往往應用於人工智慧領域中一些最具挑戰性的問題。因此,它們昂貴且複雜,並且難以正確建造和組裝。

結論

機器學習和人工智慧中許多最有趣和最具挑戰性的問題都涉及電腦視覺系統的使用和應用。它們無所不在,包括安全系統、自動駕駛車輛、醫學影像分析等。也就是說,電腦視覺系統的建置成本高且具挑戰性。

它們依賴耗時的大規模資料收集,需要定製或昂貴的資源才能有效使用,並引發隱私問題。機器學習的這一關鍵領域正在進行廣泛的研究,並且進展迅速。