컴퓨터 비전과 AI: 시각적 이해의 변화

게시 됨: 2025-01-15

컴퓨터 비전은 인공 지능(AI)의 기본 하위 도메인 중 하나입니다. 이 가이드에서는 컴퓨터 비전, 작동 방식, 적용 위치, 장점과 단점에 대해 설명합니다.

목차

  • 컴퓨터 비전이란 무엇입니까?
  • 컴퓨터 비전의 역사와 진화
  • 컴퓨터 비전의 작동 방식
  • 컴퓨터 비전의 응용
  • 컴퓨터 비전의 장점
  • 컴퓨터 비전의 단점
  • 결론

컴퓨터 비전이란 무엇입니까?

컴퓨터 비전의 영역은 컴퓨터 시스템을 사용하여 비디오 및 사진의 데이터와 같은 시각적 데이터를 분석하는 모든 AI 기술을 다룹니다. 이 분야는 1960년대부터 공식적으로 존재해 왔으며, 초기 컴퓨터 비전 응용 프로그램에서는 패턴 일치 및 기타 휴리스틱을 사용하여 생물 의학, 고급 물리학 및 기타 최첨단 연구 분야의 이미지를 개선했습니다. 거의 모든 최신 컴퓨터 비전 시스템은 이전 기술보다 훨씬 더 효과적이기 때문에 기계 학습(ML) 알고리즘(더 구체적으로 말하면 딥 러닝 알고리즘)에만 의존하여 작업을 수행합니다.

Grammarly로 더욱 스마트하게 작업하세요
할 일이 있는 모든 사람을 위한 AI 글쓰기 파트너

컴퓨터 비전의 역사와 진화

컴퓨터 비전의 뿌리는 눈에서 생성된 이미지가 뇌에서 어떻게 처리되는지 이해하려는 신경 생리학자들이 수행한 실험으로 거슬러 올라갑니다. 개발 초기 수십 년 동안 컴퓨터 비전은 인간과 동물의 비전에 대한 연구에서 많은 영감을 얻었습니다.

정확한 시작 연도를 특정하기는 어렵지만, 흔히 1959년을 필드의 시작으로 간주합니다. 그 해에 이미지 분석의 두 가지 핵심 개념이 확립되었습니다. (1) 이미지 분석은 먼저 이미지의 하위 구성 요소를 식별하는 데 중점을 두어야 하며, (2) 해당 구성 요소는 계층적으로 분석되어야 합니다.

아래 목록은 이러한 기본 개념의 발견과 최근 컴퓨터 비전의 폭발적인 발전 사이의 주요 이정표 중 일부를 강조합니다. 오늘날 컴퓨터 비전 시스템은 복잡한 딥 러닝 알고리즘을 사용하여 사실적인 이미지를 실시간으로 처리, 이해, 편집 및 생성합니다.

컴퓨터 비전 개발의 주요 이정표

1959년:동물 두뇌에 대한 연구에 따르면 이미지의 단순한 구성 요소(예: 가장자리 및 선)가 먼저 감지된 다음 계층적으로 처리되는 것으로 나타났습니다. 이러한 통찰력은 컴퓨터 비전의 두 가지 기본 개념이 되었으며 해당 분야의 공식적인 시작으로 인식됩니다.

1960년대:최초의 공식 AI 및 컴퓨터 비전 노력이 시작되었습니다. 발전에는 사진의 일부를 자동으로 동등한 3차원 개체로 변환하는 시스템이 포함되었습니다.

1970년대:컴퓨터 비전 연구 및 교육에 중점을 두면서 패턴 감지, 동작 추정, 가장자리 감지, 라인 라벨링 및 이미지 구성 요소의 기하학적 모델링을 포함하여 오늘날에도 여전히 사용되는 많은 핵심 컴퓨터 비전 알고리즘이 탄생했습니다.

1980년대:컨볼루셔널 신경망(CNN)은 지난 10년 동안 크게 발전했습니다. 1989년에 최초의 CNN이 시력 문제에 성공적으로 적용되어 이미지에서 우편번호를 자동으로 감지했습니다.

1990년대:스마트 카메라가 점점 대중화되어 산업 현장에서 널리 사용되었습니다. 대량의 디지털 이미지를 처리하는 도구에 대한 수요가 증가함에 따라 상업적 투자가 폭발적으로 증가하여 해당 분야가 더욱 발전했습니다. 컴퓨터 비전 산업이 탄생했고, 컴퓨터 비전 시스템의 품질을 평가하는 공식적인 방법이 개발되었습니다.

2000년:1990년대 후반과 2000년대 초반에 연구자들은 변화 맹목이라는 개념을 확립했습니다. 그들은 인간이 시각적 데이터를 관찰할 때 종종 중요한 변화를 놓치는 경우가 있음을 보여주었습니다. 이 발견은 컴퓨터 비전의 핵심 요소인 주의와 부분 처리라는 또 다른 개념 쌍을 확립하는 데 도움이 되었습니다.

2011년:스위스의 한 팀은 GPU에 적용된 CNN이 확실히 효율적인 컴퓨터 비전 ML 시스템임을 처음으로 시연했습니다. 이러한 시스템은 혁신적이어서 수많은 비전 기록을 깨고 처음으로 인간을 능가했습니다. 컴퓨터 비전 시스템은 CNN 기반 구현으로 전환하기 시작했습니다.

2015년:CNN의 딥 러닝 구현이 처음으로 ImageNet 대회에서 우승하여 컴퓨터 비전의 현대 시대가 시작되었습니다.

컴퓨터 비전의 작동 방식

컴퓨터 비전 작업은 일반적으로 아래에서 설명하는 세 부분으로 구성됩니다. 하위 수준 구현 세부 사항은 아래 3부에 설명된 대로 반복 단계를 포함하여 매우 복잡할 수 있습니다. 구현 세부 사항이 복잡하더라도 작업은 일반적으로 이러한 패턴을 따릅니다.

1 이미지 획득

다른 ML 시스템과 마찬가지로 시각적 데이터 처리 시스템은 액세스할 수 있는 데이터의 양과 품질에 따라 달라집니다. 컴퓨터 비전 시스템을 설계할 때 처리 품질을 향상시키기 위해 소스 데이터와 이미지를 언제, 어떻게 얻을 것인지에 세심한 주의를 기울입니다. 다음을 포함한 다양한 요소를 고려하고 최적화해야 합니다.

  • 센서:사용 중인 센서의 수와 유형입니다. 컴퓨터 비전 시스템은 센서를 사용하여 비디오 카메라, LiDAR(빛 감지 및 거리 측정), 레이더, 적외선 센서 등 주변 환경에서 데이터를 얻습니다.
  • 배포:사각지대를 최소화하고 센서 정보를 최적으로 활용하기 위한 센서 배열 및 방향입니다.
  • 센서 데이터:다양한 유형과 양의 데이터는 다르게 처리되고 해석되어야 합니다. 예를 들어 MRI, X선, 비디오 데이터에는 특수한 처리, 저장 및 해석 요구 사항이 있습니다.

컴퓨터 비전 시스템은 이상적으로는 충분한 이미지 데이터에 액세스할 수 있어야 합니다. 데이터가 너무 적으면 해결하도록 설계된 문제를 해결하는 데 충분한 정보를 볼 수 없습니다. 관련 없는 데이터가 너무 많으면 시스템 리소스가 최대화되고 속도가 느려지며 운영 비용이 많이 듭니다. 효과적인 컴퓨터 비전 시스템을 구축하려면 이미지 획득 단계를 신중하게 최적화하는 것이 중요합니다.

2 이미지 (전)처리

서로 다른 두 소스의 동일한 시각적 데이터가 서로 다른 의미를 가질 수 있습니다. 이미지가 촬영된 상황(예: 주변 조명, 온도, 카메라 동작)에 대한 세부 정보를 통해 이미지를 다르게 해석해야 함을 나타낼 수도 있습니다.

이미지 전처리에는 이미지를 더 쉽게 이해하고 분석할 수 있도록 만드는 데 많은 작업이 필요합니다. 예를 들어 이미지는 정규화될 수 있습니다. 즉, 크기, 색상, 해상도, 방향과 같은 속성이 이미지 전체에서 일관되게 조정됩니다. 비전 알고리즘이 도메인별 기능을 감지하는 데 도움이 되도록 전처리 중에 다른 속성을 조정할 수도 있습니다. 예를 들어, 일부 객체나 특징을 더 잘 보이게 하기 위해 대비를 강화할 수 있습니다.

센서, 센서 손상 및 관련 유지 관리 작업의 차이를 보상하기 위해 맞춤형 조정이 이루어질 수 있습니다. 마지막으로, 이미지 분석 방법에 대한 구체적인 세부 사항을 고려하여 처리 효율성과 비용을 최적화하기 위해 일부 조정이 이루어질 수 있습니다.

3 이미지 처리 및 분석: 특징 추출, 패턴 인식 및 분류

현재 컴퓨터 비전 시스템은 각 이미지의 일부를 독립적으로 고려하는 계층적입니다. 계층 구조의 각 계층은 일반적으로 다음 세 가지 중 하나를 수행하도록 전문화됩니다.

  • 특징 추출:특징 추출 계층은 흥미로운 이미지 구성요소를 찾습니다. 예를 들어, 이미지에서 직선을 찾을 수 있는 위치를 식별할 수 있습니다.
  • 패턴 인식:패턴 인식 레이어는 다양한 특징이 어떻게 패턴으로 결합되는지 살펴봅니다. 예를 들어 이미지에서 어떤 선 조합이 다각형을 형성하는지 식별할 수 있습니다.
  • 분류:특징 추출과 패턴 인식을 충분히 반복한 후 시스템은 "이 사진에 자동차가 있나요?"와 같은 분류 질문에 답할 수 있을 만큼 주어진 이미지에 대해 충분히 학습했을 수 있습니다. 분류 계층은 이러한 질문에 답합니다.

아래 다이어그램은 이것이 CNN으로 구축된 컴퓨터 비전 시스템 아키텍처에서 어떻게 구현되는지 보여줍니다. 시스템이 분석하는 입력(일반적으로 이미지 또는 비디오)은 다이어그램의 가장 왼쪽에 있습니다. 심층 신경망으로 구현된 CNN은 특징 추출에 뛰어난 컨볼루션 레이어와 패턴 인식에 뛰어난 풀링 레이어를 교대로 사용합니다. 이미지 세부정보는 왼쪽에서 오른쪽으로 처리되며 아래 표시된 것보다 두 레이어의 반복이 더 많을 수 있습니다.

CNN(컨벌루션 신경망) 아키텍처

충분히 심층적인 분석이 완료되면 완전히 연결된 뉴런 계층은 모든 데이터 패턴과 특징을 종합적으로 고려하고 분류 문제(예: "사진에 자동차가 있습니까?")를 해결합니다.

컴퓨터 비전의 응용

컴퓨터 비전은 어디에나 적용 가능합니다. 시스템이 더욱 강력해지고 적용하기 쉬워짐에 따라 애플리케이션의 수도 폭발적으로 늘어났습니다. 다음은 더 잘 알려진 응용 프로그램 중 일부입니다.

얼굴 인식

컴퓨터 비전의 가장 널리 사용되는 고급 애플리케이션 중 하나는 얼굴을 감지하고 인식하는 것입니다. 스마트폰, 보안 시스템 및 액세스 제어 장치는 센서, 카메라 및 훈련된 신경망의 조합을 사용하여 이미지에 얼굴이 포함된 시기를 식별하고 발견된 얼굴을 분석할 수 있도록 변환합니다.

얼굴 인식 시스템은 근처에 있는 얼굴을 정기적으로 스캔합니다. 적외선 광원 및 저해상도이지만 고대비 카메라와 같은 저렴하고 빠른 센서의 데이터는 얼굴의 존재를 식별하는 ML 모델을 통해 전달됩니다.

잠재적인 얼굴이 감지되면 더 느리고 더 비싸며 더 높은 해상도의 카메라가 해당 얼굴을 겨냥한 다음 짧은 녹화를 할 수 있습니다. 그런 다음 시각 처리 시스템은 녹음 내용을 3D 재구성으로 전환하여 얼굴이 있는지 확인하는 데 도움을 줍니다. 그런 다음 얼굴 분류기는 이미지 속 인물이 전화기 잠금을 해제하거나 건물에 접근할 수 있는 그룹에 속해 있는지 여부를 결정할 수 있습니다.

자율주행차

차량을 제어하고 세상을 탐색하며 환경 변화에 실시간으로 반응할 수 있는 시스템을 구축하는 것은 어렵습니다. 컴퓨터 비전 시스템은 자율주행차를 가능하게 하는 핵심 기술 중 하나일 뿐입니다.

이러한 비전 시스템은 운전 중에 마주칠 수 있는 도로, 도로 표지판, 차량, 장애물, 보행자 및 기타 대부분의 사물을 식별하는 방법을 학습합니다. 효과를 발휘하려면 모든 종류의 운전 조건에서 얻은 대량의 데이터를 분석해야 합니다.

실제 조건에서 유용하려면 자율주행차에 사용되는 컴퓨터 비전 시스템은 매우 빠르고(자율주행차가 변화하는 조건에 반응할 수 있는 최대 시간을 갖기 위해) 정확해야 하며(실수로 인해 생명이 위험할 수 있으므로) 강력해야 합니다(문제가 발생하므로). 복잡합니다. 시스템은 모든 날씨와 조명 조건에서 물체를 식별해야 합니다. 자율주행차 회사들은 생태계에 막대한 투자를 하고 있습니다. 사용 가능한 데이터의 양은 기하급수적으로 증가하고 있으며 이를 처리하는 데 사용되는 기술은 빠르게 향상되고 있습니다.

증강현실

스마트 안경과 현재 휴대폰 카메라는 컴퓨터 비전 시스템을 사용하여 사용자에게 증강 현실 경험을 제공합니다. 자율 주행 차량을 활성화하는 데 사용되는 것과 유사한 잘 훈련된 시스템은 카메라 또는 스마트 안경 세트의 프레임에 있는 물체와 3D 공간에서 서로에 대한 물체의 위치를 ​​식별합니다.

고급 이미지 생성 시스템은 이 정보에 연결하여 카메라나 안경이 사용자에게 보여주는 내용을 다양한 방식으로 확대합니다. 예를 들어, 데이터가 표면에 투영되는 듯한 착각을 일으키거나 가구와 같은 물체가 3D 공간에 어떻게 들어맞는지 보여줄 수 있습니다.

컴퓨터 비전의 장점

컴퓨터 비전 시스템은 인간의 시력을 강화하고 보안 시스템을 강화하며 대규모 데이터를 분석하는 데 도움이 될 수 있습니다. 이를 사용하면 다음과 같은 주요 이점이 있습니다.

객체 인식 속도 및 규모

최첨단 컴퓨터 비전 시스템은 인간보다 훨씬 더 빠르고 더 많은 양으로 물체를 식별할 수 있습니다. 예를 들어, 자동화된 컴퓨터 비전 시스템이 감독자를 보조하면 조립 라인이 더 빠르게 움직일 것입니다. 자율주행차는 운전자 지원 모드로 작동할 수 있어 운전자가 빠르게 감지하지 못하는 주변 정보를 인식할 수 있습니다. 그들은 또한 도움을 받지 않는 인간보다 완전히 인계받아 더 빠르고 안전한 결정을 내릴 수 있습니다.

정확성

잘 훈련된 컴퓨터 비전 시스템은 훈련받은 작업에서 인간보다 더 정확합니다. 예를 들어 물체의 결함을 더 정확하게 식별하거나 의료 이미지에서 암의 성장을 더 일찍 감지할 수 있습니다.

대용량 데이터 처리

비전 시스템은 대량의 이미지와 비디오 피드에서 인간보다 훨씬 빠르고 정확하게 이상 징후와 위협을 식별할 수 있습니다. 정보 처리 능력은 사용 가능한 컴퓨팅 능력과 연관되어 있으며 무한정 확장될 수 있습니다.

컴퓨터 비전의 단점

고성능 컴퓨터 비전 시스템은 생산하기 어렵습니다. 몇 가지 과제와 단점은 다음과 같습니다.

과적합

현재 컴퓨터 비전 시스템은 딥러닝 알고리즘과 네트워크를 기반으로 구축되었습니다. 이는 훈련 중에 주석이 달린 대량의 데이터에 대한 액세스에 의존합니다. 현재 시각적 훈련 데이터는 다른 애플리케이션에서 볼 수 있는 방대한 양으로 사용할 수 없으며 이를 생성하는 것은 어렵고 비용이 많이 듭니다. 결과적으로 많은 컴퓨터 비전 시스템은 불충분한 데이터에 대해 교육을 받고 과적합됩니다. 즉, 새롭고 보이지 않는 상황에 일반화하는 데 도움이 필요합니다.

개인 정보 보호는 규모에 따라 보장하기 어렵습니다.

컴퓨터 비전 시스템은 대량의 개인 데이터 또는 보호되는 데이터를 관찰하고 학습할 수 있습니다. 현장에 있으면 환경에서 임의의 데이터를 관찰할 수도 있습니다. 훈련 데이터에 개인 정보가 없음을 보장하기는 어렵고, 현장 시스템이 개인 정보를 훈련에 통합하는 것을 방지하는 것은 더욱 어렵습니다.

계산적으로 복잡함

컴퓨터 비전을 사용하는 시스템은 AI 분야에서 가장 어려운 문제에 적용되는 경향이 있습니다. 결과적으로 비용이 많이 들고 복잡하며 올바르게 제작하고 조립하기 어려울 수 있습니다.

결론

ML 및 AI에서 가장 흥미롭고 어려운 문제 중 다수는 컴퓨터 비전 시스템의 사용 및 적용과 관련됩니다. 보안 시스템, 자율 주행 차량, 의료 영상 분석 등 어디에서나 유용합니다. 즉, 컴퓨터 비전 시스템은 비용이 많이 들고 구축하기가 어렵습니다.

대규모의 데이터 수집에 시간이 많이 걸리고, 효과적으로 사용하려면 맞춤형 리소스나 값비싼 리소스가 필요하며, 개인 정보 보호 문제가 발생합니다. 빠르게 발전하고 있는 ML의 핵심 영역에 대해 광범위한 연구가 진행되고 있습니다.