コンピューター ビジョンと AI: 視覚的な理解を変革する

公開: 2025-01-15

コンピューター ビジョンは、人工知能 (AI) の基本的なサブドメインの 1 つです。このガイドでは、コンピューター ビジョン、その仕組み、適用場所、利点と欠点について説明します。

目次

  • コンピュータービジョンとは何ですか?
  • コンピュータービジョンの歴史と進化
  • コンピュータービジョンの仕組み
  • コンピュータビジョンの応用
  • コンピュータビジョンの利点
  • コンピュータービジョンの欠点
  • 結論

コンピュータービジョンとは何ですか?

コンピューター ビジョンの領域には、コンピューター システムを使用してビデオや写真のデータなどの視覚データを分析するすべての AI 技術が含まれます。この分野は 1960 年代から正式に存在しており、初期のコンピューター ビジョン アプリケーションでは、パターン マッチングやその他のヒューリスティックを使用して、生物医学、高度な物理学、その他の最先端の研究分野の画像を改善していました。最近のコンピューター ビジョン システムのほぼすべては、機械学習 (ML) アルゴリズム (より具体的には深層学習アルゴリズム) のみに依存して作業を行っています。これは、機械学習 (ML) アルゴリズムが古い技術よりもはるかに効率的であるためです。

Grammarly で賢く仕事をする
仕事を持つすべての人のための AI ライティング パートナー

コンピュータービジョンの歴史と進化

コンピューター ビジョンのルーツは、目によって生成された画像が脳内でどのように処理されるかを理解しようとした神経生理学者によって行われた実験に遡ります。コンピュータ ビジョンは、その開発の最初の数十年間、人間と動物の視覚に関する研究から大きく影響を受け、研究からインスピレーションを得てきました。

正確な開始年を特定することは困難ですが、多くの場合、1959 年がこの分野の始まりと考えられています。その年、画像分析の 2 つの中心的な概念が確立されました。(1) 画像分析は最初に画像のサブコンポーネントを特定することに重点を置くべきであり、(2) 次にそれらのコンポーネントを階層的に分析する必要があるということです。

以下のリストは、これらの基本的な概念の発見と、コンピューター ビジョンの最近の爆発的な進歩との間の主要なマイルストーンのいくつかを示しています。現在、コンピューター ビジョン システムは、複雑な深層学習アルゴリズムに依存して、リアルな画像をリアルタイムで処理、理解、編集、作成しています。

コンピュータビジョンの開発における主要なマイルストーン

1959年:動物の脳の研究により、画像の単純な構成要素(エッジや線など)が最初に検出され、次に階層的に処理されることが示されました。これらの洞察はコンピューター ビジョンの 2 つの基本概念となり、この分野の正式な始まりとして認識されています。

1960 年代:AI とコンピューター ビジョンへの最初の公式な取り組みが始まりました。進歩には、写真の一部を同等の 3 次元オブジェクトに自動的に変換するシステムが含まれていました。

1970 年代:コンピューター ビジョンの研究と教育に重点を置いたことにより、パターン検出、動き推定、エッジ検出、ライン ラベリング、画像コンポーネントの幾何学的モデリングなど、現在でも使用されている多くのコアとなるコンピューター ビジョン アルゴリズムが生み出されました。

1980 年代:畳み込みニューラル ネットワーク (CNN) は、10 年間を通じて大幅に開発されました。 1989 年に、最初の CNN が視覚の問題に適用され、画像内の郵便番号を自動的に検出することに成功しました。

1990 年代:スマート カメラの人気が高まり、産業現場で広く使用されるようになりました。大量のデジタル画像を処理するツールに対する需要の高まりにより、商業投資が爆発的に増加し、この分野はさらに発展しました。コンピュータ ビジョン産業が誕生し、コンピュータ ビジョン システムの品質を評価する正式な方法が開発されました。

2000:1990 年代後半から 2000 年代前半にかけて、研究者たちは変化盲目性の概念を確立しました。彼らは、人間が視覚データを観察するときに重要な変化を見逃してしまうことが多いことを実証しました。この発見は、別の 1 対の概念、つまり注意と部分処理のアイデアをコンピュータ ビジョンの中核要素として確立するのに役立ちました。

2011:スイスのチームは、GPU に適用された CNN が決定的に効率的なコンピューター ビジョン ML システムであることを初めて実証しました。これらのシステムは革新的であり、数々の視覚記録を破り、初めて人間の性能を上回りました。コンピューター ビジョン システムは、CNN ベースの実装への移行を開始しました。

2015:CNN の深層学習の実装が ImageNet コンペティションで初めて優勝し、コンピューター ビジョンの現代時代の始まりを示しました。

コンピュータービジョンの仕組み

コンピューター ビジョンの作業には通常、以下で説明する 3 つの部分が含まれます。下位レベルの実装の詳細は非常に複雑になる可能性があり、多くの場合、以下のパート 3 で説明するように、繰り返しのステージが含まれます。実装の詳細が複雑な場合でも、作業は通常、次のパターンに従います。

1画像取得

他の ML システムと同様、ビジュアル データ処理システムは、アクセスできるデータの量と品質に依存します。コンピューター ビジョン システムを設計するときは、処理品質を向上させるために、ソース データと画像をいつ、どのように取得するかについて細心の注意が払われます。次のようなさまざまな要素を考慮して最適化する必要があります。

  • センサー:使用されているセンサーの数と種類。コンピュータ ビジョン システムは、ビデオ カメラ、LIDAR (光検出および測距)、レーダー、赤外線センサーなどのセンサーを使用して環境からデータを取得します。
  • 展開:死角を最小限に抑え、センサー情報を最適に活用するためのセンサーの配置と方向。
  • センサー データ:データの種類と量が異なると、異なる方法で処理し、解釈する必要があります。たとえば、MRI、X 線、およびビデオ データには、特殊な処理、保存、および解釈の要件があります。

コンピュータ ビジョン システムは、理想的には、十分な画像データにアクセスできる必要があります。データが少なすぎると、解決するように設計された問題を解決するのに十分な情報を確認できなくなります。無関係なデータが多すぎると、システムのリソースが限界まで消費され、速度が低下し、運用コストが高くなります。効果的なコンピュータ ビジョン システムを構築するには、画像取得段階を慎重に最適化することが重要です。

2画像(前)処理

2 つの異なるソースからの同じ視覚データは、異なる意味を持つ可能性があります。画像が撮影されたコンテキストに関する詳細 (環境光、温度、カメラの動きなど) も、画像を別の方法で解釈する必要があることを示す場合があります。

画像の前処理には、画像を理解し、分析しやすくするための多くの作業が含まれます。たとえば、画像が正規化される場合があります。これは、サイズ、色、解像度、方向などのプロパティが画像間で一貫性を保つように調整されることを意味します。他のプロパティも前処理中に調整して、ビジョン アルゴリズムがドメイン固有の特徴を検出できるようにすることができます。たとえば、一部のオブジェクトや特徴をより見やすくするためにコントラストを強化する場合があります。

センサーの違い、センサーの損傷、関連するメンテナンス作業を補うためにカスタム調整を行うことができます。最後に、画像の分析方法に関する具体的な詳細を考慮して、処理効率とコストを最適化するためにいくつかの調整が行われる場合があります。

3画像処理と分析: 特徴抽出、パターン認識、分類

現在のコンピュータ ビジョン システムは階層構造になっており、各画像の部分を独立して考慮します。階層内の各層は通常、次の 3 つのいずれかを実行するように特化されています。

  • 特徴抽出:特徴抽出レイヤーは、興味深い画像コンポーネントを見つけます。たとえば、画像内で直線が見つかる場所を特定する場合があります。
  • パターン認識:パターン認識レイヤーは、さまざまな特徴がどのようにパターンに組み合わされるかを調べます。たとえば、画像内のどの線の組み合わせが多角形を形成しているかを識別する可能性があります。
  • 分類:特徴抽出とパターン認識を十分に繰り返した後、システムは、「この写真の中に車はありますか?」などの分類の質問に答えるために、特定の画像について十分に学習した可能性があります。分類層はそのような質問に答えます。

以下の図は、CNN で構築されたコンピューター ビジョン システム アーキテクチャでこれがどのように実装されるかを示しています。システムが分析する入力 (通常は画像またはビデオ) は、図の左端にあります。ディープ ニューラル ネットワークとして実装された CNN は、特徴抽出に優れた畳み込み層と、パターン認識に優れたプーリング層を交互に配置します。画像の詳細は左から右に処理され、以下に示すものよりも 2 つのレイヤーの繰り返しが多くなる場合があります。

畳み込みニューラル ネットワーク (CNN) アーキテクチャ

十分に深い分析が完了すると、完全に接続されたニューロン層がすべてのデータ パターンと特徴を集合的に考慮し、分類問題 (「写真に車はありますか?」など) を解決します。

コンピュータビジョンの応用

コンピュータビジョンはどこにでも応用できます。システムがより強力になり、適用が容易になるにつれて、アプリケーションの数は爆発的に増加しました。ここでは、よく知られたアプリケーションをいくつか紹介します。

顔認識

コンピューター ビジョンの最も普及した高度なアプリケーションの 1 つは、顔の検出と認識に関係します。スマートフォン、セキュリティ システム、アクセス制御デバイスは、センサー、カメラ、訓練されたニューラル ネットワークを組み合わせて使用​​し、画像に顔が含まれているかどうかを識別し、検出された顔を分析できるように変換します。

顔認識システムは定期的に近くの顔をスキャンします。赤外線光源や低解像度だが高コントラストのカメラなど、安価で高速なセンサーからのデータは、顔の存在を識別する ML モデルに渡されます。

潜在的な顔が検出された場合は、低速で高価な高解像度のカメラを顔に向けて、短い録画を行うことができます。視覚処理システムは、記録を 3D 再構成に変換して、顔が存在することを検証するのに役立ちます。次に、顔分類器は、画像内の人物が電話のロック解除や建物へのアクセスを許可されているグループの一員であるかどうかを判断します。

自動運転車

車両を制御し、世界をナビゲートし、環境の変化にリアルタイムで反応できるシステムを構築することは困難です。コンピューター ビジョン システムは、自動運転車を実現するコア テクノロジーの 1 つにすぎません。

これらの視覚システムは、道路、道路標識、車両、障害物、歩行者、その他運転中に遭遇する可能性のあるほとんどのものを識別することを学習します。効果を発揮するには、あらゆる種類の運転条件下で取得された大量のデータを分析する必要があります。

実際の状況で役立つためには、自動運転車に使用されるコンピュータ ビジョン システムは、非常に高速 (自動運転車が状況の変化に最大限の時間で反応できるように)、正確 (間違いは生命を危険にさらす可能性があるため)、そして強力 (問題が発生するため) である必要があります。は複雑です。システムはあらゆる天候や照明条件でオブジェクトを識別する必要があります)。自動運転車企業はエコシステムに多額の投資を行っています。利用可能なデータ量は急激に増加しており、データの処理に使用される技術は急速に向上しています。

拡張現実

スマート グラスと現在の携帯電話のカメラは、ユーザーに拡張現実体験を提供するためにコンピューター ビジョン システムに依存しています。自動運転車を実現するために使用されるものと同様の、十分に訓練されたシステムは、カメラまたはスマート グラスのフレーム内のオブジェクトと、3D 空間内でのオブジェクトの相互の位置を識別します。

高度な画像生成システムは、この情報を組み込んで、カメラやメガネがユーザーに表示する内容をさまざまな方法で拡張します。たとえば、データが表面に投影されているような錯覚を作り出したり、家具などのオブジェクトが 3D 空間にどのように収まるかを示すことができます。

コンピュータビジョンの利点

コンピューター ビジョン システムは、人間の視覚を強化し、セキュリティ システムを強化し、大規模なデータを分析するのに役立ちます。これらを使用する主な利点は次のとおりです。

物体認識の速度とスケール

最先端のコンピューター ビジョン システムは、人間よりもはるかに高速かつ大量にオブジェクトを識別できます。たとえば、自動化されたコンピュータビジョンシステムが監督者を支援すると、組立ラインはより速く動きます。自動運転車は運転支援モードで動作できるため、ドライバーはすぐには感知できない周囲の情報に気づくことができます。また、彼らは完全に引き継ぎ、補助のない人間よりも迅速かつ安全な意思決定を下すことができます。

正確さ

よく訓練されたコンピュータビジョンシステムは、訓練されたタスクにおいては人間よりも正確です。たとえば、物体の欠陥をより正確に特定したり、医療画像で癌の増殖を早期に検出したりできます。

大量のデータ処理

ビジョン システムは、人間よりもはるかに高速かつ正確に、大量の画像やビデオ フィード内の異常や脅威を特定できます。情報を処理する能力は利用可能なコンピューティング能力に相関しており、無制限にスケールアップできます。

コンピュータービジョンの欠点

高性能のコンピュータ ビジョン システムを製造するのは困難です。課題と欠点には次のようなものがあります。

過学習

現在のコンピューター ビジョン システムは、深層学習アルゴリズムとネットワークに基づいて構築されています。これらは、トレーニング中に大量の注釈付きデータへのアクセスに依存します。現在、他のアプリケーションで見られる大量のビジュアル トレーニング データは利用できず、生成するのは困難でコストがかかります。その結果、多くのコンピューター ビジョン システムは不十分なデータでトレーニングされ、過剰適合してしまいます。新しい未知の状況に一般化するための支援が必要になります。

プライバシーを大規模に保証するのは困難

コンピューター ビジョン システムは、大量のプライベート データや保護されたデータを観察し、そこから学習する可能性があります。フィールドに入ると、環境内の任意のデータを観察することもあります。トレーニング データに個人情報が含まれていないことを保証することは難しく、現場のシステムがトレーニングに個人情報を組み込むことを防ぐことはさらに困難です。

計算的に複雑

コンピューター ビジョンを使用するシステムは、AI 分野の最も困難な問題のいくつかに適用される傾向があります。その結果、それらは高価で複雑になり、正しく構築して組み立てるのが困難になる場合があります。

結論

ML と AI における最も興味深く、困難な問題の多くは、コンピューター ビジョン システムの使用と応用に関係しています。これらは、セキュリティ システム、自動運転車、医療画像分析などを含め、至る所で役立ちます。とはいえ、コンピューター ビジョン システムは高価であり、構築は困難です。

これらは大規模な時間のかかるデータ収集に依存しており、効果的に使用するにはカスタム リソースや高価なリソースが必要であり、プライバシー上の懸念が生じます。 ML のこの重要な分野では広範な研究が進行中であり、急速に進歩しています。