Visi Komputer dan AI: Mengubah Pemahaman Visual
Diterbitkan: 2025-01-15Visi komputer adalah salah satu sub-domain mendasar dalam kecerdasan buatan (AI). Panduan ini menjelaskan visi komputer, cara kerjanya, di mana penerapannya, serta kelebihan dan kekurangannya.
Daftar isi
- Apa itu visi komputer?
- Sejarah dan evolusi visi komputer
- Cara kerja visi komputer
- Penerapan visi komputer
- Keuntungan dari visi komputer
- Kekurangan visi komputer
- Kesimpulan
Apa itu visi komputer?
Domain visi komputer mencakup semua teknik AI yang menggunakan sistem komputer untuk menganalisis data visual, seperti data dalam video dan foto. Bidang ini secara resmi telah ada sejak tahun 1960an, dan aplikasi visi komputer awal menggunakan pencocokan pola dan heuristik lainnya untuk meningkatkan gambar dalam bidang biomedis, fisika tingkat lanjut, dan bidang penelitian mutakhir lainnya. Hampir semua sistem visi komputer saat ini hanya mengandalkan algoritme pembelajaran mesin (ML) (lebih khusus lagi, algoritme pembelajaran mendalam) untuk melakukan tugasnya, karena algoritme tersebut jauh lebih efektif dibandingkan teknik lama.
Sejarah dan evolusi visi komputer
Visi komputer berakar pada eksperimen yang dilakukan oleh ahli neurofisiologi yang berupaya memahami bagaimana gambar yang dihasilkan oleh mata diproses di otak. Selama beberapa dekade pertama perkembangannya, visi komputer banyak mengambil inspirasi dari penelitian tentang penglihatan manusia dan hewan.
Meskipun sulit untuk menentukan tahun permulaan yang pasti, tahun 1959 sering dianggap sebagai permulaan bidang ini. Pada tahun tersebut, dua konsep inti analisis gambar ditetapkan: (1) bahwa analisis gambar harus fokus pada identifikasi subkomponen gambar terlebih dahulu, dan (2) komponen tersebut kemudian harus dianalisis secara hierarki.
Daftar di bawah ini menyoroti beberapa tonggak penting antara penemuan konsep dasar ini dan ledakan kemajuan dalam visi komputer baru-baru ini. Saat ini, sistem visi komputer mengandalkan algoritma pembelajaran mendalam yang kompleks untuk memproses, memahami, mengedit, dan membuat gambar realistis secara real time.
Tonggak utama dalam pengembangan visi komputer
1959:Studi pada otak hewan menunjukkan bahwa komponen sederhana dari sebuah gambar (seperti tepi dan garis) dideteksi terlebih dahulu dan kemudian diproses secara hierarki. Wawasan ini menjadi dua konsep dasar dalam visi komputer dan diakui sebagai permulaan resmi bidang ini.
1960-an:Upaya AI dan visi komputer resmi pertama dimulai. Kemajuan mencakup sistem yang secara otomatis mengubah bagian-bagian foto menjadi objek tiga dimensi yang setara.
1970-an:Fokus pada penelitian dan pendidikan visi komputer menghasilkan banyak algoritma visi komputer inti yang masih digunakan sampai sekarang, termasuk untuk deteksi pola, estimasi gerakan, deteksi tepi, pelabelan garis, dan pemodelan geometris komponen gambar.
1980-an:Jaringan saraf konvolusional (CNN) berkembang secara signifikan sepanjang dekade ini. Pada tahun 1989, CNN pertama berhasil diterapkan pada masalah penglihatan, secara otomatis mendeteksi kode pos dalam gambar.
1990-an:Kamera pintar menjadi semakin populer dan banyak digunakan di lingkungan industri. Meningkatnya permintaan akan alat untuk memproses gambar digital dalam jumlah besar menyebabkan ledakan investasi komersial, sehingga semakin memajukan bidang ini. Industri visi komputer lahir, dan metode formal untuk mengevaluasi kualitas sistem visi komputer dikembangkan.
2000:Pada akhir tahun 1990an dan awal tahun 2000an, para peneliti menetapkan konsep kebutaan perubahan. Mereka menunjukkan bahwa manusia sering melewatkan perubahan besar ketika mengamati data visual. Penemuan ini membantu menetapkan sepasang konsep lainnya—gagasan tentang perhatian dan pemrosesan parsial—sebagai elemen inti dalam visi komputer.
2011:Untuk pertama kalinya, sebuah tim di Swiss menunjukkan bahwa CNN yang diterapkan pada GPU adalah sistem ML computer vision yang sangat efisien. Sistem ini revolusioner, memecahkan banyak rekor penglihatan dan mengungguli manusia untuk pertama kalinya. Sistem visi komputer mulai beralih ke implementasi berbasis CNN.
2015:Implementasi pembelajaran mendalam CNN memenangkan kompetisi ImageNet untuk pertama kalinya, menandai dimulainya era modern visi komputer.
Cara kerja visi komputer
Pekerjaan computer vision biasanya melibatkan tiga bagian, yang kami jelaskan di bawah. Detil implementasi di tingkat bawah bisa sangat kompleks, seringkali melibatkan tahapan yang berulang-ulang, seperti yang dijelaskan pada bagian ketiga di bawah ini. Bahkan ketika rincian implementasinya rumit, pekerjaan biasanya mengikuti pola-pola ini.
1 Akuisisi gambar
Seperti sistem ML lainnya, sistem pemrosesan data visual bergantung pada jumlah dan kualitas data yang dapat diakses. Ketika sistem visi komputer dirancang, perhatian diberikan pada kapan dan bagaimana sumber data dan gambar diperoleh untuk meningkatkan kualitas pemrosesan. Berbagai faktor harus diperhatikan dan dioptimalkan, antara lain:
- Sensor:Jumlah dan jenis sensor yang digunakan. Sistem visi komputer menggunakan sensor untuk memperoleh data dari lingkungannya, termasuk kamera video, lidar (deteksi dan jangkauan cahaya), radar, dan sensor inframerah.
- Penerapan:Pengaturan dan orientasi sensor untuk meminimalkan titik buta dan memanfaatkan informasi sensor secara optimal.
- Data sensor:Jenis dan kuantitas data yang berbeda harus diproses dan diinterpretasikan secara berbeda. Misalnya, data MRI, sinar-X, dan video memiliki persyaratan pemrosesan, penyimpanan, dan interpretasi khusus.
Sistem visi komputer idealnya memiliki akses ke data gambar secukupnya. Dengan data yang terlalu sedikit, perusahaan tidak akan dapat melihat informasi yang cukup untuk memecahkan masalah yang dirancang untuk dipecahkan. Terlalu banyak data yang tidak relevan akan memaksimalkan sumber daya sistem, memperlambatnya, dan menjadikannya mahal untuk dioperasikan. Optimalisasi tahap akuisisi gambar secara hati-hati sangat penting untuk membangun sistem visi komputer yang efektif.
2 Pemrosesan gambar (pra).
Data visual yang sama dari dua sumber berbeda dapat memiliki arti berbeda. Detail tentang konteks pengambilan gambar (seperti cahaya sekitar, suhu, dan gerakan kamera) juga dapat menunjukkan bahwa gambar tersebut harus ditafsirkan secara berbeda.
Pemrosesan awal gambar melibatkan banyak pekerjaan untuk membuat gambar lebih mudah dipahami dan dianalisis. Misalnya, gambar mungkin dinormalisasi, artinya properti seperti ukuran, warna, resolusi, dan orientasi disesuaikan agar konsisten di seluruh gambar. Properti lainnya juga dapat disesuaikan selama prapemrosesan untuk membantu algoritme visi mendeteksi fitur khusus domain. Misalnya, kontras mungkin ditingkatkan untuk membuat beberapa objek atau fitur lebih terlihat.
Penyesuaian khusus dapat dilakukan untuk mengkompensasi perbedaan sensor, kerusakan sensor, dan pekerjaan pemeliharaan terkait. Terakhir, beberapa penyesuaian mungkin dilakukan untuk mengoptimalkan efisiensi dan biaya pemrosesan, dengan mempertimbangkan detail spesifik tentang bagaimana gambar akan dianalisis.
3 Pemrosesan dan analisis gambar: ekstraksi fitur, pengenalan pola, dan klasifikasi
Sistem visi komputer saat ini bersifat hierarkis, mempertimbangkan bagian-bagian dari setiap gambar secara independen. Setiap lapisan dalam hierarki biasanya dikhususkan untuk melakukan salah satu dari tiga hal berikut:
- Ekstraksi fitur:Lapisan ekstraksi fitur menemukan komponen gambar yang menarik. Misalnya, ini mungkin mengidentifikasi di mana garis lurus dapat ditemukan pada gambar.
- Pengenalan pola:Lapisan pengenalan pola melihat bagaimana berbagai fitur digabungkan menjadi pola. Misalnya saja, kombinasi garis mana pada gambar yang membentuk poligon.
- Klasifikasi:Setelah cukup banyak pengulangan ekstraksi fitur dan pengenalan pola, sistem mungkin sudah cukup mempelajari gambar tertentu untuk menjawab pertanyaan klasifikasi, seperti “Apakah ada mobil di gambar ini?” Lapisan klasifikasi menjawab pertanyaan-pertanyaan seperti itu.
Diagram di bawah menunjukkan bagaimana hal ini diterapkan dalam arsitektur sistem visi komputer yang dibangun dengan CNN. Masukan (biasanya gambar atau video) yang dianalisis sistem berada di paling kiri diagram. CNN, yang diimplementasikan sebagai jaringan saraf dalam, mengganti lapisan konvolusional, yang unggul dalam ekstraksi fitur, dengan lapisan gabungan, yang unggul dalam pengenalan pola. Detail gambar diproses dari kiri ke kanan, dan mungkin terdapat lebih banyak pengulangan kedua lapisan tersebut dibandingkan yang ditunjukkan di bawah.
Setelah analisis yang cukup mendalam selesai, lapisan neuron yang terhubung sepenuhnya mempertimbangkan semua pola data dan fitur secara agregat dan memecahkan masalah klasifikasi (seperti “Apakah ada mobil di foto?”).
Penerapan visi komputer
Visi komputer dapat diterapkan di mana-mana. Ketika sistem menjadi lebih kuat dan lebih mudah untuk diterapkan, jumlah aplikasi pun melonjak. Berikut beberapa aplikasi yang lebih terkenal.
Pengenalan wajah
Salah satu aplikasi computer vision yang paling banyak digunakan dan canggih adalah mendeteksi dan mengenali wajah. Ponsel cerdas, sistem keamanan, dan perangkat kontrol akses menggunakan kombinasi sensor, kamera, dan jaringan saraf terlatih untuk mengidentifikasi kapan gambar berisi wajah dan mengubah setiap wajah yang ditemukan sehingga dapat dianalisis.
Sistem pengenalan wajah secara teratur memindai wajah-wajah di sekitar. Data dari sensor yang murah dan cepat, seperti sumber cahaya inframerah dan kamera beresolusi rendah namun kontras tinggi, diteruskan melalui model ML yang mengidentifikasi keberadaan wajah.
Jika ada wajah potensial yang terdeteksi, kamera yang lebih lambat, lebih mahal, dan beresolusi lebih tinggi dapat diarahkan ke wajah tersebut dan kemudian membuat rekaman singkat. Sistem pemrosesan visual kemudian dapat mengubah rekaman menjadi rekonstruksi 3D untuk membantu memvalidasi keberadaan wajah. Pengklasifikasi wajah kemudian dapat memutuskan apakah orang-orang dalam gambar tersebut adalah bagian dari grup yang diizinkan untuk membuka kunci ponsel atau mengakses gedung.
Kendaraan otonom
Sulit untuk membangun sistem yang dapat mengendalikan kendaraan, menavigasi dunia, dan bereaksi secara real time terhadap perubahan lingkungan. Sistem visi komputer hanyalah salah satu teknologi inti yang memungkinkan kendaraan otonom.
Sistem penglihatan ini belajar mengidentifikasi jalan, rambu jalan, kendaraan, rintangan, pejalan kaki, dan sebagian besar hal lain yang mungkin mereka temui saat mengemudi. Sebelum bisa efektif, mereka harus menganalisis sejumlah besar data yang diperoleh dalam berbagai kondisi berkendara.
Agar berguna dalam kondisi nyata, sistem visi komputer yang digunakan untuk kendaraan otonom harus sangat cepat (sehingga kendaraan otonom memiliki waktu maksimal untuk bereaksi terhadap perubahan kondisi), akurat (karena kesalahan dapat membahayakan nyawa), dan kuat (sejak masalah terjadi). rumit—sistem harus mengidentifikasi objek dalam segala kondisi cuaca dan pencahayaan). Perusahaan kendaraan otonom banyak berinvestasi pada ekosistem. Volume data yang tersedia meningkat secara eksponensial, dan teknik yang digunakan untuk memprosesnya meningkat pesat.
realitas tertambah
Kacamata pintar dan kamera ponsel saat ini mengandalkan sistem visi komputer untuk memberikan pengalaman augmented reality kepada penggunanya. Sistem yang terlatih, mirip dengan yang digunakan untuk mengaktifkan kendaraan otonom, mengidentifikasi objek dalam bingkai kamera atau satu set kacamata pintar dan posisi objek relatif satu sama lain dalam ruang 3D.
Sistem penghasil gambar tingkat lanjut kemudian menyambungkan informasi ini untuk meningkatkan apa yang ditampilkan kamera atau kacamata kepada pengguna dalam berbagai cara. Misalnya, mereka dapat menciptakan ilusi bahwa data diproyeksikan pada permukaan atau menunjukkan bagaimana objek seperti furnitur dapat masuk ke dalam ruang 3D.
Keuntungan dari visi komputer
Sistem visi komputer dapat membantu meningkatkan penglihatan manusia, meningkatkan sistem keamanan, dan menganalisis data dalam skala besar. Manfaat utama menggunakannya adalah sebagai berikut:
Kecepatan dan skala pengenalan objek
Sistem visi komputer mutakhir dapat mengidentifikasi objek dengan lebih cepat dan pada volume yang jauh lebih tinggi dibandingkan manusia. Sebuah jalur perakitan, misalnya, akan bergerak lebih cepat ketika sistem visi komputer otomatis membantu penyelianya. Kendaraan self-driving dapat beroperasi dalam mode bantuan pengemudi, membantu pengemudi menyadari informasi dari lingkungan sekitar yang tidak dapat mereka deteksi dengan cepat. Mereka juga dapat mengambil alih sepenuhnya dan membuat keputusan yang lebih cepat dan aman dibandingkan manusia tanpa bantuan.
Ketepatan
Sistem visi komputer yang terlatih lebih akurat dibandingkan manusia dalam tugas yang mereka latih. Misalnya, mereka dapat mengidentifikasi cacat pada objek dengan lebih akurat atau mendeteksi pertumbuhan kanker lebih awal pada gambar medis.
Pemrosesan data dalam jumlah besar
Sistem penglihatan dapat mengidentifikasi anomali dan ancaman dalam jumlah besar gambar dan video dengan lebih cepat dan akurat dibandingkan manusia. Kemampuan mereka untuk memproses informasi berkorelasi dengan daya komputasi yang tersedia dan dapat ditingkatkan tanpa batas waktu.
Kekurangan visi komputer
Sistem visi komputer berperforma tinggi sulit untuk diproduksi. Beberapa tantangan dan kelemahannya antara lain sebagai berikut:
Keterlaluan
Sistem visi komputer saat ini dibangun berdasarkan algoritma dan jaringan pembelajaran mendalam. Mereka bergantung pada akses ke sejumlah besar data beranotasi selama pelatihan. Saat ini, data pelatihan visual tidak tersedia dalam volume besar yang terlihat di aplikasi lain, dan menghasilkannya merupakan tantangan dan biaya. Akibatnya, banyak sistem visi komputer yang dilatih dengan data yang tidak mencukupi dan akan melakukan overfit—sistem tersebut memerlukan bantuan untuk melakukan generalisasi terhadap situasi baru dan yang tidak terlihat.
Privasi sulit dijamin dalam skala besar
Sistem visi komputer mungkin mengamati dan belajar dari sejumlah besar data pribadi atau data yang dilindungi. Begitu mereka berada di lapangan, mereka mungkin juga mengamati data sewenang-wenang di lingkungannya. Sulit untuk menjamin bahwa data pelatihan bebas dari informasi pribadi, dan bahkan lebih sulit lagi untuk mencegah sistem di lapangan memasukkan informasi pribadi ke dalam pelatihannya.
Kompleks secara komputasi
Sistem yang menggunakan visi komputer cenderung diterapkan pada beberapa masalah paling menantang di bidang AI. Akibatnya, biayanya mahal dan rumit serta sulit dibuat dan dirakit dengan benar.
Kesimpulan
Banyak masalah paling menarik dan menantang dalam ML dan AI yang melibatkan penggunaan dan penerapan sistem visi komputer. Mereka sangat berguna, termasuk dalam sistem keamanan, kendaraan tanpa pengemudi, analisis citra medis, dan lainnya. Meskipun demikian, sistem visi komputer mahal dan sulit untuk dibuat.
Hal ini bergantung pada pengumpulan data dalam skala besar yang memakan waktu, memerlukan sumber daya khusus atau mahal sebelum dapat digunakan secara efektif, dan menimbulkan masalah privasi. Penelitian ekstensif sedang dilakukan pada bidang utama ML ini, yang berkembang pesat.