คอมพิวเตอร์วิทัศน์และ AI: พลิกโฉมความเข้าใจด้วยภาพ

เผยแพร่แล้ว: 2025-01-15

คอมพิวเตอร์วิทัศน์เป็นหนึ่งในโดเมนย่อยพื้นฐานของปัญญาประดิษฐ์ (AI) คู่มือนี้จะอธิบายคอมพิวเตอร์วิทัศน์ วิธีการทำงาน ตำแหน่งที่นำไปใช้ และคุณประโยชน์และข้อเสีย

สารบัญ

  • คอมพิวเตอร์วิทัศน์คืออะไร?
  • ประวัติและวิวัฒนาการของคอมพิวเตอร์วิทัศน์
  • คอมพิวเตอร์วิทัศน์ทำงานอย่างไร
  • การประยุกต์คอมพิวเตอร์วิทัศน์
  • ข้อดีของการมองเห็นด้วยคอมพิวเตอร์
  • ข้อเสียของการมองเห็นด้วยคอมพิวเตอร์
  • บทสรุป

คอมพิวเตอร์วิทัศน์คืออะไร?

ขอบเขตของคอมพิวเตอร์วิทัศน์ครอบคลุมเทคนิค AI ทั้งหมดที่ใช้ระบบคอมพิวเตอร์ในการวิเคราะห์ข้อมูลภาพ เช่น ข้อมูลในวิดีโอและภาพถ่าย สาขานี้มีอย่างเป็นทางการตั้งแต่ทศวรรษ 1960 และแอปพลิเคชันคอมพิวเตอร์วิทัศน์ในยุคแรกๆ ใช้การจับคู่รูปแบบและการวิเคราะห์พฤติกรรมอื่นๆ เพื่อปรับปรุงภาพในชีวการแพทย์ ฟิสิกส์ขั้นสูง และสาขาการวิจัยที่ล้ำหน้าอื่นๆ ระบบคอมพิวเตอร์วิทัศน์ล่าสุดเกือบทั้งหมดอาศัยอัลกอริธึมการเรียนรู้ของเครื่อง (ML) โดยเฉพาะ (โดยเฉพาะอย่างยิ่ง อัลกอริธึมการเรียนรู้เชิงลึก) ในการทำงาน เนื่องจากมีประสิทธิภาพมากกว่าเทคนิคแบบเก่ามาก

ทำงานอย่างชาญฉลาดยิ่งขึ้นด้วย Grammarly
คู่หูการเขียน AI สำหรับใครก็ตามที่มีงานทำ

ประวัติและวิวัฒนาการของคอมพิวเตอร์วิทัศน์

คอมพิวเตอร์วิทัศน์มีต้นกำเนิดมาจากการทดลองของนักประสาทสรีรวิทยาที่พยายามทำความเข้าใจว่าภาพที่ผลิตโดยดวงตาได้รับการประมวลผลในสมองอย่างไร ในช่วงสองสามทศวรรษแรกของการพัฒนา คอมพิวเตอร์วิทัศน์ได้ดึงเอาและได้รับแรงบันดาลใจจากการวิจัยเกี่ยวกับการมองเห็นของมนุษย์และสัตว์เป็นอย่างมาก

แม้ว่าจะเป็นเรื่องยากที่จะระบุปีเริ่มต้นที่แน่นอน แต่ปี 1959 ก็มักจะถือเป็นจุดเริ่มต้นของสนาม ในปีนั้น มีการกำหนดแนวคิดหลักสองประการในการวิเคราะห์ภาพ: (1) การวิเคราะห์ภาพควรมุ่งเน้นไปที่การระบุองค์ประกอบย่อยของภาพก่อน และ (2) องค์ประกอบเหล่านั้นควรได้รับการวิเคราะห์ตามลำดับชั้น

รายการด้านล่างเน้นย้ำถึงเหตุการณ์สำคัญบางประการระหว่างการค้นพบแนวคิดพื้นฐานเหล่านี้กับความก้าวหน้าที่เพิ่มขึ้นอย่างรวดเร็วในคอมพิวเตอร์วิทัศน์ ทุกวันนี้ ระบบคอมพิวเตอร์วิทัศน์อาศัยอัลกอริธึมการเรียนรู้เชิงลึกที่ซับซ้อนในการประมวลผล ทำความเข้าใจ แก้ไข และสร้างภาพที่สมจริงแบบเรียลไทม์

เหตุการณ์สำคัญในการพัฒนาคอมพิวเตอร์วิทัศน์

1959:การศึกษาสมองของสัตว์แสดงให้เห็นว่าส่วนประกอบง่ายๆ ของภาพ (เช่น ขอบและเส้น) ถูกตรวจพบก่อน จากนั้นจึงประมวลผลตามลำดับชั้น ข้อมูลเชิงลึกเหล่านี้กลายเป็นแนวคิดพื้นฐานสองประการในการมองเห็นคอมพิวเตอร์ และได้รับการยอมรับว่าเป็นจุดเริ่มต้นอย่างเป็นทางการของสาขานี้

ทศวรรษ 1960:ความพยายามด้าน AI และคอมพิวเตอร์วิทัศน์อย่างเป็นทางการครั้งแรกเริ่มขึ้น ความก้าวหน้ารวมถึงระบบที่เปลี่ยนส่วนของภาพถ่ายให้เป็นวัตถุสามมิติที่เทียบเท่าโดยอัตโนมัติ

ทศวรรษ 1970:การมุ่งเน้นไปที่การวิจัยและการศึกษาด้านคอมพิวเตอร์วิทัศน์ทำให้เกิดอัลกอริธึมคอมพิวเตอร์วิทัศน์หลักจำนวนมากที่ยังคงใช้อยู่ในปัจจุบัน รวมถึงอัลกอริธึมสำหรับการตรวจจับรูปแบบ การประมาณค่าการเคลื่อนไหว การตรวจจับขอบ การติดฉลากเส้น และการสร้างแบบจำลองทางเรขาคณิตของส่วนประกอบภาพ

ทศวรรษ 1980:โครงข่ายประสาทเทียมแบบ Convolutional (CNN) ได้รับการพัฒนาอย่างมีนัยสำคัญตลอดทศวรรษ ในปี 1989 CNN แรกได้ถูกนำไปใช้กับปัญหาการมองเห็น โดยตรวจจับรหัสไปรษณีย์ในภาพโดยอัตโนมัติ

ทศวรรษ 1990:กล้องอัจฉริยะได้รับความนิยมมากขึ้นเรื่อยๆ และมีการใช้อย่างแพร่หลายในอุตสาหกรรม ความต้องการเครื่องมือในการประมวลผลภาพดิจิทัลจำนวนมากที่เพิ่มขึ้น นำไปสู่การลงทุนเชิงพาณิชย์ที่ขยายตัวอย่างรวดเร็ว และทำให้สาขานี้ก้าวหน้าไปอีกขั้น อุตสาหกรรมคอมพิวเตอร์วิทัศน์ถือกำเนิดขึ้น และมีการพัฒนาวิธีการอย่างเป็นทางการในการประเมินคุณภาพของระบบคอมพิวเตอร์วิทัศน์

พ.ศ. 2543:ในช่วงปลายทศวรรษ 1990 และต้นทศวรรษ 2000 นักวิจัยได้กำหนดแนวคิดเรื่องการเปลี่ยนแปลงตาบอด พวกเขาแสดงให้เห็นว่ามนุษย์มักจะพลาดการเปลี่ยนแปลงที่สำคัญเมื่อสังเกตข้อมูลภาพ การค้นพบนี้ช่วยสร้างแนวคิดอีกคู่หนึ่ง—แนวคิดเรื่องความสนใจและการประมวลผลบางส่วน—เป็นองค์ประกอบหลักในการมองเห็นของคอมพิวเตอร์

2011:เป็นครั้งแรกที่ทีมงานในสวิตเซอร์แลนด์แสดงให้เห็นว่า CNN ที่นำไปใช้กับ GPU เป็นระบบ ML ของคอมพิวเตอร์วิทัศน์ที่มีประสิทธิภาพอย่างแน่นอน ระบบเหล่านี้เป็นการปฏิวัติ ทำลายสถิติด้านการมองเห็นมากมายและทำได้ดีกว่ามนุษย์เป็นครั้งแรก ระบบคอมพิวเตอร์วิทัศน์เริ่มเปลี่ยนไปใช้การใช้งานบน CNN

พ.ศ. 2558:การใช้การเรียนรู้เชิงลึกของ CNN ชนะการแข่งขัน ImageNet เป็นครั้งแรก ซึ่งถือเป็นจุดเริ่มต้นของยุคสมัยใหม่ของการมองเห็นคอมพิวเตอร์

คอมพิวเตอร์วิทัศน์ทำงานอย่างไร

งานด้านคอมพิวเตอร์วิทัศน์มักเกี่ยวข้องกับสามส่วน ซึ่งเราจะอธิบายไว้ด้านล่าง รายละเอียดการใช้งานระดับล่างอาจซับซ้อนมาก โดยมักเกี่ยวข้องกับขั้นตอนที่ซ้ำกัน ดังที่อธิบายไว้ในส่วนที่ 3 ด้านล่าง แม้ว่ารายละเอียดการใช้งานจะซับซ้อน แต่งานก็มักจะเป็นไปตามรูปแบบเหล่านี้

1 การได้มาของภาพ

เช่นเดียวกับระบบ ML อื่นๆ ระบบประมวลผลข้อมูลภาพขึ้นอยู่กับปริมาณและคุณภาพของข้อมูลที่สามารถเข้าถึงได้ เมื่อระบบคอมพิวเตอร์วิทัศน์ได้รับการออกแบบ จะต้องให้ความใส่ใจอย่างรอบคอบว่าเมื่อใดและอย่างไรในการรับข้อมูลต้นฉบับและรูปภาพ เพื่อปรับปรุงคุณภาพการประมวลผล ปัจจัยต่างๆ จะต้องได้รับการพิจารณาและปรับให้เหมาะสม ได้แก่:

  • เซ็นเซอร์:จำนวนและประเภทของเซ็นเซอร์ที่ใช้งาน ระบบคอมพิวเตอร์วิทัศน์ใช้เซ็นเซอร์เพื่อรับข้อมูลจากสภาพแวดล้อม รวมถึงกล้องวิดีโอ ไลดาร์ (การตรวจจับและกำหนดขอบเขตแสง) เรดาร์ และเซ็นเซอร์อินฟราเรด
  • การปรับใช้:การจัดเรียงและการวางแนวของเซ็นเซอร์เพื่อลดจุดบอดและใช้ประโยชน์จากข้อมูลเซ็นเซอร์ให้เกิดประโยชน์สูงสุด
  • ข้อมูลเซ็นเซอร์:ข้อมูลประเภทและปริมาณที่แตกต่างกันจะต้องได้รับการประมวลผลและตีความต่างกัน ตัวอย่างเช่น ข้อมูล MRI, X-ray และวิดีโอมีข้อกำหนดการประมวลผล การจัดเก็บ และการตีความเฉพาะทาง

ระบบคอมพิวเตอร์วิทัศน์ควรสามารถเข้าถึงข้อมูลภาพได้อย่างเพียงพอ หากมีข้อมูลน้อยเกินไป จะไม่สามารถดูข้อมูลได้เพียงพอที่จะแก้ไขปัญหาที่ออกแบบมาเพื่อแก้ไข ข้อมูลที่ไม่เกี่ยวข้องมากเกินไปจะทำให้ทรัพยากรของระบบถูกใช้จนเต็มประสิทธิภาพ ทำให้ช้าลง และทำให้มีค่าใช้จ่ายสูงในการดำเนินการ การเพิ่มประสิทธิภาพอย่างระมัดระวังของขั้นตอนการรับภาพมีความสำคัญอย่างยิ่งต่อการสร้างระบบคอมพิวเตอร์วิทัศน์ที่มีประสิทธิภาพ

2 การประมวลผลภาพ (ก่อน)

ข้อมูลภาพเดียวกันจากแหล่งข้อมูลสองแหล่งที่แตกต่างกันอาจมีความหมายต่างกัน รายละเอียดเกี่ยวกับบริบทในการถ่ายภาพ (เช่น แสงโดยรอบ อุณหภูมิ และการเคลื่อนไหวของกล้อง) ยังสามารถระบุได้ว่าภาพควรได้รับการตีความแตกต่างออกไป

การประมวลผลภาพล่วงหน้าเกี่ยวข้องกับงานจำนวนมากเพื่อทำให้ภาพเข้าใจและวิเคราะห์ได้ง่ายขึ้น ตัวอย่างเช่น รูปภาพอาจถูกทำให้เป็นมาตรฐาน ซึ่งหมายความว่าคุณสมบัติต่างๆ เช่น ขนาด สี ความละเอียด และการวางแนว จะถูกปรับให้สอดคล้องกันในรูปภาพต่างๆ คุณสมบัติอื่นๆ ยังสามารถปรับได้ในระหว่างการประมวลผลล่วงหน้าเพื่อช่วยให้อัลกอริธึมการมองเห็นตรวจจับคุณสมบัติเฉพาะโดเมนได้ ตัวอย่างเช่น คอนทราสต์อาจได้รับการปรับปรุงเพื่อทำให้วัตถุหรือคุณสมบัติบางอย่างมองเห็นได้ชัดเจนยิ่งขึ้น

อาจมีการปรับเปลี่ยนแบบกำหนดเองเพื่อชดเชยความแตกต่างในเซ็นเซอร์ ความเสียหายของเซ็นเซอร์ และงานบำรุงรักษาที่เกี่ยวข้อง สุดท้ายนี้ อาจมีการปรับเปลี่ยนบางอย่างเพื่อเพิ่มประสิทธิภาพการประมวลผลและต้นทุน โดยคำนึงถึงรายละเอียดเฉพาะเกี่ยวกับวิธีการวิเคราะห์รูปภาพ

3 การประมวลผลและการวิเคราะห์ภาพ: การแยกคุณลักษณะ การจดจำรูปแบบ และการจำแนกประเภท

ระบบคอมพิวเตอร์วิทัศน์ในปัจจุบันเป็นแบบมีลำดับชั้น โดยพิจารณาส่วนต่างๆ ของแต่ละภาพอย่างเป็นอิสระ โดยทั่วไป แต่ละเลเยอร์ในลำดับชั้นจะมีความเชี่ยวชาญพิเศษในการดำเนินการหนึ่งในสามสิ่งต่อไปนี้:

  • การแยกคุณลักษณะ:เลเยอร์การแยกคุณลักษณะจะค้นหาส่วนประกอบรูปภาพที่น่าสนใจ ตัวอย่างเช่น อาจระบุตำแหน่งที่เส้นตรงสามารถพบได้ในภาพ
  • การจดจำรูปแบบ:เลเยอร์การจดจำรูปแบบจะดูว่าคุณสมบัติต่างๆ รวมกันเป็นรูปแบบอย่างไร ตัวอย่างเช่น อาจระบุได้ว่าเส้นใดผสมกันในรูปภาพทำให้เกิดรูปหลายเหลี่ยม
  • การจัดหมวดหมู่:หลังจากการดึงคุณสมบัติและการจดจำรูปแบบซ้ำหลายครั้ง ระบบอาจเรียนรู้เพียงพอเกี่ยวกับรูปภาพที่กำหนดเพื่อตอบคำถามการจัดหมวดหมู่ เช่น "มีรถยนต์อยู่ในภาพนี้หรือไม่" เลเยอร์การจำแนกประเภทจะตอบคำถามดังกล่าว

แผนภาพด้านล่างแสดงวิธีการนำไปใช้ในสถาปัตยกรรมระบบคอมพิวเตอร์วิทัศน์ที่สร้างด้วย CNN อินพุต (โดยปกติจะเป็นรูปภาพหรือวิดีโอ) ที่ระบบวิเคราะห์จะอยู่ที่ด้านซ้ายสุดของแผนภาพ CNN ซึ่งนำไปใช้เป็นโครงข่ายประสาทเทียมเชิงลึก สลับเลเยอร์แบบหมุนวน ซึ่งยอดเยี่ยมในการแยกคุณลักษณะ พร้อมด้วยเลเยอร์ที่รวมเข้าด้วยกัน ซึ่งยอดเยี่ยมในการจดจำรูปแบบ รายละเอียดรูปภาพได้รับการประมวลผลจากซ้ายไปขวา และอาจมีการซ้ำซ้อนของสองชั้นมากกว่าที่แสดงด้านล่าง

สถาปัตยกรรมเครือข่ายประสาทเทียม (CNN)

เมื่อการวิเคราะห์เชิงลึกเพียงพอเสร็จสิ้น ชั้นเซลล์ประสาทที่เชื่อมต่อกันอย่างสมบูรณ์จะพิจารณารูปแบบข้อมูลและคุณสมบัติทั้งหมดโดยรวม และแก้ไขปัญหาการจำแนกประเภท (เช่น “มีรถยนต์อยู่ในภาพถ่ายหรือไม่”)

การประยุกต์คอมพิวเตอร์วิทัศน์

คอมพิวเตอร์วิทัศน์สามารถใช้ได้แพร่หลาย เนื่องจากระบบมีประสิทธิภาพมากขึ้นและใช้งานง่ายขึ้น จำนวนแอปพลิเคชันจึงเพิ่มมากขึ้น นี่คือแอปพลิเคชั่นบางส่วนที่รู้จักกันดี

การจดจำใบหน้า

หนึ่งในแอปพลิเคชั่นขั้นสูงและแพร่หลายที่สุดของคอมพิวเตอร์วิทัศน์เกี่ยวข้องกับการตรวจจับและจดจำใบหน้า สมาร์ทโฟน ระบบรักษาความปลอดภัย และอุปกรณ์ควบคุมการเข้าถึงใช้เซ็นเซอร์ กล้อง และโครงข่ายประสาทเทียมที่ผ่านการฝึกอบรมร่วมกันเพื่อระบุเวลาที่รูปภาพมีใบหน้า และเปลี่ยนใบหน้าที่พบเพื่อให้สามารถวิเคราะห์ได้

ระบบจดจำใบหน้าจะสแกนใบหน้าที่อยู่ใกล้เคียงเป็นประจำ ข้อมูลจากเซ็นเซอร์ราคาถูกและรวดเร็ว เช่น แหล่งกำเนิดแสงอินฟราเรดและกล้องความละเอียดต่ำแต่คอนทราสต์สูง จะถูกส่งผ่านโมเดล ML ที่ระบุการมีอยู่ของใบหน้า

หากตรวจพบใบหน้าที่อาจเป็นไปได้ กล้องจะสามารถชี้กล้องที่มีความละเอียดสูงกว่าและช้ากว่าไปยังใบหน้าเหล่านั้นได้ จากนั้นจึงทำการบันทึกสั้นๆ จากนั้นระบบประมวลผลภาพจะเปลี่ยนการบันทึกให้เป็นการสร้างภาพ 3 มิติขึ้นมาใหม่เพื่อช่วยตรวจสอบว่ามีใบหน้าอยู่หรือไม่ เครื่องแยกประเภทใบหน้าสามารถตัดสินใจได้ว่าบุคคลในภาพเป็นส่วนหนึ่งของกลุ่มที่ได้รับอนุญาตให้ปลดล็อกโทรศัพท์หรือเข้าถึงอาคารหรือไม่

ยานพาหนะขับเคลื่อนอัตโนมัติ

เป็นเรื่องยากที่จะสร้างระบบที่สามารถควบคุมยานพาหนะ นำทางโลก และตอบสนองต่อการเปลี่ยนแปลงของสภาพแวดล้อมแบบเรียลไทม์ ระบบคอมพิวเตอร์วิทัศน์เป็นเพียงเทคโนโลยีหลักที่ช่วยให้ยานยนต์ขับเคลื่อนอัตโนมัติได้

ระบบการมองเห็นเหล่านี้เรียนรู้ที่จะระบุถนน ป้ายถนน ยานพาหนะ สิ่งกีดขวาง คนเดินถนน และสิ่งอื่นๆ ส่วนใหญ่ที่อาจพบขณะขับขี่ ก่อนที่จะมีประสิทธิภาพ พวกเขาจะต้องวิเคราะห์ข้อมูลจำนวนมากที่ได้รับภายใต้สภาพการขับขี่ทุกประเภทเสียก่อน

เพื่อให้มีประโยชน์ในสภาวะจริง ระบบคอมพิวเตอร์วิทัศน์ที่ใช้สำหรับยานยนต์ไร้คนขับจะต้องรวดเร็วมาก (ดังนั้นยานยนต์ไร้คนขับจึงมีเวลาสูงสุดในการตอบสนองต่อสภาวะที่เปลี่ยนแปลงไป) แม่นยำ (เนื่องจากความผิดพลาดอาจเป็นอันตรายต่อชีวิตได้) และมีประสิทธิภาพ (เนื่องจากปัญหา มีความซับซ้อน—ระบบจะต้องระบุวัตถุในทุกสภาพอากาศและแสง) บริษัทยานยนต์ไร้คนขับกำลังลงทุนมหาศาลในระบบนิเวศ ปริมาณข้อมูลที่มีอยู่เพิ่มขึ้นอย่างทวีคูณ และเทคนิคที่ใช้ในการประมวลผลก็มีการปรับปรุงอย่างรวดเร็ว

ความเป็นจริงยิ่ง

แว่นตาอัจฉริยะและกล้องในโทรศัพท์ในปัจจุบันอาศัยระบบคอมพิวเตอร์วิทัศน์เพื่อมอบประสบการณ์ความเป็นจริงเสริมให้กับผู้ใช้ ระบบที่ได้รับการฝึกอบรมมาอย่างดี คล้ายกับระบบที่ใช้ในการเปิดใช้งานยานพาหนะอัตโนมัติ โดยระบุวัตถุในกรอบสำหรับกล้องหรือชุดแว่นตาอัจฉริยะ และตำแหน่งของวัตถุที่สัมพันธ์กันในพื้นที่ 3 มิติ

จากนั้นระบบสร้างภาพขั้นสูงจะเสียบเข้ากับข้อมูลนี้เพื่อเพิ่มสิ่งที่กล้องหรือแว่นตาแสดงต่อผู้ใช้ในรูปแบบต่างๆ ตัวอย่างเช่น พวกเขาสามารถสร้างภาพลวงตาว่าข้อมูลถูกฉายบนพื้นผิวหรือแสดงให้เห็นว่าวัตถุต่างๆ เช่น เฟอร์นิเจอร์อาจพอดีกับพื้นที่ 3 มิติได้อย่างไร

ข้อดีของการมองเห็นด้วยคอมพิวเตอร์

ระบบคอมพิวเตอร์วิทัศน์สามารถช่วยเพิ่มการมองเห็นของมนุษย์ ปรับปรุงระบบรักษาความปลอดภัย และวิเคราะห์ข้อมูลในวงกว้าง ประโยชน์หลักของการใช้มีดังต่อไปนี้:

ความเร็วและขนาดของการรับรู้วัตถุ

ระบบคอมพิวเตอร์วิทัศน์ที่ล้ำสมัยสามารถระบุวัตถุได้รวดเร็วกว่ามากและมีปริมาณมากกว่ามนุษย์มาก ตัวอย่างเช่น สายการผลิตจะเคลื่อนที่เร็วขึ้นเมื่อระบบคอมพิวเตอร์วิทัศน์อัตโนมัติช่วยเหลือหัวหน้างาน ยานพาหนะที่ขับเคลื่อนด้วยตนเองสามารถทำงานในโหมดช่วยเหลือผู้ขับขี่ ช่วยให้ผู้ขับขี่ทราบข้อมูลจากสภาพแวดล้อมรอบตัวที่ไม่สามารถตรวจจับได้อย่างรวดเร็ว พวกเขายังสามารถเข้าควบคุมและตัดสินใจได้รวดเร็วและปลอดภัยกว่ามนุษย์ที่ไม่ได้รับความช่วยเหลืออย่างเต็มที่

ความแม่นยำ

ระบบคอมพิวเตอร์วิทัศน์ที่ได้รับการฝึกอบรมมาอย่างดีจะมีความแม่นยำมากกว่ามนุษย์ในงานที่พวกเขาได้รับการฝึกอบรม ตัวอย่างเช่น พวกเขาสามารถระบุข้อบกพร่องในวัตถุได้แม่นยำยิ่งขึ้น หรือตรวจจับการเติบโตของมะเร็งตั้งแต่เนิ่นๆ ในภาพทางการแพทย์

การประมวลผลข้อมูลปริมาณมาก

ระบบการมองเห็นสามารถระบุความผิดปกติและภัยคุกคามในฟีดรูปภาพและวิดีโอจำนวนมากได้รวดเร็วและแม่นยำกว่ามนุษย์มาก ความสามารถในการประมวลผลข้อมูลมีความสัมพันธ์กับพลังการประมวลผลที่มีอยู่และสามารถขยายขนาดได้อย่างไม่มีกำหนด

ข้อเสียของการมองเห็นด้วยคอมพิวเตอร์

ระบบคอมพิวเตอร์วิทัศน์ประสิทธิภาพสูงนั้นผลิตได้ยาก ความท้าทายและข้อเสียบางประการมีดังต่อไปนี้:

ฟิตเกิน

ระบบคอมพิวเตอร์วิทัศน์ในปัจจุบันสร้างขึ้นจากอัลกอริธึมและเครือข่ายการเรียนรู้เชิงลึก พวกเขาขึ้นอยู่กับการเข้าถึงข้อมูลที่มีคำอธิบายประกอบจำนวนมากในระหว่างการฝึกอบรม ปัจจุบัน ข้อมูลการฝึกด้วยภาพยังไม่มีในปริมาณมากที่เห็นในแอปพลิเคชันอื่นๆ และการสร้างข้อมูลดังกล่าวถือเป็นเรื่องท้าทายและมีค่าใช้จ่ายสูง ผลก็คือ ระบบคอมพิวเตอร์วิทัศน์จำนวนมากได้รับการฝึกอบรมเกี่ยวกับข้อมูลไม่เพียงพอ และจะเหมาะสมเกินไป โดยจะต้องได้รับความช่วยเหลือในการสรุปสถานการณ์ใหม่และที่มองไม่เห็น

ความเป็นส่วนตัวเป็นเรื่องยากที่จะรับประกันในวงกว้าง

ระบบคอมพิวเตอร์วิทัศน์อาจสังเกตและเรียนรู้จากข้อมูลส่วนตัวหรือข้อมูลที่ได้รับการคุ้มครองจำนวนมาก เมื่อพวกเขาอยู่ในภาคสนามแล้ว พวกเขาอาจสังเกตข้อมูลโดยพลการในสภาพแวดล้อมของพวกเขาด้วย เป็นการยากที่จะรับประกันว่าข้อมูลการฝึกอบรมจะปราศจากข้อมูลส่วนตัว และยิ่งยากยิ่งขึ้นไปอีกในการป้องกันไม่ให้ระบบในภาคสนามรวมข้อมูลส่วนตัวเข้ากับการฝึกอบรม

ซับซ้อนทางการคำนวณ

ระบบที่ใช้คอมพิวเตอร์วิทัศน์มีแนวโน้มที่จะนำไปใช้กับปัญหาที่ท้าทายที่สุดในสาขา AI ด้วยเหตุนี้จึงมีราคาแพงและซับซ้อน และอาจเป็นเรื่องยากที่จะสร้างและประกอบอย่างถูกต้อง

บทสรุป

ปัญหาที่น่าสนใจและท้าทายที่สุดหลายประการใน ML และ AI เกี่ยวข้องกับการใช้และการประยุกต์ใช้ระบบคอมพิวเตอร์วิทัศน์ สิ่งเหล่านี้มีประโยชน์อย่างแพร่หลาย รวมถึงในระบบรักษาความปลอดภัย ยานพาหนะที่ขับเคลื่อนด้วยตนเอง การวิเคราะห์ภาพทางการแพทย์ และที่อื่นๆ กล่าวคือ ระบบคอมพิวเตอร์วิทัศน์มีราคาแพงและท้าทายในการสร้าง

โดยอาศัยการรวบรวมข้อมูลในวงกว้างที่ใช้เวลานาน ต้องใช้ทรัพยากรที่กำหนดเองหรือมีราคาแพงก่อนจึงจะสามารถใช้งานได้อย่างมีประสิทธิภาพ และก่อให้เกิดข้อกังวลด้านความเป็นส่วนตัว การวิจัยอย่างกว้างขวางกำลังดำเนินการในประเด็นสำคัญของ ML ซึ่งกำลังก้าวหน้าอย่างรวดเร็ว