คอมพิวเตอร์วิทัศน์และ AI: พลิกโฉมความเข้าใจด้วยภาพ
เผยแพร่แล้ว: 2025-01-15คอมพิวเตอร์วิทัศน์เป็นหนึ่งในโดเมนย่อยพื้นฐานของปัญญาประดิษฐ์ (AI) คู่มือนี้จะอธิบายคอมพิวเตอร์วิทัศน์ วิธีการทำงาน ตำแหน่งที่นำไปใช้ และคุณประโยชน์และข้อเสีย
สารบัญ
- คอมพิวเตอร์วิทัศน์คืออะไร?
- ประวัติและวิวัฒนาการของคอมพิวเตอร์วิทัศน์
- คอมพิวเตอร์วิทัศน์ทำงานอย่างไร
- การประยุกต์คอมพิวเตอร์วิทัศน์
- ข้อดีของการมองเห็นด้วยคอมพิวเตอร์
- ข้อเสียของการมองเห็นด้วยคอมพิวเตอร์
- บทสรุป
คอมพิวเตอร์วิทัศน์คืออะไร?
ขอบเขตของคอมพิวเตอร์วิทัศน์ครอบคลุมเทคนิค AI ทั้งหมดที่ใช้ระบบคอมพิวเตอร์ในการวิเคราะห์ข้อมูลภาพ เช่น ข้อมูลในวิดีโอและภาพถ่าย สาขานี้มีอย่างเป็นทางการตั้งแต่ทศวรรษ 1960 และแอปพลิเคชันคอมพิวเตอร์วิทัศน์ในยุคแรกๆ ใช้การจับคู่รูปแบบและการวิเคราะห์พฤติกรรมอื่นๆ เพื่อปรับปรุงภาพในชีวการแพทย์ ฟิสิกส์ขั้นสูง และสาขาการวิจัยที่ล้ำหน้าอื่นๆ ระบบคอมพิวเตอร์วิทัศน์ล่าสุดเกือบทั้งหมดอาศัยอัลกอริธึมการเรียนรู้ของเครื่อง (ML) โดยเฉพาะ (โดยเฉพาะอย่างยิ่ง อัลกอริธึมการเรียนรู้เชิงลึก) ในการทำงาน เนื่องจากมีประสิทธิภาพมากกว่าเทคนิคแบบเก่ามาก
ประวัติและวิวัฒนาการของคอมพิวเตอร์วิทัศน์
คอมพิวเตอร์วิทัศน์มีต้นกำเนิดมาจากการทดลองของนักประสาทสรีรวิทยาที่พยายามทำความเข้าใจว่าภาพที่ผลิตโดยดวงตาได้รับการประมวลผลในสมองอย่างไร ในช่วงสองสามทศวรรษแรกของการพัฒนา คอมพิวเตอร์วิทัศน์ได้ดึงเอาและได้รับแรงบันดาลใจจากการวิจัยเกี่ยวกับการมองเห็นของมนุษย์และสัตว์เป็นอย่างมาก
แม้ว่าจะเป็นเรื่องยากที่จะระบุปีเริ่มต้นที่แน่นอน แต่ปี 1959 ก็มักจะถือเป็นจุดเริ่มต้นของสนาม ในปีนั้น มีการกำหนดแนวคิดหลักสองประการในการวิเคราะห์ภาพ: (1) การวิเคราะห์ภาพควรมุ่งเน้นไปที่การระบุองค์ประกอบย่อยของภาพก่อน และ (2) องค์ประกอบเหล่านั้นควรได้รับการวิเคราะห์ตามลำดับชั้น
รายการด้านล่างเน้นย้ำถึงเหตุการณ์สำคัญบางประการระหว่างการค้นพบแนวคิดพื้นฐานเหล่านี้กับความก้าวหน้าที่เพิ่มขึ้นอย่างรวดเร็วในคอมพิวเตอร์วิทัศน์ ทุกวันนี้ ระบบคอมพิวเตอร์วิทัศน์อาศัยอัลกอริธึมการเรียนรู้เชิงลึกที่ซับซ้อนในการประมวลผล ทำความเข้าใจ แก้ไข และสร้างภาพที่สมจริงแบบเรียลไทม์
เหตุการณ์สำคัญในการพัฒนาคอมพิวเตอร์วิทัศน์
1959:การศึกษาสมองของสัตว์แสดงให้เห็นว่าส่วนประกอบง่ายๆ ของภาพ (เช่น ขอบและเส้น) ถูกตรวจพบก่อน จากนั้นจึงประมวลผลตามลำดับชั้น ข้อมูลเชิงลึกเหล่านี้กลายเป็นแนวคิดพื้นฐานสองประการในการมองเห็นคอมพิวเตอร์ และได้รับการยอมรับว่าเป็นจุดเริ่มต้นอย่างเป็นทางการของสาขานี้
ทศวรรษ 1960:ความพยายามด้าน AI และคอมพิวเตอร์วิทัศน์อย่างเป็นทางการครั้งแรกเริ่มขึ้น ความก้าวหน้ารวมถึงระบบที่เปลี่ยนส่วนของภาพถ่ายให้เป็นวัตถุสามมิติที่เทียบเท่าโดยอัตโนมัติ
ทศวรรษ 1970:การมุ่งเน้นไปที่การวิจัยและการศึกษาด้านคอมพิวเตอร์วิทัศน์ทำให้เกิดอัลกอริธึมคอมพิวเตอร์วิทัศน์หลักจำนวนมากที่ยังคงใช้อยู่ในปัจจุบัน รวมถึงอัลกอริธึมสำหรับการตรวจจับรูปแบบ การประมาณค่าการเคลื่อนไหว การตรวจจับขอบ การติดฉลากเส้น และการสร้างแบบจำลองทางเรขาคณิตของส่วนประกอบภาพ
ทศวรรษ 1980:โครงข่ายประสาทเทียมแบบ Convolutional (CNN) ได้รับการพัฒนาอย่างมีนัยสำคัญตลอดทศวรรษ ในปี 1989 CNN แรกได้ถูกนำไปใช้กับปัญหาการมองเห็น โดยตรวจจับรหัสไปรษณีย์ในภาพโดยอัตโนมัติ
ทศวรรษ 1990:กล้องอัจฉริยะได้รับความนิยมมากขึ้นเรื่อยๆ และมีการใช้อย่างแพร่หลายในอุตสาหกรรม ความต้องการเครื่องมือในการประมวลผลภาพดิจิทัลจำนวนมากที่เพิ่มขึ้น นำไปสู่การลงทุนเชิงพาณิชย์ที่ขยายตัวอย่างรวดเร็ว และทำให้สาขานี้ก้าวหน้าไปอีกขั้น อุตสาหกรรมคอมพิวเตอร์วิทัศน์ถือกำเนิดขึ้น และมีการพัฒนาวิธีการอย่างเป็นทางการในการประเมินคุณภาพของระบบคอมพิวเตอร์วิทัศน์
พ.ศ. 2543:ในช่วงปลายทศวรรษ 1990 และต้นทศวรรษ 2000 นักวิจัยได้กำหนดแนวคิดเรื่องการเปลี่ยนแปลงตาบอด พวกเขาแสดงให้เห็นว่ามนุษย์มักจะพลาดการเปลี่ยนแปลงที่สำคัญเมื่อสังเกตข้อมูลภาพ การค้นพบนี้ช่วยสร้างแนวคิดอีกคู่หนึ่ง—แนวคิดเรื่องความสนใจและการประมวลผลบางส่วน—เป็นองค์ประกอบหลักในการมองเห็นของคอมพิวเตอร์
2011:เป็นครั้งแรกที่ทีมงานในสวิตเซอร์แลนด์แสดงให้เห็นว่า CNN ที่นำไปใช้กับ GPU เป็นระบบ ML ของคอมพิวเตอร์วิทัศน์ที่มีประสิทธิภาพอย่างแน่นอน ระบบเหล่านี้เป็นการปฏิวัติ ทำลายสถิติด้านการมองเห็นมากมายและทำได้ดีกว่ามนุษย์เป็นครั้งแรก ระบบคอมพิวเตอร์วิทัศน์เริ่มเปลี่ยนไปใช้การใช้งานบน CNN
พ.ศ. 2558:การใช้การเรียนรู้เชิงลึกของ CNN ชนะการแข่งขัน ImageNet เป็นครั้งแรก ซึ่งถือเป็นจุดเริ่มต้นของยุคสมัยใหม่ของการมองเห็นคอมพิวเตอร์
คอมพิวเตอร์วิทัศน์ทำงานอย่างไร
งานด้านคอมพิวเตอร์วิทัศน์มักเกี่ยวข้องกับสามส่วน ซึ่งเราจะอธิบายไว้ด้านล่าง รายละเอียดการใช้งานระดับล่างอาจซับซ้อนมาก โดยมักเกี่ยวข้องกับขั้นตอนที่ซ้ำกัน ดังที่อธิบายไว้ในส่วนที่ 3 ด้านล่าง แม้ว่ารายละเอียดการใช้งานจะซับซ้อน แต่งานก็มักจะเป็นไปตามรูปแบบเหล่านี้
1 การได้มาของภาพ
เช่นเดียวกับระบบ ML อื่นๆ ระบบประมวลผลข้อมูลภาพขึ้นอยู่กับปริมาณและคุณภาพของข้อมูลที่สามารถเข้าถึงได้ เมื่อระบบคอมพิวเตอร์วิทัศน์ได้รับการออกแบบ จะต้องให้ความใส่ใจอย่างรอบคอบว่าเมื่อใดและอย่างไรในการรับข้อมูลต้นฉบับและรูปภาพ เพื่อปรับปรุงคุณภาพการประมวลผล ปัจจัยต่างๆ จะต้องได้รับการพิจารณาและปรับให้เหมาะสม ได้แก่:
- เซ็นเซอร์:จำนวนและประเภทของเซ็นเซอร์ที่ใช้งาน ระบบคอมพิวเตอร์วิทัศน์ใช้เซ็นเซอร์เพื่อรับข้อมูลจากสภาพแวดล้อม รวมถึงกล้องวิดีโอ ไลดาร์ (การตรวจจับและกำหนดขอบเขตแสง) เรดาร์ และเซ็นเซอร์อินฟราเรด
- การปรับใช้:การจัดเรียงและการวางแนวของเซ็นเซอร์เพื่อลดจุดบอดและใช้ประโยชน์จากข้อมูลเซ็นเซอร์ให้เกิดประโยชน์สูงสุด
- ข้อมูลเซ็นเซอร์:ข้อมูลประเภทและปริมาณที่แตกต่างกันจะต้องได้รับการประมวลผลและตีความต่างกัน ตัวอย่างเช่น ข้อมูล MRI, X-ray และวิดีโอมีข้อกำหนดการประมวลผล การจัดเก็บ และการตีความเฉพาะทาง
ระบบคอมพิวเตอร์วิทัศน์ควรสามารถเข้าถึงข้อมูลภาพได้อย่างเพียงพอ หากมีข้อมูลน้อยเกินไป จะไม่สามารถดูข้อมูลได้เพียงพอที่จะแก้ไขปัญหาที่ออกแบบมาเพื่อแก้ไข ข้อมูลที่ไม่เกี่ยวข้องมากเกินไปจะทำให้ทรัพยากรของระบบถูกใช้จนเต็มประสิทธิภาพ ทำให้ช้าลง และทำให้มีค่าใช้จ่ายสูงในการดำเนินการ การเพิ่มประสิทธิภาพอย่างระมัดระวังของขั้นตอนการรับภาพมีความสำคัญอย่างยิ่งต่อการสร้างระบบคอมพิวเตอร์วิทัศน์ที่มีประสิทธิภาพ
2 การประมวลผลภาพ (ก่อน)
ข้อมูลภาพเดียวกันจากแหล่งข้อมูลสองแหล่งที่แตกต่างกันอาจมีความหมายต่างกัน รายละเอียดเกี่ยวกับบริบทในการถ่ายภาพ (เช่น แสงโดยรอบ อุณหภูมิ และการเคลื่อนไหวของกล้อง) ยังสามารถระบุได้ว่าภาพควรได้รับการตีความแตกต่างออกไป
การประมวลผลภาพล่วงหน้าเกี่ยวข้องกับงานจำนวนมากเพื่อทำให้ภาพเข้าใจและวิเคราะห์ได้ง่ายขึ้น ตัวอย่างเช่น รูปภาพอาจถูกทำให้เป็นมาตรฐาน ซึ่งหมายความว่าคุณสมบัติต่างๆ เช่น ขนาด สี ความละเอียด และการวางแนว จะถูกปรับให้สอดคล้องกันในรูปภาพต่างๆ คุณสมบัติอื่นๆ ยังสามารถปรับได้ในระหว่างการประมวลผลล่วงหน้าเพื่อช่วยให้อัลกอริธึมการมองเห็นตรวจจับคุณสมบัติเฉพาะโดเมนได้ ตัวอย่างเช่น คอนทราสต์อาจได้รับการปรับปรุงเพื่อทำให้วัตถุหรือคุณสมบัติบางอย่างมองเห็นได้ชัดเจนยิ่งขึ้น
อาจมีการปรับเปลี่ยนแบบกำหนดเองเพื่อชดเชยความแตกต่างในเซ็นเซอร์ ความเสียหายของเซ็นเซอร์ และงานบำรุงรักษาที่เกี่ยวข้อง สุดท้ายนี้ อาจมีการปรับเปลี่ยนบางอย่างเพื่อเพิ่มประสิทธิภาพการประมวลผลและต้นทุน โดยคำนึงถึงรายละเอียดเฉพาะเกี่ยวกับวิธีการวิเคราะห์รูปภาพ
3 การประมวลผลและการวิเคราะห์ภาพ: การแยกคุณลักษณะ การจดจำรูปแบบ และการจำแนกประเภท
ระบบคอมพิวเตอร์วิทัศน์ในปัจจุบันเป็นแบบมีลำดับชั้น โดยพิจารณาส่วนต่างๆ ของแต่ละภาพอย่างเป็นอิสระ โดยทั่วไป แต่ละเลเยอร์ในลำดับชั้นจะมีความเชี่ยวชาญพิเศษในการดำเนินการหนึ่งในสามสิ่งต่อไปนี้:
- การแยกคุณลักษณะ:เลเยอร์การแยกคุณลักษณะจะค้นหาส่วนประกอบรูปภาพที่น่าสนใจ ตัวอย่างเช่น อาจระบุตำแหน่งที่เส้นตรงสามารถพบได้ในภาพ
- การจดจำรูปแบบ:เลเยอร์การจดจำรูปแบบจะดูว่าคุณสมบัติต่างๆ รวมกันเป็นรูปแบบอย่างไร ตัวอย่างเช่น อาจระบุได้ว่าเส้นใดผสมกันในรูปภาพทำให้เกิดรูปหลายเหลี่ยม
- การจัดหมวดหมู่:หลังจากการดึงคุณสมบัติและการจดจำรูปแบบซ้ำหลายครั้ง ระบบอาจเรียนรู้เพียงพอเกี่ยวกับรูปภาพที่กำหนดเพื่อตอบคำถามการจัดหมวดหมู่ เช่น "มีรถยนต์อยู่ในภาพนี้หรือไม่" เลเยอร์การจำแนกประเภทจะตอบคำถามดังกล่าว
แผนภาพด้านล่างแสดงวิธีการนำไปใช้ในสถาปัตยกรรมระบบคอมพิวเตอร์วิทัศน์ที่สร้างด้วย CNN อินพุต (โดยปกติจะเป็นรูปภาพหรือวิดีโอ) ที่ระบบวิเคราะห์จะอยู่ที่ด้านซ้ายสุดของแผนภาพ CNN ซึ่งนำไปใช้เป็นโครงข่ายประสาทเทียมเชิงลึก สลับเลเยอร์แบบหมุนวน ซึ่งยอดเยี่ยมในการแยกคุณลักษณะ พร้อมด้วยเลเยอร์ที่รวมเข้าด้วยกัน ซึ่งยอดเยี่ยมในการจดจำรูปแบบ รายละเอียดรูปภาพได้รับการประมวลผลจากซ้ายไปขวา และอาจมีการซ้ำซ้อนของสองชั้นมากกว่าที่แสดงด้านล่าง
เมื่อการวิเคราะห์เชิงลึกเพียงพอเสร็จสิ้น ชั้นเซลล์ประสาทที่เชื่อมต่อกันอย่างสมบูรณ์จะพิจารณารูปแบบข้อมูลและคุณสมบัติทั้งหมดโดยรวม และแก้ไขปัญหาการจำแนกประเภท (เช่น “มีรถยนต์อยู่ในภาพถ่ายหรือไม่”)
การประยุกต์คอมพิวเตอร์วิทัศน์
คอมพิวเตอร์วิทัศน์สามารถใช้ได้แพร่หลาย เนื่องจากระบบมีประสิทธิภาพมากขึ้นและใช้งานง่ายขึ้น จำนวนแอปพลิเคชันจึงเพิ่มมากขึ้น นี่คือแอปพลิเคชั่นบางส่วนที่รู้จักกันดี
การจดจำใบหน้า
หนึ่งในแอปพลิเคชั่นขั้นสูงและแพร่หลายที่สุดของคอมพิวเตอร์วิทัศน์เกี่ยวข้องกับการตรวจจับและจดจำใบหน้า สมาร์ทโฟน ระบบรักษาความปลอดภัย และอุปกรณ์ควบคุมการเข้าถึงใช้เซ็นเซอร์ กล้อง และโครงข่ายประสาทเทียมที่ผ่านการฝึกอบรมร่วมกันเพื่อระบุเวลาที่รูปภาพมีใบหน้า และเปลี่ยนใบหน้าที่พบเพื่อให้สามารถวิเคราะห์ได้
ระบบจดจำใบหน้าจะสแกนใบหน้าที่อยู่ใกล้เคียงเป็นประจำ ข้อมูลจากเซ็นเซอร์ราคาถูกและรวดเร็ว เช่น แหล่งกำเนิดแสงอินฟราเรดและกล้องความละเอียดต่ำแต่คอนทราสต์สูง จะถูกส่งผ่านโมเดล ML ที่ระบุการมีอยู่ของใบหน้า
หากตรวจพบใบหน้าที่อาจเป็นไปได้ กล้องจะสามารถชี้กล้องที่มีความละเอียดสูงกว่าและช้ากว่าไปยังใบหน้าเหล่านั้นได้ จากนั้นจึงทำการบันทึกสั้นๆ จากนั้นระบบประมวลผลภาพจะเปลี่ยนการบันทึกให้เป็นการสร้างภาพ 3 มิติขึ้นมาใหม่เพื่อช่วยตรวจสอบว่ามีใบหน้าอยู่หรือไม่ เครื่องแยกประเภทใบหน้าสามารถตัดสินใจได้ว่าบุคคลในภาพเป็นส่วนหนึ่งของกลุ่มที่ได้รับอนุญาตให้ปลดล็อกโทรศัพท์หรือเข้าถึงอาคารหรือไม่
ยานพาหนะขับเคลื่อนอัตโนมัติ
เป็นเรื่องยากที่จะสร้างระบบที่สามารถควบคุมยานพาหนะ นำทางโลก และตอบสนองต่อการเปลี่ยนแปลงของสภาพแวดล้อมแบบเรียลไทม์ ระบบคอมพิวเตอร์วิทัศน์เป็นเพียงเทคโนโลยีหลักที่ช่วยให้ยานยนต์ขับเคลื่อนอัตโนมัติได้
ระบบการมองเห็นเหล่านี้เรียนรู้ที่จะระบุถนน ป้ายถนน ยานพาหนะ สิ่งกีดขวาง คนเดินถนน และสิ่งอื่นๆ ส่วนใหญ่ที่อาจพบขณะขับขี่ ก่อนที่จะมีประสิทธิภาพ พวกเขาจะต้องวิเคราะห์ข้อมูลจำนวนมากที่ได้รับภายใต้สภาพการขับขี่ทุกประเภทเสียก่อน
เพื่อให้มีประโยชน์ในสภาวะจริง ระบบคอมพิวเตอร์วิทัศน์ที่ใช้สำหรับยานยนต์ไร้คนขับจะต้องรวดเร็วมาก (ดังนั้นยานยนต์ไร้คนขับจึงมีเวลาสูงสุดในการตอบสนองต่อสภาวะที่เปลี่ยนแปลงไป) แม่นยำ (เนื่องจากความผิดพลาดอาจเป็นอันตรายต่อชีวิตได้) และมีประสิทธิภาพ (เนื่องจากปัญหา มีความซับซ้อน—ระบบจะต้องระบุวัตถุในทุกสภาพอากาศและแสง) บริษัทยานยนต์ไร้คนขับกำลังลงทุนมหาศาลในระบบนิเวศ ปริมาณข้อมูลที่มีอยู่เพิ่มขึ้นอย่างทวีคูณ และเทคนิคที่ใช้ในการประมวลผลก็มีการปรับปรุงอย่างรวดเร็ว
ความเป็นจริงยิ่ง
แว่นตาอัจฉริยะและกล้องในโทรศัพท์ในปัจจุบันอาศัยระบบคอมพิวเตอร์วิทัศน์เพื่อมอบประสบการณ์ความเป็นจริงเสริมให้กับผู้ใช้ ระบบที่ได้รับการฝึกอบรมมาอย่างดี คล้ายกับระบบที่ใช้ในการเปิดใช้งานยานพาหนะอัตโนมัติ โดยระบุวัตถุในกรอบสำหรับกล้องหรือชุดแว่นตาอัจฉริยะ และตำแหน่งของวัตถุที่สัมพันธ์กันในพื้นที่ 3 มิติ
จากนั้นระบบสร้างภาพขั้นสูงจะเสียบเข้ากับข้อมูลนี้เพื่อเพิ่มสิ่งที่กล้องหรือแว่นตาแสดงต่อผู้ใช้ในรูปแบบต่างๆ ตัวอย่างเช่น พวกเขาสามารถสร้างภาพลวงตาว่าข้อมูลถูกฉายบนพื้นผิวหรือแสดงให้เห็นว่าวัตถุต่างๆ เช่น เฟอร์นิเจอร์อาจพอดีกับพื้นที่ 3 มิติได้อย่างไร
ข้อดีของการมองเห็นด้วยคอมพิวเตอร์
ระบบคอมพิวเตอร์วิทัศน์สามารถช่วยเพิ่มการมองเห็นของมนุษย์ ปรับปรุงระบบรักษาความปลอดภัย และวิเคราะห์ข้อมูลในวงกว้าง ประโยชน์หลักของการใช้มีดังต่อไปนี้:
ความเร็วและขนาดของการรับรู้วัตถุ
ระบบคอมพิวเตอร์วิทัศน์ที่ล้ำสมัยสามารถระบุวัตถุได้รวดเร็วกว่ามากและมีปริมาณมากกว่ามนุษย์มาก ตัวอย่างเช่น สายการผลิตจะเคลื่อนที่เร็วขึ้นเมื่อระบบคอมพิวเตอร์วิทัศน์อัตโนมัติช่วยเหลือหัวหน้างาน ยานพาหนะที่ขับเคลื่อนด้วยตนเองสามารถทำงานในโหมดช่วยเหลือผู้ขับขี่ ช่วยให้ผู้ขับขี่ทราบข้อมูลจากสภาพแวดล้อมรอบตัวที่ไม่สามารถตรวจจับได้อย่างรวดเร็ว พวกเขายังสามารถเข้าควบคุมและตัดสินใจได้รวดเร็วและปลอดภัยกว่ามนุษย์ที่ไม่ได้รับความช่วยเหลืออย่างเต็มที่
ความแม่นยำ
ระบบคอมพิวเตอร์วิทัศน์ที่ได้รับการฝึกอบรมมาอย่างดีจะมีความแม่นยำมากกว่ามนุษย์ในงานที่พวกเขาได้รับการฝึกอบรม ตัวอย่างเช่น พวกเขาสามารถระบุข้อบกพร่องในวัตถุได้แม่นยำยิ่งขึ้น หรือตรวจจับการเติบโตของมะเร็งตั้งแต่เนิ่นๆ ในภาพทางการแพทย์
การประมวลผลข้อมูลปริมาณมาก
ระบบการมองเห็นสามารถระบุความผิดปกติและภัยคุกคามในฟีดรูปภาพและวิดีโอจำนวนมากได้รวดเร็วและแม่นยำกว่ามนุษย์มาก ความสามารถในการประมวลผลข้อมูลมีความสัมพันธ์กับพลังการประมวลผลที่มีอยู่และสามารถขยายขนาดได้อย่างไม่มีกำหนด
ข้อเสียของการมองเห็นด้วยคอมพิวเตอร์
ระบบคอมพิวเตอร์วิทัศน์ประสิทธิภาพสูงนั้นผลิตได้ยาก ความท้าทายและข้อเสียบางประการมีดังต่อไปนี้:
ฟิตเกิน
ระบบคอมพิวเตอร์วิทัศน์ในปัจจุบันสร้างขึ้นจากอัลกอริธึมและเครือข่ายการเรียนรู้เชิงลึก พวกเขาขึ้นอยู่กับการเข้าถึงข้อมูลที่มีคำอธิบายประกอบจำนวนมากในระหว่างการฝึกอบรม ปัจจุบัน ข้อมูลการฝึกด้วยภาพยังไม่มีในปริมาณมากที่เห็นในแอปพลิเคชันอื่นๆ และการสร้างข้อมูลดังกล่าวถือเป็นเรื่องท้าทายและมีค่าใช้จ่ายสูง ผลก็คือ ระบบคอมพิวเตอร์วิทัศน์จำนวนมากได้รับการฝึกอบรมเกี่ยวกับข้อมูลไม่เพียงพอ และจะเหมาะสมเกินไป โดยจะต้องได้รับความช่วยเหลือในการสรุปสถานการณ์ใหม่และที่มองไม่เห็น
ความเป็นส่วนตัวเป็นเรื่องยากที่จะรับประกันในวงกว้าง
ระบบคอมพิวเตอร์วิทัศน์อาจสังเกตและเรียนรู้จากข้อมูลส่วนตัวหรือข้อมูลที่ได้รับการคุ้มครองจำนวนมาก เมื่อพวกเขาอยู่ในภาคสนามแล้ว พวกเขาอาจสังเกตข้อมูลโดยพลการในสภาพแวดล้อมของพวกเขาด้วย เป็นการยากที่จะรับประกันว่าข้อมูลการฝึกอบรมจะปราศจากข้อมูลส่วนตัว และยิ่งยากยิ่งขึ้นไปอีกในการป้องกันไม่ให้ระบบในภาคสนามรวมข้อมูลส่วนตัวเข้ากับการฝึกอบรม
ซับซ้อนทางการคำนวณ
ระบบที่ใช้คอมพิวเตอร์วิทัศน์มีแนวโน้มที่จะนำไปใช้กับปัญหาที่ท้าทายที่สุดในสาขา AI ด้วยเหตุนี้จึงมีราคาแพงและซับซ้อน และอาจเป็นเรื่องยากที่จะสร้างและประกอบอย่างถูกต้อง
บทสรุป
ปัญหาที่น่าสนใจและท้าทายที่สุดหลายประการใน ML และ AI เกี่ยวข้องกับการใช้และการประยุกต์ใช้ระบบคอมพิวเตอร์วิทัศน์ สิ่งเหล่านี้มีประโยชน์อย่างแพร่หลาย รวมถึงในระบบรักษาความปลอดภัย ยานพาหนะที่ขับเคลื่อนด้วยตนเอง การวิเคราะห์ภาพทางการแพทย์ และที่อื่นๆ กล่าวคือ ระบบคอมพิวเตอร์วิทัศน์มีราคาแพงและท้าทายในการสร้าง
โดยอาศัยการรวบรวมข้อมูลในวงกว้างที่ใช้เวลานาน ต้องใช้ทรัพยากรที่กำหนดเองหรือมีราคาแพงก่อนจึงจะสามารถใช้งานได้อย่างมีประสิทธิภาพ และก่อให้เกิดข้อกังวลด้านความเป็นส่วนตัว การวิจัยอย่างกว้างขวางกำลังดำเนินการในประเด็นสำคัญของ ML ซึ่งกำลังก้าวหน้าอย่างรวดเร็ว