رؤية الكمبيوتر والذكاء الاصطناعي: تحويل الفهم البصري

نشرت: 2025-01-15

تعد رؤية الكمبيوتر أحد المجالات الفرعية الأساسية في الذكاء الاصطناعي (AI). يشرح هذا الدليل رؤية الكمبيوتر، وكيفية عملها، وأين يتم تطبيقها، وفوائدها وعيوبها.

جدول المحتويات

  • ما هي الرؤية الحاسوبية؟
  • تاريخ وتطور الرؤية الحاسوبية
  • كيف تعمل رؤية الكمبيوتر
  • تطبيقات الرؤية الحاسوبية
  • مزايا الرؤية الحاسوبية
  • عيوب رؤية الكمبيوتر
  • خاتمة

ما هي الرؤية الحاسوبية؟

يغطي مجال رؤية الكمبيوتر جميع تقنيات الذكاء الاصطناعي التي تستخدم أنظمة الكمبيوتر لتحليل البيانات المرئية، مثل البيانات الموجودة في مقاطع الفيديو والصور. لقد كان هذا المجال موجودًا رسميًا منذ الستينيات، واستخدمت تطبيقات الرؤية الحاسوبية المبكرة مطابقة الأنماط وغيرها من الاستدلالات لتحسين الصور في الطب الحيوي، والفيزياء المتقدمة، وغيرها من مجالات البحث المتطورة. تعتمد جميع أنظمة الرؤية الحاسوبية الحديثة تقريبًا بشكل حصري على خوارزميات التعلم الآلي (ML) (وبشكل أكثر تحديدًا، خوارزميات التعلم العميق) للقيام بعملها، لأنها أكثر فعالية بكثير من التقنيات القديمة.

اعمل بشكل أكثر ذكاءً مع Grammarly
شريك الكتابة بالذكاء الاصطناعي لأي شخص لديه عمل للقيام به

تاريخ وتطور الرؤية الحاسوبية

تعود جذور الرؤية الحاسوبية إلى التجارب التي أجراها علماء الفيزيولوجيا العصبية الذين سعوا إلى فهم كيفية معالجة الصور التي تنتجها العين في الدماغ. خلال العقود القليلة الأولى من تطورها، استمدت الرؤية الحاسوبية بشكل كبير من الأبحاث المتعلقة بالرؤية البشرية والحيوانية واستلهمت منها.

على الرغم من أنه من الصعب تحديد سنة البداية بدقة، إلا أن عام 1959 غالبًا ما يعتبر بداية المجال. في ذلك العام، تم إنشاء مفهومين أساسيين لتحليل الصور: (1) أن تحليل الصورة يجب أن يركز على تحديد المكونات الفرعية للصورة أولاً، و(2) أنه ينبغي بعد ذلك تحليل تلك المكونات بشكل هرمي.

تسلط القائمة أدناه الضوء على بعض المعالم الرئيسية بين اكتشاف هذه المفاهيم الأساسية والانفجار الأخير في التطورات في رؤية الكمبيوتر. اليوم، تعتمد أنظمة الرؤية الحاسوبية على خوارزميات التعلم العميق المعقدة لمعالجة وفهم وتحرير وإنشاء صور واقعية في الوقت الحقيقي.

المعالم الرئيسية في تطوير رؤية الكمبيوتر

1959:أظهرت دراسات أدمغة الحيوانات أن المكونات البسيطة للصورة (مثل الحواف والخطوط) تم اكتشافها أولاً ثم معالجتها بشكل هرمي. أصبحت هذه الأفكار اثنين من المفاهيم الأساسية في رؤية الكمبيوتر ويتم التعرف عليها على أنها البدايات الرسمية لهذا المجال.

الستينيات:بدأت الجهود الرسمية الأولى للذكاء الاصطناعي والرؤية الحاسوبية. وتضمنت التطورات أنظمة تعمل تلقائيًا على تحويل أجزاء من الصور الفوتوغرافية إلى كائنات ثلاثية الأبعاد مكافئة.

السبعينيات:أدى التركيز على أبحاث وتعليم رؤية الكمبيوتر إلى إنتاج العديد من خوارزميات رؤية الكمبيوتر الأساسية التي لا تزال قيد الاستخدام حتى اليوم، بما في ذلك تلك الخاصة باكتشاف الأنماط، وتقدير الحركة، واكتشاف الحواف، ووضع العلامات على الخطوط، والنمذجة الهندسية لمكونات الصورة.

الثمانينيات:تم تطوير الشبكات العصبية التلافيفية (CNN) بشكل ملحوظ طوال العقد. في عام 1989، تم تطبيق أول CNN بنجاح على مشكلة في الرؤية، حيث اكتشف تلقائيًا الرموز البريدية في الصور.

التسعينيات:أصبحت الكاميرات الذكية ذات شعبية متزايدة واستخدمت على نطاق واسع في البيئات الصناعية. أدى الطلب المتزايد على الأدوات اللازمة لمعالجة كميات كبيرة من الصور الرقمية إلى انفجار في الاستثمار التجاري، مما أدى إلى مزيد من التقدم في هذا المجال. ولدت صناعة الرؤية الحاسوبية، وتم تطوير أساليب رسمية لتقييم جودة أنظمة الرؤية الحاسوبية.

2000:في أواخر التسعينيات وأوائل العقد الأول من القرن الحادي والعشرين، أسس الباحثون مفهوم عمى التغيير. لقد أثبتوا أن البشر غالبًا ما يفتقدون تغييرات جوهرية عند مراقبة البيانات المرئية. ساعد هذا الاكتشاف في إنشاء زوج آخر من المفاهيم - أفكار الاهتمام والمعالجة الجزئية - كعناصر أساسية في رؤية الكمبيوتر.

2011:لأول مرة، أظهر فريق في سويسرا أن شبكات CNN المطبقة على وحدات معالجة الرسومات كانت بمثابة نظام ML للرؤية الحاسوبية فعال بشكل واضح. كانت هذه الأنظمة ثورية، حيث حطمت العديد من سجلات الرؤية وتفوقت على البشر لأول مرة. بدأت أنظمة الرؤية الحاسوبية في الانتقال إلى التطبيقات المستندة إلى CNN.

2015:فاز تطبيق التعلم العميق لشبكات CNN بمسابقة ImageNet لأول مرة، مما يمثل بداية العصر الحديث للرؤية الحاسوبية.

كيف تعمل رؤية الكمبيوتر

عادةً ما يتضمن عمل الرؤية الحاسوبية ثلاثة أجزاء، سنصفها أدناه. يمكن أن تكون تفاصيل التنفيذ ذات المستوى الأدنى معقدة للغاية، وغالبًا ما تتضمن مراحل متكررة، كما هو موضح في الجزء الثالث أدناه. حتى عندما تكون تفاصيل التنفيذ معقدة، فإن العمل عادة ما يتبع هذه الأنماط.

1 الحصول على الصور

مثل أنظمة تعلم الآلة الأخرى، تعتمد أنظمة معالجة البيانات المرئية على كمية ونوعية البيانات التي يمكنها الوصول إليها. عند تصميم نظام رؤية الكمبيوتر، يتم إيلاء اهتمام دقيق لمتى وكيف يتم الحصول على البيانات والصور المصدرية لتحسين جودة المعالجة. يجب مراعاة عوامل مختلفة وتحسينها، بما في ذلك:

  • أجهزة الاستشعار:عدد وأنواع أجهزة الاستشعار المستخدمة. تستخدم أنظمة الرؤية الحاسوبية أجهزة استشعار للحصول على البيانات من بيئتها، بما في ذلك كاميرات الفيديو، وأجهزة الليدار (كشف الضوء والمدى)، والرادار، وأجهزة استشعار الأشعة تحت الحمراء.
  • النشر:ترتيب أجهزة الاستشعار وتوجيهها لتقليل النقاط العمياء وتحقيق الاستخدام الأمثل لمعلومات الاستشعار.
  • بيانات الاستشعار:يجب معالجة أنواع وكميات مختلفة من البيانات وتفسيرها بشكل مختلف. على سبيل المثال، تتطلب بيانات التصوير بالرنين المغناطيسي والأشعة السينية والفيديو متطلبات معالجة وتخزين وتفسير متخصصة.

يجب أن يتمتع نظام الرؤية الحاسوبية بشكل مثالي بإمكانية الوصول إلى ما يكفي من بيانات الصورة. فمع وجود بيانات قليلة جدًا، لن يتمكن من رؤية معلومات كافية لحل المشكلات التي تم تصميمه لحلها. سيؤدي وجود الكثير من البيانات غير ذات الصلة إلى زيادة موارد النظام إلى الحد الأقصى، وإبطائه، وجعل تشغيله مكلفًا. يعد التحسين الدقيق لمرحلة الحصول على الصور أمرًا بالغ الأهمية لبناء أنظمة رؤية حاسوبية فعالة.

2 معالجة الصور (المسبقة).

نفس البيانات المرئية من مصدرين مختلفين يمكن أن تعني أشياء مختلفة. يمكن أيضًا أن تشير التفاصيل المتعلقة بالسياق الذي تم التقاط الصورة فيه (مثل الإضاءة المحيطة ودرجة الحرارة وحركة الكاميرا) إلى أنه يجب تفسير الصورة بشكل مختلف.

تتضمن المعالجة المسبقة للصور الكثير من العمل لتسهيل فهم الصور وتحليلها. على سبيل المثال، قد تتم تسوية الصور، مما يعني أنه يتم ضبط الخصائص مثل الحجم واللون والدقة والاتجاه لتكون متسقة عبر الصور. يمكن أيضًا تعديل الخصائص الأخرى أثناء المعالجة المسبقة لمساعدة خوارزميات الرؤية في اكتشاف الميزات الخاصة بالمجال. على سبيل المثال، قد يتم تحسين التباين لجعل بعض الكائنات أو الميزات أكثر وضوحًا.

قد يتم إجراء تعديلات مخصصة للتعويض عن الاختلافات في أجهزة الاستشعار، وتلف أجهزة الاستشعار، وأعمال الصيانة ذات الصلة. وأخيرًا، قد يتم إجراء بعض التعديلات لتحسين كفاءة المعالجة والتكلفة، مع مراعاة تفاصيل محددة حول كيفية تحليل الصور.

3 معالجة الصور وتحليلها: استخراج الميزات والتعرف على الأنماط والتصنيف

أنظمة رؤية الكمبيوتر الحالية هي هرمية، مع الأخذ في الاعتبار أجزاء من كل صورة بشكل مستقل. عادةً ما تكون كل طبقة في التسلسل الهرمي متخصصة في تنفيذ أحد الأشياء الثلاثة:

  • استخراج المعالم:تعثر طبقة استخراج المعالم على مكونات الصورة المثيرة للاهتمام. على سبيل المثال، قد يحدد أين يمكن العثور على الخطوط المستقيمة في الصورة.
  • التعرف على الأنماط:تبحث طبقة التعرف على الأنماط في كيفية دمج الميزات المختلفة في الأنماط. وقد تحدد، على سبيل المثال، مجموعات الخطوط الموجودة في الصورة التي تشكل مضلعات.
  • التصنيف:بعد التكرار الكافي لاستخراج الميزات والتعرف على الأنماط، ربما يكون النظام قد تعلم ما يكفي عن صورة معينة للإجابة على سؤال التصنيف، مثل "هل هناك أي سيارات في هذه الصورة؟" طبقة التصنيف تجيب على مثل هذه الأسئلة.

يوضح الرسم البياني أدناه كيفية تنفيذ ذلك في بنية نظام رؤية الكمبيوتر المبني باستخدام شبكات CNN. الإدخال (عادة صورة أو فيديو) الذي يحلله النظام موجود في أقصى يسار الرسم التخطيطي. تعمل شبكة CNN، التي يتم تنفيذها كشبكة عصبية عميقة، على تبديل الطبقات التلافيفية، التي تتفوق في استخراج الميزات، مع طبقات التجميع، التي تتفوق في التعرف على الأنماط. تتم معالجة تفاصيل الصورة من اليسار إلى اليمين، وقد يكون هناك تكرار للطبقتين أكثر من تلك الموضحة أدناه.

بنية الشبكة العصبية التلافيفية (CNN).

بمجرد الانتهاء من التحليل العميق بما فيه الكفاية، تقوم طبقة متصلة بالكامل من الخلايا العصبية بدراسة جميع أنماط البيانات وميزاتها بشكل إجمالي وتحل مشكلة التصنيف (مثل "هل هناك سيارة في الصورة؟").

تطبيقات الرؤية الحاسوبية

رؤية الكمبيوتر قابلة للتطبيق في كل مكان. نظرًا لأن الأنظمة أصبحت أكثر قوة وأسهل في التطبيق، فقد زاد عدد التطبيقات بشكل كبير. فيما يلي بعض التطبيقات الأكثر شهرة.

التعرف على الوجه

يتضمن أحد تطبيقات رؤية الكمبيوتر الأكثر انتشارًا وتقدمًا اكتشاف الوجوه والتعرف عليها. تستخدم الهواتف الذكية وأنظمة الأمان وأجهزة التحكم في الوصول مجموعة من أجهزة الاستشعار والكاميرات والشبكات العصبية المدربة لتحديد متى تحتوي الصور على وجوه وتحويل أي وجوه تم العثور عليها حتى يمكن تحليلها.

يقوم نظام التعرف على الوجه بمسح الوجوه القريبة بانتظام. يتم تمرير البيانات المستمدة من أجهزة استشعار رخيصة وسريعة، مثل مصدر ضوء الأشعة تحت الحمراء وكاميرا منخفضة الدقة ولكن عالية التباين، من خلال نموذج التعلم الآلي الذي يحدد وجود الوجوه.

إذا تم اكتشاف أي وجوه محتملة، فيمكن توجيه كاميرا أبطأ وأكثر تكلفة وأعلى دقة نحوهم ثم إجراء تسجيل قصير. يمكن لنظام المعالجة المرئية بعد ذلك تحويل التسجيل إلى عمليات إعادة بناء ثلاثية الأبعاد للمساعدة في التحقق من وجود الوجه. يمكن لمصنف الوجه بعد ذلك تحديد ما إذا كان الأشخاص الموجودون في الصورة جزءًا من مجموعة يُسمح لها بفتح الهاتف أو الوصول إلى المبنى.

المركبات ذاتية القيادة

من الصعب بناء نظام يمكنه التحكم في السيارة، والتنقل حول العالم، والتفاعل في الوقت الفعلي مع التغيرات في بيئتها. أنظمة الرؤية الحاسوبية هي مجرد تقنية أساسية واحدة تمكن المركبات ذاتية القيادة.

تتعلم أنظمة الرؤية هذه التعرف على الطرق وإشارات الطرق والمركبات والعوائق والمشاة ومعظم الأشياء الأخرى التي قد تواجهها أثناء القيادة. وقبل أن تكون فعالة، يجب عليها تحليل كميات كبيرة من البيانات التي تم الحصول عليها في جميع أنواع ظروف القيادة.

لكي تكون أنظمة الرؤية الحاسوبية المستخدمة في المركبات ذاتية القيادة مفيدة في الظروف الحقيقية، يجب أن تكون سريعة جدًا (بحيث يكون للمركبة ذاتية القيادة أقصى وقت للتفاعل مع الظروف المتغيرة)، ودقيقة (نظرًا لأن الخطأ يمكن أن يعرض الأرواح للخطر)، وقوية (نظرًا لأن المشكلة معقدة - يجب على النظام التعرف على الأشياء في جميع ظروف الطقس والإضاءة). تستثمر شركات المركبات ذاتية القيادة بكثافة في النظام البيئي. وتتزايد أحجام البيانات المتاحة بشكل كبير، كما أن التقنيات المستخدمة لمعالجتها تتحسن بسرعة.

الواقع المعزز

تعتمد النظارات الذكية وكاميرات الهواتف الحالية على أنظمة الرؤية الحاسوبية لتوفير تجارب الواقع المعزز لمستخدميها. تحدد الأنظمة المدربة جيدًا، والمشابهة لتلك المستخدمة لتمكين المركبات ذاتية القيادة، الأشياء الموجودة في إطار الكاميرا أو مجموعة النظارات الذكية وموضع الأشياء بالنسبة لبعضها البعض في الفضاء ثلاثي الأبعاد.

تقوم أنظمة توليد الصور المتقدمة بعد ذلك بتوصيل هذه المعلومات لتعزيز ما تعرضه الكاميرا أو النظارات للمستخدم بطرق مختلفة. على سبيل المثال، يمكنهم خلق الوهم بأن البيانات يتم عرضها على الأسطح أو إظهار كيف يمكن لأشياء مثل الأثاث أن تتناسب مع المساحة ثلاثية الأبعاد.

مزايا الرؤية الحاسوبية

يمكن لأنظمة الرؤية الحاسوبية أن تساعد في تعزيز الرؤية البشرية، وتعزيز أنظمة الأمان، وتحليل البيانات على نطاق واسع. الفوائد الرئيسية لاستخدامها تشمل ما يلي:

سرعة وحجم التعرف على الأشياء

يمكن لأنظمة الرؤية الحاسوبية المتطورة التعرف على الأشياء بشكل أسرع بكثير وبحجم أعلى بكثير من البشر. على سبيل المثال، سيتحرك خط التجميع بشكل أسرع عندما يساعد نظام الرؤية الحاسوبية الآلي المشرف عليه. يمكن للمركبات ذاتية القيادة أن تعمل في وضع مساعدة السائق، مما يساعد السائقين على إدراك المعلومات الواردة من محيطهم والتي لن يتمكنوا من اكتشافها بسرعة. يمكنهم أيضًا تولي المسؤولية بشكل كامل واتخاذ قرارات أسرع وأكثر أمانًا من الإنسان بدون مساعدة.

دقة

تعد أنظمة الرؤية الحاسوبية المدربة جيدًا أكثر دقة من البشر في المهام التي تم تدريبهم عليها. على سبيل المثال، يمكنهم تحديد العيوب في الأشياء بشكل أكثر دقة أو اكتشاف النمو السرطاني في وقت مبكر في الصور الطبية.

حجم كبير من معالجة البيانات

يمكن لأنظمة الرؤية تحديد الحالات الشاذة والتهديدات بكميات كبيرة من الصور ومقاطع الفيديو بشكل أسرع وأكثر دقة من البشر. وترتبط قدرتها على معالجة المعلومات بقدرة الحوسبة المتاحة ويمكن توسيع نطاقها إلى أجل غير مسمى.

عيوب رؤية الكمبيوتر

من الصعب إنتاج أنظمة رؤية حاسوبية عالية الأداء. بعض التحديات والعيوب تشمل ما يلي:

التجهيز الزائد

أنظمة رؤية الكمبيوتر الحالية مبنية على خوارزميات وشبكات التعلم العميق. وهي تعتمد على الوصول إلى مجموعات كبيرة من البيانات المشروحة أثناء التدريب. في الوقت الحالي، لا تتوفر بيانات التدريب المرئي في الكميات الكبيرة التي تظهر في التطبيقات الأخرى، كما أن توليدها يمثل تحديًا ومكلفًا. ونتيجة لذلك، يتم تدريب العديد من أنظمة الرؤية الحاسوبية على بيانات غير كافية وسوف تتعرض للإرهاق الزائد، وسوف تحتاج إلى مساعدة في التعميم على المواقف الجديدة وغير المرئية.

من الصعب ضمان الخصوصية على نطاق واسع

قد تراقب أنظمة الرؤية الحاسوبية كميات كبيرة من البيانات الخاصة أو المحمية وتتعلم منها. بمجرد تواجدهم في الميدان، قد يلاحظون أيضًا بيانات عشوائية في بيئتهم. من الصعب ضمان خلو بيانات التدريب من المعلومات الخاصة، ومن الأصعب منع نظام ما في الميدان من دمج المعلومات الخاصة في التدريب الخاص به.

معقدة حسابيا

تميل الأنظمة التي تستخدم الرؤية الحاسوبية إلى تطبيقها على بعض المشكلات الأكثر صعوبة في مجال الذكاء الاصطناعي. ونتيجة لذلك، فهي باهظة الثمن ومعقدة ويمكن أن يكون من الصعب بناءها وتجميعها بشكل صحيح.

خاتمة

تتضمن العديد من المشكلات الأكثر إثارة للاهتمام والتحدي في تعلم الآلة والذكاء الاصطناعي استخدام وتطبيق أنظمة رؤية الكمبيوتر. وهي مفيدة في كل مكان، بما في ذلك الأنظمة الأمنية، والمركبات ذاتية القيادة، وتحليل الصور الطبية، وأماكن أخرى. ومع ذلك، فإن أنظمة الرؤية الحاسوبية باهظة الثمن ويصعب بناؤها.

فهي تعتمد على جمع البيانات على نطاق واسع، وهو ما يستغرق وقتًا طويلاً، وتتطلب موارد مخصصة أو باهظة الثمن قبل أن يتم استخدامها بفعالية، وتثير مخاوف تتعلق بالخصوصية. تجري حاليًا أبحاث مكثفة في هذا المجال الرئيسي لتعلم الآلة، والذي يتقدم بسرعة.