التعلم تحت الإشراف: ما هو وكيف يعمل

نشرت: 2024-07-03

بدءًا من التعرف على الصور ووصولاً إلى تصفية البريد العشوائي، اكتشف كيف يعمل التعلم الخاضع للإشراف على تشغيل العديد من تطبيقات الذكاء الاصطناعي التي نواجهها يوميًا في هذا الدليل الإعلامي.

جدول المحتويات

ما هو التعلم الخاضع للإشراف؟
التعلم الخاضع للإشراف مقابل التعلم غير الخاضع للإشراف
كيف يعمل التعلم تحت الإشراف
أنواع التعلم الخاضع للإشراف
تطبيقات التعلم الخاضع للإشراف
مزايا التعلم تحت الإشراف
عيوب التعلم تحت الإشراف

ما هو التعلم الخاضع للإشراف؟

التعلم الخاضع للإشراف هو نوع من التعلم الآلي (ML) الذي يقوم بتدريب النماذج باستخدام البيانات المصنفة بالإجابة الصحيحة. المصطلحتحت الإشرافيعني أن هذه التسميات توفر إرشادات واضحة حول العلاقة بين المدخلات والمخرجات. تساعد هذه العملية النموذج على عمل تنبؤات دقيقة للبيانات الجديدة غير المرئية.

التعلم الآلي هو مجموعة فرعية من الذكاء الاصطناعي (AI) الذي يستخدم البيانات والأساليب الإحصائية لبناء نماذج تحاكي المنطق البشري بدلاً من الاعتماد على تعليمات مشفرة. يتبع التعلم الخاضع للإشراف منهجًا موجهًا يعتمد على البيانات لتحديد الأنماط والعلاقات في مجموعات البيانات المصنفة. وهو يستنبط من تقييماته للتنبؤ بنتائج البيانات الجديدة غير المرئية. ويتعلم من خلال مقارنة توقعاته بالتسميات المعروفة وتعديل نموذجه لتقليل الأخطاء.

اعمل بشكل أكثر ذكاءً مع Grammarly

شريك الكتابة بالذكاء الاصطناعي لأي شخص لديه عمل للقيام به

التعلم الخاضع للإشراف مقابل التعلم غير الخاضع للإشراف

وعلى النقيض من التعلم الخاضع للإشراف، والذي يستخدم البيانات المصنفة، فإن التعلم غير الخاضع للإشراف يجد أنماطًا في البيانات غير المسماة.

بدون "الإشراف" الذي توفره الإجابات الصحيحة الصريحة في بيانات التدريب، يتعامل التعلم غير الخاضع للرقابة مع كل ما يراه كبيانات لتحليل الأنماط والتجمعات. الأنواع الثلاثة الرئيسية هي:

التجميع: تقوم هذه التقنية بتجميع نقاط البيانات الأكثر تجاورًا لبعضها البعض.إنه مفيد لتجزئة العملاء أو فرز المستندات.
الارتباط: تحديد متى تميل الأشياء إلى الحدوث معًا، وعلى الأخص تحديد موقع العناصر التي يتم شراؤها معًا بشكل متكرر أو اقتراح ما سيتم بثه بعد ذلك.
تقليل الأبعاد: تقليص مجموعات البيانات لتسهيل معالجتها مع الحفاظ على جميع التفاصيل أو معظمها.

من ناحية أخرى، يكون التعلم الخاضع للإشراف منطقيًا عندما تريد أن يتخذ النموذج قرارات. تشمل التطبيقات الرئيسية ما يلي:

قرارات نعم أو لا: وضع علامة على البيانات كفئة أو أخرى.غالبًا ما يستخدم للتصفية مثل اكتشاف البريد العشوائي أو الاحتيال.
التصنيف: معرفة أي من الفئات العديدة ينتمي شيء ما، مثل تحديد الكائنات داخل الصورة أو التعرف على الكلام.
الانحدار: التنبؤ بالقيم المستمرة بناءً على البيانات التاريخية، مثل التنبؤ بأسعار المنازل أو الظروف الجوية.

توجد أنواع أخرى من تعلم الآلة بين هذين النوعين: التعلم شبه الخاضع للإشراف، والتعزيز، والتعلم الخاضع للإشراف الذاتي.

كيف يعمل التعلم تحت الإشراف

يتضمن التعلم الخاضع للإشراف عملية منظمة لاختيار البيانات وتنسيقها، وتشغيل النموذج، واختبار أدائه.

فيما يلي نظرة عامة مختصرة على عملية التعلم الخاضعة للإشراف:

1 التصنيف: تعد البيانات المصنفة ضرورية لتعلم الارتباط الصحيح بين المدخلات والمخرجات.على سبيل المثال، إذا كنت تقوم بإنشاء نموذج لتحليل المشاعر في مراجعات المنتجات، فابدأ بجعل المقيمين البشريين يقرأون المراجعات ويضعون عليها علامة إيجابية أو سلبية أو محايدة.

2 جمع البيانات وتنظيفها: تأكد من أن بيانات التدريب الخاصة بك شاملة وممثلة.قم بتنظيف البيانات عن طريق إزالة التكرارات وتصحيح الأخطاء ومعالجة أي قيم مفقودة لإعدادها للتحليل.

3 اختيار الميزة واستخراجها: تحديد واختيار السمات الأكثر تأثيرًا، مما يجعل النموذج أكثر كفاءة وفعالية.قد تتضمن هذه الخطوة أيضًا إنشاء ميزات جديدة من الميزات الموجودة لالتقاط الأنماط الأساسية في البيانات بشكل أفضل، مثل تحويل تاريخ الميلاد إلى العمر.

4 تقسيم البيانات: قم بتقسيم مجموعة البيانات إلى مجموعات تدريب واختبار.استخدم مجموعة التدريب لتدريب النموذج، ومجموعة الاختبار لمعرفة مدى نجاحه في التعميم على البيانات الجديدة غير المرئية.

5 اختيار الخوارزمية: اختر خوارزمية التعلم الخاضعة للإشراف بناءً على خصائص المهمة والبيانات.يمكنك أيضًا تشغيل خوارزميات متعددة ومقارنتها للعثور على أفضلها.

6 تدريب النموذج: تدريب النموذج باستخدام البيانات لتحسين دقته التنبؤية.خلال هذه المرحلة، يتعلم النموذج العلاقة بين المدخلات والمخرجات عن طريق تقليل الخطأ بشكل متكرر بين توقعاته والتسميات الفعلية المقدمة في بيانات التدريب. اعتمادًا على مدى تعقيد الخوارزمية وحجم مجموعة البيانات، قد يستغرق ذلك ثوانٍ إلى أيام.

7 تقييم النموذج: يضمن تقييم أداء النموذج أنه ينتج تنبؤات موثوقة ودقيقة بشأن البيانات الجديدة.وهذا هو الاختلاف الرئيسي عن التعلم غير الخاضع للرقابة: نظرًا لأنك تعرف المخرجات المتوقعة، فيمكنك تقييم مدى جودة أداء النموذج.

8 ضبط النموذج: اضبط معلمات النموذج وأعد تدريبها لتحسين الأداء.تهدف هذه العملية التكرارية، والتي تسمى ضبط المعلمة الفائقة، إلى تحسين النموذج ومنع مشكلات مثل التجاوز. وينبغي تكرار هذه العملية بعد كل تعديل.

9 النشر والمراقبة: نشر النموذج المُدرب لإجراء تنبؤات بشأن البيانات الجديدة في بيئة واقعية.على سبيل المثال، قم بنشر نموذج الكشف عن البريد العشوائي المدرب لتصفية رسائل البريد الإلكتروني ومراقبة أدائه وضبطه حسب الحاجة.

10 الضبط الدقيق بمرور الوقت: بينما تقوم بجمع المزيد من البيانات الواقعية، استمر في تدريب النموذج ليصبح أكثر دقة وملاءمة.

أنواع التعلم الخاضع للإشراف

هناك نوعان رئيسيان من التعلم الخاضع للإشراف: التصنيف والانحدار. كل نوع له أنواع فرعية خاصة به وحالات استخدام محددة. دعنا نستكشفها بمزيد من التفاصيل:

تصنيف

يتضمن التصنيف التنبؤ بالفئة أو الفئة التي ينتمي إليها الإدخال. يتم استخدام أنواع فرعية ومفاهيم مختلفة للتعامل مع مشاكل التصنيف المختلفة. فيما يلي بعض الأنواع الشائعة:

التصنيف الثنائي: يتنبأ النموذج بإحدى الفئتين المحتملتين.يكون هذا مفيدًا عندما تكون النتيجة ثنائية، مما يعني أن هناك حالتين أو فئتين محتملتين فقط. ويستخدم هذا النهج في القرارات التي تتطلب تمييزا واضحا.
التصنيف متعدد الفئات: مثل التصنيف الثنائي، ولكن مع وجود أكثر من خيارين، ولا يوجد لهما سوى إجابة واحدة صحيحة. يتم استخدام هذا الأسلوب عندما تكون هناك فئات متعددة يمكن أن ينتمي إليها الإدخال.
تصنيف متعدد الملصقات: يمكن أن ينتمي كل إدخال إلى فئات متعددة في وقت واحد. على عكس التصنيف الثنائي أو متعدد الفئات، حيث يتم تعيين كل إدخال إلى فئة واحدة، يسمح التصنيف متعدد الملصقات بتعيين تسميات متعددة لمدخل واحد. يعد هذا تحليلًا أكثر تعقيدًا لأنه بدلاً من مجرد اختيار الفئة التي من المرجح أن ينتمي إليها الإدخال، فإنك تحتاج إلى تحديد عتبة الاحتمال للتضمين.
الانحدار اللوجستي: تطبيق الانحدار (انظر أدناه) على التصنيف الثنائي. يمكن أن يخبرك هذا النهج بالثقة في تنبؤاته بدلاً من مجرد هذا أو ذاك.

هناك عدة طرق لقياس جودة نموذج التصنيف، منها:

الدقة: كم عدد التوقعات الصحيحة؟
الدقة: كم من الإيجابيات هي في الواقع إيجابية؟
تذكر: كم عدد الإيجابيات الفعلية التي تم تصنيفها على أنها إيجابية؟
درجة F1: على مقياس من 0% إلى 100%، ما مدى جودة موازنة النموذج بين الدقة والاستدعاء؟

تراجع

يتضمن الانحدار التنبؤ بقيمة مستمرة بناءً على ميزات الإدخال، وإخراج رقم يمكن أن يسمى أيضًا بالتنبؤ. يتم استخدام أنواع مختلفة من نماذج الانحدار لالتقاط العلاقات بين ميزات الإدخال هذه والمخرجات المستمرة. فيما يلي بعض الأنواع الشائعة:

الانحدار الخطي: يمثل العلاقة بين ميزات الإدخال والمخرجات كخط مستقيم.يفترض النموذج وجود علاقة خطية بين المتغير التابع (المخرجات) والمتغيرات المستقلة (المدخلات). الهدف هو العثور على الخط الأنسب من خلال نقاط البيانات مما يقلل الفرق بين القيم المتوقعة والفعلية.
الانحدار متعدد الحدود: أكثر تعقيدًا من الانحدار الخطي لأنه يستخدم متعددات الحدود مثل المربع والمكعب لالتقاط علاقات أكثر تعقيدًا بين متغيرات الإدخال والإخراج. يمكن للنموذج أن يناسب البيانات غير الخطية باستخدام هذه المصطلحات ذات الترتيب الأعلى.
انحدار Ridge and lasso: يعالج مشكلة التجهيز الزائد، وهو ميل النموذج إلى قراءة الكثير من البيانات التي تم تدريبه عليها على حساب التعميم. يقلل انحدار Ridge من حساسية النموذج للتفاصيل الصغيرة، بينما يلغي انحدار Lasso الميزات الأقل أهمية من الاعتبار.

تتعلق معظم قياسات جودة الانحدار بمدى بُعد التوقعات عن القيم الفعلية. الأسئلة التي يجيبون عليها هي:

متوسط الخطأ المطلق: في المتوسط، ما مدى بُعد التوقعات عن القيم الفعلية؟
متوسط الخطأ التربيعي: ما مدى نمو الأخطاء عندما تكون الأخطاء الأكبر أكثر أهمية؟
جذر متوسط الخطأ التربيعي : إلى أي مدى تتسبب الأخطاء الكبيرة في انحراف التوقعات عن القيم الفعلية؟
R-squared: ما مدى ملاءمة الانحدار للبيانات؟

تطبيقات التعلم الخاضع للإشراف

يحتوي التعلم الخاضع للإشراف على مجموعة واسعة من التطبيقات في مختلف الصناعات. فيما يلي بعض الأمثلة الشائعة:

اكتشاف البريد العشوائي: تستخدم خدمات البريد الإلكتروني التصنيف الثنائي لتحديد ما إذا كان يجب أن تصل رسالة البريد الإلكتروني إلى صندوق الوارد الخاص بك أو يتم توجيهها إلى البريد العشوائي.إنهم يتحسنون باستمرار في الاستجابة للأشخاص الذين يضعون علامة على رسائل البريد الإلكتروني في مجلد البريد العشوائي على أنها ليست بريدًا عشوائيًا، والعكس صحيح.
التعرف على الصور: يتم تدريب النماذج على الصور ذات العلامات للتعرف على الكائنات وتصنيفها.تشمل الأمثلة ميزة Face ID من Apple، والتي تفتح قفل جهازك اللوحي أو جهازك المحمول، والتعرف البصري على الأحرف (OCR) لتحويل الكلمات المطبوعة إلى نص رقمي، واكتشاف الكائنات للسيارات ذاتية القيادة.
التشخيص الطبي: يمكن للنماذج الخاضعة للإشراف التنبؤ بالأمراض واقتراح التشخيصات المحتملة باستخدام بيانات المريض والسجلات الطبية.على سبيل المثال، يمكن تدريب النماذج على التعرف على الأورام السرطانية في التصوير بالرنين المغناطيسي أو تطوير خطط لإدارة مرض السكري.
كشف الاحتيال: تستخدم المؤسسات المالية التعلم الخاضع للإشراف لتحديد المعاملات الاحتيالية من خلال تحليل الأنماط في بيانات المعاملات المصنفة.
تحليل المشاعر: سواء تم قياس ردود الفعل أو المشاعر الإيجابية أو السلبية مثل السعادة أو الاشمئزاز، فإن مجموعات البيانات التي تم وضع علامة عليها يدويًا تُعلم النماذج لتفسير المدخلات مثل منشورات وسائل التواصل الاجتماعي أو مراجعات المنتجات أو نتائج الاستطلاع.
الصيانة التنبؤية: استنادًا إلى بيانات الأداء التاريخية والعوامل البيئية، يمكن للنماذج التنبؤ بالوقت المحتمل لتعطل الأجهزة بحيث يمكن إصلاحها أو استبدالها قبل حدوث ذلك.

مزايا التعلم تحت الإشراف

دقيقة ويمكن التنبؤ بها.بافتراض حصولهم على بيانات جيدة، تميل نماذج التعلم الخاضع للإشراف إلى أن تكون أكثر دقة من طرق التعلم الآلي الأخرى. النماذج الأبسط عادة ما تكون حتمية، مما يعني أن المدخلات المعطاة سوف تنتج دائما نفس المخرجات.
هدف واضح. بفضل الإشراف، أنت تعرف ما يحاول نموذجك تحقيقه. وهذا تناقض واضح مع التعلم غير الخاضع للإشراف والتعلم الخاضع للإشراف الذاتي.
من السهل تقييمها. هناك العديد من مقاييس الجودة المتاحة لك للحكم على دقة كل من نماذج التصنيف والانحدار.
قابل للتفسير. تستخدم النماذج الخاضعة للإشراف تقنيات، مثل الانحدارات وأشجار القرار، التي يسهل على علماء البيانات فهمها. تعمل إمكانية التفسير على تحسين ثقة صناع القرار، خاصة في البيئات عالية التأثير والصناعات المنظمة.

عيوب التعلم تحت الإشراف

يتطلب البيانات المسمى.يجب أن تحتوي بياناتك على مدخلات وتسميات واضحة. غالبًا ما يمثل هذا تحديًا للتدريب على التصنيف، حيث يتم توظيف عدة آلاف (إن لم يكن الملايين) من الأشخاص لتعليق البيانات يدويًا.
الأخطاء والحكم غير المتسق في بيانات التدريب. مع التصنيف البشري تأتي المغالطات البشرية، مثل الأخطاء والأخطاء المطبعية والآراء المختلفة. ويشكل الأخير جانبًا صعبًا بشكل خاص في تحليل المشاعر؛ تتطلب بيانات التدريب على المشاعر عالية الجودة عادةً أن يقوم عدة أشخاص بتقييم نقطة بيانات معينة مع تسجيل النتيجة فقط في حالة وجود اتفاق.
التجهيز الزائد. غالبًا ما يأتي النموذج بحسابات تعمل بشكل جيد جدًا مع بيانات التدريب ولكنها تعمل بشكل سيئ مع البيانات التي لم يراها بعد. سيبحث المدرب الدقيق دائمًا عن التجهيز الزائد ويستخدم تقنيات لتقليل التأثير.
يقتصر على الأنماط المعروفة. إذا كان نموذج التنبؤ بسعر السهم الخاص بك يعتمد فقط على بيانات من سوق صاعدة، فلن يكون دقيقًا للغاية بمجرد وصول السوق الهابطة. وبناءً على ذلك، كن حساسًا لقيود البيانات التي عرضتها لنموذجك، وفكر فيما إذا كنت تريد العثور على بيانات التدريب التي ستعرضه لمزيد من الظروف أو ببساطة تجاهل مخرجاته.