التعلم غير الخاضع للرقابة: ما هو وكيف يعمل

نشرت: 2024-07-03

اكتشف ألغاز التعلم غير الخاضع للإشراف، وهي تقنية ثورية تمكن الآلات من أن تصبح محللة بيانات مستقلة، وتستخرج رؤى قيمة دون تدخل بشري.

جدول المحتويات

  • ما هو التعلم غير الخاضع للرقابة؟
  • التعلم غير الخاضع للإشراف مقابل التعلم الخاضع للإشراف
  • كيف يعمل التعلم غير الخاضع للرقابة
  • أنواع التعلم غير الخاضع للرقابة
  • تطبيقات التعلم غير الخاضع للرقابة
  • مزايا التعلم غير الخاضع للرقابة
  • عيوب التعلم غير الخاضع للرقابة

ما هو التعلم غير الخاضع للرقابة؟

التعلم غير الخاضع للرقابة هو نوع من التعلم الآلي (ML) الذي يجد الأنماط والعلاقات داخل البيانات من تلقاء نفسه. المصطلحغير خاضع للرقابةيعني أن النموذج يستخدم بيانات غير مصنفة، مما يعني أنه لا يحصل على تعليمات من البشر حول ما يجب البحث عنه أو حتى إرشادات بشأن ما يبحث عنه. وبدلاً من ذلك، يستخدم الخوارزميات لتقييم مجموعات البيانات والعثور على الارتباطات وأوجه التشابه والاختلاف وطرق أخرى لوصف البيانات باستخدام الرياضيات.

التعلم الآلي هو مجموعة فرعية من الذكاء الاصطناعي (AI) الذي يستخدم البيانات والأساليب الإحصائية لبناء نماذج تحاكي المنطق البشري بدلاً من الاعتماد على التعليمات المشفرة. يأخذ التعلم غير الخاضع للرقابة نهجًا استكشافيًا قائمًا على البيانات لاستخلاص استنتاجات من مجموعات البيانات الكبيرة، مثل تجميع الكيانات حسب الخصائص المشتركة أو العثور على نقاط البيانات التي تميل إلى التواجد معًا - وهو ما يمكن أن يؤدي إلى فرز صور للأشجار المتساقطة من الأشجار دائمة الخضرة، أو العثور على من المرجح أن يشاهد الأشخاص الذين يبثونشارع سمسمدانيال تايجر أيضًا.

اعمل بشكل أكثر ذكاءً مع Grammarly
شريك الكتابة بالذكاء الاصطناعي لأي شخص لديه عمل للقيام به

التعلم غير الخاضع للإشراف مقابل التعلم الخاضع للإشراف

وعلى النقيض من الأساليب غير الخاضعة للإشراف، يستخدم التعلم الخاضع للإشراف البيانات المصنفة التي تربط المدخلات بالمخرجات الصحيحة. على العكس من ذلك، لا يحتوي التعلم غير الخاضع للإشراف على مدخلات ومخرجات يمكن للنموذج أن يستشعرها، بل فقط بيانات للتحليل.

توفر التسميات ما يسمى بالإشراف على عملية تعلم النموذج، وتوجيهه إلى الهندسة العكسية في طريقه إلى الإجابة الصحيحة من مدخلات معينة. يعد استخدام التعلم الخاضع للإشراف أمرًا منطقيًا عندما يكون لديك هذا النوع من البيانات التي يمكن للنموذج أن يستهدفها ويستنتج منها، بما في ذلك:

  • نعم أو لا قرارات ، مثل الكشف عن البريد العشوائي أو الاحتيال
  • التصنيف ، مثل تحديد الكائنات داخل الصورة أو التعرف على الكلام
  • التنبؤ ، مثل أسعار المنازل أو الطقس

وعلى النقيض من ذلك، فإن التعلم غير الخاضع للرقابة لا يهدف إلى الوصول إلى الإجابة الصحيحة، بل للعثور على أنماط أو مجموعات داخل البيانات. التطبيقات الثلاثة الرئيسية هي:

  • التجميع ، مثل تجزئة العملاء أو تجميع المستندات
  • الارتباط ، مثل محركات التوصية أو الانحرافات الأمنية
  • تقليل الأبعاد ، يُستخدم بشكل عام لضغط مجموعات البيانات الكبيرة لجعلها أكثر قابلية للإدارة

لا يقتصر التعلم الآلي على الأساليب الخاضعة للإشراف أو غير الخاضعة للإشراف فقط؛ وهذان مجرد طرفي الطيف. تشمل الأنواع الأخرى من أساليب التعلم الآلي التعلم شبه الخاضع للإشراف والتعزيز والتعلم الخاضع للإشراف الذاتي.

كيف يعمل التعلم غير الخاضع للرقابة

يعد التعلم غير الخاضع للرقابة بسيطًا من الناحية المفاهيمية: تقوم الخوارزميات بمعالجة كميات كبيرة من البيانات لتحديد مدى ارتباط نقاط البيانات المختلفة. ونظرًا لأن البيانات غير مصنفة، فإن التعلم غير الخاضع للإشراف ليس له سياق أو هدف. إنها ببساطة تحاول العثور على الأنماط والخصائص الأخرى.

فيما يلي نظرة عامة مختصرة على عملية التعلم غير الخاضعة للرقابة:

1 جمع البيانات وتنظيفها.يقوم التعلم غير الخاضع للرقابة بتقييم جدول واحد في كل مرة، لذلك إذا كان لديك مجموعات بيانات متعددة، فيجب عليك دمجها بعناية. من المهم أيضًا ترتيب البيانات بأفضل ما تستطيع، مثل إزالة التكرارات وتصحيح الأخطاء.

2 تحجيم الميزة.يمكن التخلص من الخوارزميات غير الخاضعة للرقابة من خلال نطاقات كبيرة، لذا فكر في تحويل الميزات إلى نطاقات أضيق باستخدام تقنيات تشمل:

  • التطبيع:تحويل القيمة العليا إلى 1، والقيمة الأدنى إلى 0، وكل شيء آخر كعلامة عشرية.
  • التقييس:يحدد متوسط ​​القيمة بـ 0 والانحراف المعياري بـ 1، مع تعديل كل نقطة بيانات وفقًا لذلك.
  • التحويل اللوغاريتمي:يضغط نطاقات واسعة، لذلك مع اللوغاريتم ذو الأساس 10، يصبح 100000 6، و1000000 يصبح 7.

3 اختيار الخوارزمية.هناك خوارزميات متعددة لكل نوع من أنواع التعلم غير الخاضع للإشراف، ولكل منها نقاط قوة ونقاط ضعف (سنتناولها في القسم التالي). يمكنك اختيار تطبيق خوارزميات مختلفة على نفس مجموعة البيانات والمقارنة.

4 اكتشاف الأنماط وتحديد هويتها.الخوارزمية المختارة تبدأ العمل. يمكن أن يستغرق ذلك ثوانٍ إلى ساعات، اعتمادًا على حجم مجموعة البيانات وكفاءة الخوارزمية. إذا كان لديك مجموعة بيانات كبيرة، فقد ترغب في تشغيل الخوارزمية على مجموعة فرعية قبل معالجة الأمر برمته.

5 التفسير.في هذه المرحلة، حان الوقت ليتولى البشر المسؤولية. يمكن لمحلل البيانات استخدام المخططات والفحوصات المفاجئة والحسابات المختلفة لتحليل البيانات وتفسيرها.

6 التطبيق.بمجرد أن تكون واثقًا من أنك تحصل على نتائج مفيدة، استخدمه. سنتحدث عن بعض تطبيقات التعلم غير الخاضع للرقابة لاحقًا.

أنواع التعلم غير الخاضع للرقابة

هناك عدة أنواع من التعلم غير الخاضع للرقابة، ولكن الأنواع الثلاثة الأكثر استخدامًا هي التجميع، وقواعد الارتباط، وتقليل الأبعاد.

التجميع

يؤدي التجميع إلى إنشاء مجموعات من نقاط البيانات. إنه مفيد حقًا لتجميع العناصر المتشابهة مع بعضها البعض بحيث يمكن تصنيفها لاحقًا عن طريق التحليل البشري. على سبيل المثال، إذا كانت لديك مجموعة بيانات تتضمن عمر العميل ومتوسط ​​مبلغ المعاملة بالدولار، فقد تجد مجموعات تساعدك في تحديد المكان الذي تريد استهداف أموال إعلاناتك فيه.

تشمل أنواع التجميع ما يلي:

  • التجمعات الحصرية أو الصعبة.يمكن أن تنتمي كل نقطة بيانات إلى مجموعة واحدة فقط. أحد الأساليب الشائعة المعروفة باسم k-means يسمح لك بتحديد عدد المجموعات التي ترغب في إنشائها، على الرغم من أنه يمكن للآخرين تحديد العدد الأمثل للمجموعات.
  • التداخل أو التجميع الناعم. يسمح هذا النهج لنقطة البيانات بأن تكون في مجموعات متعددة وأن يكون لها "درجة" من العضوية في كل منها بدلاً من الاكتفاء بالداخل أو الخارج.
  • التجمع الهرمي. إذا تم ذلك من الأسفل إلى الأعلى، فإنه يسمى التجميع الهرمي التكتل، أو HAC؛ من أعلى إلى أسفل يسمى التجمع الانقسامي. كلاهما يتضمن الكثير من المجموعات المنظمة في مجموعات أكبر وأكبر.
  • التجميع الاحتمالي. هذا نهج مختلف يحدد النسبة المئوية لاحتمالية انتماء أي نقطة بيانات معينة إلى أي فئة. تتمثل إحدى ميزات هذا النهج في أنه يمكن تعيين نقطة بيانات معينة باحتمالية منخفضة جدًا لأن تكون جزءًا من مجموعة معينة، مما قد يسلط الضوء على البيانات الشاذة أو الفاسدة.

قواعد الرابطة

يُعرف هذا النهج أيضًا باسم تعدين قواعد الارتباط أو تعلم قواعد الارتباط، ويجد علاقات مثيرة للاهتمام بين نقاط البيانات. الاستخدام الأكثر شيوعًا لقواعد الارتباط هو معرفة العناصر التي يتم شراؤها أو استخدامها معًا بشكل شائع حتى يتمكن النموذج من اقتراح الشيء التالي الذي يجب شراؤه أو عرضه لمشاهدته.

المفاهيم الأساسية الثلاثة لقواعد الارتباط هي:

  • يدعم.ما مدى تكرار العثور على A وB معًا كنسبة مئوية من جميع المثيلات المتاحة (على سبيل المثال، المعاملات)؟ يمكن أن يكون A وB عناصر فردية أو مجموعات تمثل عناصر متعددة.
  • ثقة. كم مرة إذا شوهد "أ" فإن "ب" يظهر أيضًا؟
  • يرفع. ما هو احتمال ظهور A وB معًا، مقارنةً إذا لم يكن هناك ارتباط؟ الرفع هو مقياس "الاهتمام" بالجمعية.

تخفيض الأبعاد

يتوافق تقليل الأبعاد مع عدد الأعمدة في الجدول. المصطلحات الأخرى للأعمدة في هذا السياق هيالميزاتأوالسمات. مع تزايد عدد الميزات في مجموعة البيانات، يصبح تحليل البيانات وتحقيق النتائج المثلى أكثر صعوبة.

تستغرق البيانات عالية الأبعاد وقتًا أطول وقوة حاسوبية وطاقة أكبر لمعالجتها. ويمكن أن يؤدي أيضًا إلى مخرجات دون المستوى المطلوب. أحد الأمثلة الضارة بشكل خاص هو التجاوز، وهو ميل نماذج التعلم الآلي إلى التعلم أكثر من اللازم من التفاصيل الموجودة في بيانات التدريب على حساب الأنماط الأوسع التي تعمم بشكل جيد على البيانات الجديدة.

تعمل خوارزميات تقليل الأبعاد على إنشاء مجموعات بيانات مبسطة عن طريق تكثيف البيانات الأصلية في إصدارات أصغر وأكثر قابلية للإدارة وتحتفظ بالمعلومات الأكثر أهمية. وهي تعمل من خلال دمج الميزات المترابطة وملاحظة الاختلاف عن الاتجاه العام، مما يقلل بشكل فعال عدد الأعمدة دون فقدان التفاصيل الأساسية.

على سبيل المثال، إذا كانت لديك مجموعة بيانات حول الفنادق ووسائل الراحة الخاصة بها، فقد يجد النموذج أن العديد من الميزات مرتبطة بتصنيف النجوم، لذلك يمكنه ضغط السمات مثل المنتجع الصحي وخدمة الغرف والاستقبال على مدار 24 ساعة في عمود واحد.

عادةً ما يقوم المهندسون بتقليل الأبعاد كخطوة ما قبل المعالجة لتحسين أداء ونتائج العمليات الأخرى، بما في ذلك، على سبيل المثال لا الحصر، تعلم قواعد التجميع والارتباط.

تطبيقات التعلم غير الخاضع للرقابة

بعض الأمثلة تشمل:

  • تحليل سلة السوق.يستفيد تجار التجزئة بشكل كبير من قواعد الارتباط. على سبيل المثال، إذا وضعت النقانق في عربة تسوق البقالة الخاصة بك، فقد يقترح عليك شراء الكاتشب وكعك النقانق لأنها شهدت ارتفاعًا كبيرًا من هذه المجموعات من المتسوقين الآخرين. وقد تقودهم نفس البيانات أيضًا إلى وضع الكاتشب والنقانق بجانب بعضهما البعض في السوبر ماركت.
  • محركات التوصية تنظر هذه إلى بياناتك الشخصية - التركيبة السكانية وأنماط السلوك - وتقارنها ببيانات الآخرين لتخمين ما قد تستمتع بشرائه أو مشاهدته بعد ذلك. يمكنهم استخدام ثلاثة أنواع من التعلم غير الخاضع للرقابة: التجميع لتحديد أنماط العملاء الآخرين التي قد تتنبأ بأنماطك، وقواعد الارتباط للعثور على الارتباطات بين أنشطة أو مشتريات معينة، وتقليل الأبعاد لتسهيل معالجة مجموعات البيانات المعقدة.
  • تجزئة العملاء. بينما كان المسوقون يقسمون جماهيرهم إلى فئات محددة لعقود من الزمن، يمكن للمجموعات غير الخاضعة للرقابة انتقاء المجموعات التي ربما لم تكن في ذهن أي إنسان. يسمح هذا النهج بالتحليل القائم على السلوك ويمكن أن يساعد الفرق على استهداف الرسائل والعروض الترويجية بطرق جديدة.
  • كشف الشذوذ.نظرًا لأنه جيد جدًا في فهم الأنماط، فغالبًا ما يُستخدم التعلم غير الخاضع للرقابة للتنبيه عندما تكون الأمور غير طبيعية. تشمل الاستخدامات الإبلاغ عن عمليات شراء بطاقات الائتمان الاحتيالية، والبيانات التالفة في الجدول، وفرص المراجحة في الأسواق المالية.
  • التعرف على الكلام.يعد تحليل الكلام أمرًا معقدًا بالنسبة لأجهزة الكمبيوتر، حيث يتعين عليها التعامل مع الضوضاء في الخلفية واللهجات واللهجات والأصوات. يساعد التعلم غير الخاضع للرقابة محركات التعرف على الكلام على معرفة الأصوات المرتبطة بالصوتيات (وحدات الكلام) والصوتيات التي يتم سماعها عادةً معًا، بالإضافة إلى تصفية ضوضاء الخلفية والتحسينات الأخرى.

مزايا التعلم غير الخاضع للرقابة

  • انخفاض المشاركة البشرية.بمجرد إثبات موثوقية نظام التعلم غير الخاضع للرقابة، فإن تشغيله لا يتطلب سوى القليل من الجهد بخلاف ضمان توجيه المدخلات والمخرجات بشكل صحيح.
  • يعمل على البيانات الخام. ليست هناك حاجة لتوفير تسميات، أي تحديد المخرجات التي يجب أن تنتج من إدخال معين. تعد هذه القدرة على التعامل مع البيانات كما هي ذات قيمة كبيرة عند التعامل مع كميات هائلة من البيانات التي لم تمسها.
  • اكتشاف النمط المخفي. مع عدم وجود هدف أو أجندة سوى العثور على الأنماط، يمكن للتعلم غير الخاضع للرقابة أن يوجهك إلى "معلومات مجهولة" - وهي استنتاجات مبنية على بيانات لم تفكر فيها من قبل ولكنها تصبح منطقية بمجرد تقديمها. وهذا النهج مفيد بشكل خاص للعثور على الإبر في أكوام القش، مثل تحليل الحمض النووي لمعرفة سبب موت الخلايا.
  • استكشاف البيانات. ومن خلال تقليل الأبعاد وإيجاد الأنماط والمجموعات، يمنح التعلم غير الخاضع للرقابة المحللين السبق في فهم مجموعات البيانات الجديدة.
  • التدريب المتزايد. يمكن للعديد من النماذج غير الخاضعة للرقابة أن تتعلم أثناء تقدمها: مع ورود المزيد من البيانات، يمكنها تقييم أحدث المدخلات فيما يتعلق بما اكتشفوه بالفعل. وهذا يستغرق وقتًا أقل وجهدًا حاسوبيًا أقل بكثير.

عيوب التعلم غير الخاضع للرقابة

  • أنت بحاجة إلى الكثير من البيانات.التعلم غير الخاضع للرقابة يكون عرضة لأخطاء كبيرة إذا تم تدريبه على أمثلة محدودة. قد تجد أنماطًا في البيانات لا تصمد في العالم الحقيقي (التركيب الزائد)، أو تتغير بشكل كبير في مواجهة البيانات الجديدة (عدم الاستقرار)، أو لا تحتوي على معلومات كافية لتحديد أي شيء ذي معنى (اكتشاف نمط محدود).
  • قابلية تفسير منخفضة. قد يكون من الصعب أن نفهم لماذا توصلت خوارزمية، مثل منطق التجميع، إلى نتيجة معينة.
  • إيجابيات كاذبة. قد يقرأ النموذج غير الخاضع للرقابة الكثير من نقاط البيانات الشاذة ولكن غير المهمة دون تسميات لتعليمه ما يستحق الاهتمام.
  • من الصعب تقييمها بشكل منهجي.نظرًا لعدم وجود إجابة "صحيحة" للمقارنة بها، لا توجد طريقة مباشرة لقياس دقة المخرجات أو فائدتها. يمكن تخفيف المشكلة إلى حد ما عن طريق تشغيل خوارزميات مختلفة على نفس البيانات، ولكن في النهاية، سيكون قياس الجودة ذاتيًا إلى حد كبير.