الانحدار في التعلم الآلي: ما هو وكيف يعمل

نشرت: 2024-11-13

يعد الانحدار في التعلم الآلي (ML) مفهومًا أساسيًا يستخدم للتنبؤ بالقيم المستمرة بناءً على ميزات الإدخال. سواء أكان تقدير أسعار المساكن أو التنبؤ بالمبيعات، فإن نماذج الانحدار تحدد العلاقات بين المتغيرات. في هذه المقالة، سنقوم بتفصيل الأنواع المختلفة لنماذج الانحدار، والخوارزميات التي تقف وراءها، ومتى يتم تطبيق كل طريقة بشكل أفضل. ستكتشف أيضًا كيفية عمل الانحدار وحالات استخدامه العملي والمزايا والتحديات المرتبطة باستخدام الانحدار في التعلم الآلي.

جدول المحتويات

  • ما هو الانحدار؟
  • أنواع نماذج الانحدار
  • الخوارزميات المستخدمة للانحدار
  • أمثلة على الانحدار
  • فوائد الانحدار
  • تحديات التراجع

ما هو الانحدار في التعلم الآلي؟

الانحدار هو نوع من التعلم الخاضع للإشراف يستخدم للتنبؤ بالقيم المستمرة بناءً على البيانات المدخلة. ويقدر العلاقات بين المتغيرات للتنبؤ وشرح أشياء مختلفة، مثل أسعار المنازل، واتجاهات سوق الأوراق المالية، أو الظروف الجوية. تقوم نماذج الانحدار بتعيين ميزات الإدخال إلى متغير مستهدف مستمر، مما يتيح تنبؤات رقمية دقيقة.

على سبيل المثال، باستخدام بيانات الطقس من الأسبوع الماضي، يمكن لنموذج الانحدار التنبؤ بهطول الأمطار في الغد. القيم التي تتنبأ بها تكون مستمرة، مما يعني أنها يمكن أن تنخفض في أي مكان على مقياس رقمي، مثل درجة الحرارة المقاسة بالنقاط العشرية أو إيرادات المبيعات المتوقعة للأشهر القادمة.

اعمل بشكل أكثر ذكاءً مع Grammarly
شريك الكتابة بالذكاء الاصطناعي لأي شخص لديه عمل للقيام به

الانحدار مقابل التصنيف: ما الفرق؟

بينما يتنبأ الانحدار بالنتائج المستمرة، يركز التصنيف على التنبؤ بفئات أو فئات منفصلة. على سبيل المثال، قد يتنبأ نموذج الانحدار بالكمية المحددة لهطول الأمطار غدًا، في حين قد يتنبأ نموذج التصنيف بما إذا كانت ستمطر على الإطلاق (نعم أم لا). والفرق الرئيسي هو أن الانحدار يتعامل مع القيم العددية، في حين أن التصنيف يعين البيانات إلى فئات محددة مسبقا.

في بعض الحالات، من الممكن تكييف مخرجات نموذج الانحدار مع مهمة تصنيف والعكس صحيح، ولكن النهجين مناسبان بشكل عام لأنواع مختلفة من المشكلات.

الانحدار: خوارزمية أم نموذج أم تحليل؟

يُشار إلى الانحدار أحيانًا باسم تحليل الانحدار، وهو مصطلح إحصائي واسع يستخدم لوصف البحث عن علاقات مستمرة بين الملاحظات والنتائج. خوارزمية الانحدار هي أداة رياضية محددة مصممة لتحديد هذه العلاقات. عندما يتم استخدام خوارزمية لتدريب نموذج التعلم الآلي، تسمى النتيجةنموذج الانحدار.

هذه المصطلحات الثلاثة -تحليل الانحدار،وخوارزمية الانحدار،ونموذج الانحدار- غالبًا ما تستخدم بالتبادل، لكن كل منها يمثل جانبًا مختلفًا من عملية الانحدار.

أنواع الانحدار في التعلم الآلي

تأتي نماذج الانحدار في أشكال عديدة، كل منها مصمم للتعامل مع العلاقات المختلفة بين بيانات الإدخال والنتائج المتوقعة. في حين أن الانحدار الخطي هو الأكثر استخدامًا وسهل الفهم نسبيًا، فإن النماذج الأخرى، مثل الانحدار متعدد الحدود واللوجستي والانحدار البايزي، مناسبة بشكل أفضل للمهام الأكثر تعقيدًا أو تخصصًا. فيما يلي بعض الأنواع الرئيسية لنماذج الانحدار ومتى يتم استخدامها عادةً.

الانحدار البسيط والمتعدد (الخطي).

الانحدار الخطي، وهو أسلوب انحدار شائع، معروف بسهولة تفسيره والتدريب السريع والأداء الموثوق به عبر التطبيقات المختلفة. ويقدر العلاقة بين المتغيرات التوضيحية والمستهدفة باستخدام الخطوط المستقيمة. يتضمن الانحدار الخطي البسيط متغيرًا توضيحيًا واحدًا، في حين يتضمن الانحدار الخطي المتعدد متغيرين أو أكثر. بشكل عام، عندما يناقش شخص ما تحليل الانحدار، فهو يقصد الانحدار الخطي.

الانحدار متعدد الحدود

إذا فشلت الخطوط المستقيمة في تفسير العلاقة بين المتغيرات المرصودة والنتائج المتوقعة بشكل مرض، فقد يكون نموذج الانحدار متعدد الحدود خيارًا أفضل. يبحث هذا النموذج عن علاقات مستمرة ومعقدة ويمكنه تحديد الأنماط التي يتم وصفها بشكل أفضل باستخدام المنحنيات أو مجموعة من المنحنيات والخطوط المستقيمة.

الانحدار اللوجستي

عندما لا تكون العلاقة بين الملاحظات والقيم المتوقعة مستمرة (أو منفصلة)، فإن الانحدار اللوجستي هو الأداة الأكثر شيوعًا للوظيفة. المنفصل في هذا السياق يعني المواقف التي لا تكون فيها الكسور أو الأرقام الحقيقية ذات صلة (على سبيل المثال، إذا توقعت عدد العملاء الذين سيدخلون إلى مقهى، فإن الانحدار اللوجستي سيجيب على 4 أو 5 بدلاً من شيء يصعب تفسيره، مثل 4.35).

الشكل الأكثر شهرة للانحدار اللوجستي هوالانحدار الثنائي، الذي يتنبأ بإجابات الأسئلة الثنائية (أي نعم/لا)؛ عادةً ما يكون الانحدار اللوجستي ثنائيًا. تتنبأ الاختلافات الأكثر تعقيدًا، مثل الانحدار متعدد الحدود، بإجابات الأسئلة التي تقدم أكثر من خيارين. تعتمد النماذج اللوجستية، في جوهرها، على اختيار واحدة من عدة وظائف لتحويل المدخلات المستمرة إلى مدخلات منفصلة.

الانحدار بايزي

تتطلب تقنيات الانحدار الخطي وغيرها من تقنيات الانحدار بيانات تدريب كبيرة لإجراء تنبؤات دقيقة. في المقابل، يعتبر الانحدار البايزي خوارزمية إحصائية متقدمة يمكنها إجراء تنبؤات موثوقة ببيانات أقل، بشرط أن تكون بعض الخصائص الإحصائية للبيانات معروفة أو يمكن تقديرها. على سبيل المثال، قد يمثل التنبؤ بمبيعات المنتجات الجديدة خلال موسم العطلات تحديًا بالنسبة للانحدار الخطي بسبب نقص بيانات المبيعات للمنتج الجديد. يمكن للانحدار البايزي التنبؤ ببيانات المبيعات بدقة أعلى من خلال افتراض أن مبيعات المنتج الجديد تتبع نفس التوزيع الإحصائي مثل مبيعات المنتجات المماثلة الأخرى. عادة، تفترض الانحدارات البايزية أن البيانات تتبع التوزيع الإحصائي الغوسي، مما يؤدي إلى الاستخدام المتبادل لمصطلحاتالانحدار البايزيوالانحدارالغوسي.

آثار مختلطة الانحدار

يفترض الانحدار أن هناك علاقة غير عشوائية بين البيانات المرصودة والبيانات المتوقعة. في بعض الأحيان، يصعب تحديد هذه العلاقة بسبب الترابط المعقد في البيانات المرصودة أو السلوك العشوائي في بعض الأحيان. نماذج التأثيرات المختلطة هي نماذج انحدار تتضمن آليات للتعامل مع البيانات العشوائية والسلوكيات الأخرى التي تمثل تحديًا للنمذجة. ويشار إلى هذه النماذج أيضًا بالتبادل على أنها نماذج مختلطة أو تأثيرات مختلطة أو نماذج خطأ مختلط.

خوارزميات الانحدار الأخرى

تمت دراسة الانحدار جيدًا. هناك العديد من خوارزميات الانحدار الأخرى الأكثر تعقيدًا أو تخصصًا، بما في ذلك تلك التي تستخدم تقنيات التأثيرات المختلطة ذات الحدين ومتعددة الحدود والمتقدمة، بالإضافة إلى تلك التي تجمع بين خوارزميات متعددة. يمكن تنظيم الخوارزميات المتعددة المجمعة بترتيب تسلسلي، كما هو الحال في طبقات تسلسلية متعددة، أو تشغيلها بالتوازي ثم تجميعها بطريقة ما. غالبًا ما يُشار إلى النظام الذي يقوم بتشغيل نماذج متعددة بالتوازي باسم الغابة.

الخوارزميات المستخدمة لتحليل الانحدار

يتم استخدام العديد من أنواع خوارزميات الانحدار في التعلم الآلي لإنشاء نماذج الانحدار. تم تصميم بعض الخوارزميات لبناء أنواع معينة من النماذج (وفي هذه الحالة، غالبًا ما تشترك الخوارزمية والنموذج في نفس الاسم). ويركز البعض الآخر على تحسين جوانب النماذج الحالية، مثل تعزيز دقتها أو كفاءتها. سنغطي بعض الخوارزميات الأكثر استخدامًا أدناه. قبل أن نفعل ذلك، من المهم أن نفهم كيفية تقييمها: بشكل عام، يعتمد ذلك على خاصيتين رئيسيتين، التباين والتحيز.

  • يقيسالتباينمدى تقلب تنبؤات النموذج عند التدريب على مجموعات بيانات مختلفة. قد يتناسب النموذج ذو التباين العالي مع بيانات التدريب بشكل وثيق للغاية ولكن أداءه ضعيف مع البيانات الجديدة غير المرئية - وهي ظاهرة تعرف باسم التجاوز. من الناحية المثالية، يجب أن تنتج خوارزميات الانحدار نماذج ذات تباين منخفض، مما يعني أنها تعمم بشكل جيد على البيانات الجديدة وليست حساسة بشكل مفرط للتغيرات في مجموعة التدريب.
  • يشيرالتحيزإلى الخطأ الناتج عن تقريب مشكلة في العالم الحقيقي، والتي قد تكون معقدة للغاية، باستخدام نموذج مبسط. يمكن أن يؤدي التحيز العالي إلى عدم المطابقة، حيث يفشل النموذج في التقاط أنماط مهمة في البيانات، مما يؤدي إلى تنبؤات غير دقيقة. من الناحية المثالية، يجب أن يكون التحيز منخفضًا، مما يشير إلى أن النموذج يلتقط العلاقات الموجودة في البيانات بشكل فعال دون المبالغة في التبسيط. في بعض الحالات، يمكن تخفيف التحيز عن طريق تحسين بيانات التدريب أو عن طريق ضبط معلمات خوارزمية الانحدار.

الانحدار البسيط والمتعدد (الخطي).

يقوم الانحدار الخطي البسيط بتحليل العلاقة بين متغير توضيحي واحد والنتيجة المتوقعة، مما يجعله أبسط أشكال الانحدار. يعد الانحدار الخطي المتعدد أكثر تعقيدًا ويجد علاقات بين متغيرين أو أكثر ونتيجة واحدة. كلاهما يجد العلاقات التي لها بنية خطية، بناءً على معادلات خطية تناسب هذا النمط بشكل عام:

ص =β + β1س + ε

هناyهي نتيجة للتنبؤ بها،وxمتغير للتنبؤ به،وεهو خطأ يجب محاولة تقليله، وβوβ1 هما القيمتان اللتان يحسبهما الانحدار.

يستخدم الانحدار الخطي عملية تعلم خاضعة للإشراف لبناء الارتباطات بين المتغيرات التوضيحية والنتائج المتوقعة. تقوم عملية التعلم بفحص بيانات التدريب بشكل متكرر، مما يؤدي إلى تحسين معلمات المعادلات الخطية الأساسية مع كل تكرار على البيانات. تتضمن الطرق الأكثر شيوعًا لتقييم أداء المعلمات حساب متوسط ​​قيم الخطأ لجميع البيانات المتاحة المستخدمة في الاختبار أو التدريب. تتضمن أمثلة طرق حساب الخطأمتوسط ​​مربع الخطأ(متوسط ​​المسافات المربعة بين التنبؤات والنتائج الفعلية)،ومتوسط ​​الخطأ المطلق، وطرق أكثر تعقيدًا مثلمجموع المربعات المتبقي(إجمالي الأخطاء بدلاً من المتوسط).

الانحدار متعدد الحدود

يعالج الانحدار متعدد الحدود مشاكل أكثر تعقيدًا من الانحدار الخطي ويتطلب حل أنظمة المعادلات الخطية، عادةً باستخدام عمليات المصفوفة المتقدمة. ويمكنه العثور على العلاقات في البيانات المنحنية، وليس فقط تلك التي يمكن تمثيلها بخطوط مستقيمة. عند تطبيقه بشكل صحيح، فإنه سيقلل من التباين للمشكلات التي يفشل فيها الانحدار الخطي. كما أنه من الصعب فهمه وتنفيذه وتحسينه لأنه يعتمد على مفاهيم وعمليات رياضية متقدمة.

سيحاول الانحدار متعدد الحدود حل المعادلات التي تربطyومتعددةxبمعادلات متعددة الحدود تتبع هذا النمط:

y =β + β1x + β2x2+ … + ε

ستبحث خوارزمية الانحدار متعدد الحدود عن قيمβالمثالية للاستخدام وشكل كثير الحدود (كم عدد أسسxالتي قد تكون ضرورية لتحديد العلاقة بينyوكلx؟).

الانحدار لاسو

يعد انحدار Lasso (الذي يرمز إلى أقل عامل انكماش واختيار مطلق)، والمعروف أيضًا باسم lasso وL1وL1، تقنية تستخدم لتقليل التجهيز الزائد وتحسين دقة النموذج. وهو يعمل عن طريق تطبيق عقوبة على القيم المطلقة لمعاملات النموذج، مما يؤدي إلى تقليص أو تقليل بعض المعاملات بشكل فعال إلى الصفر. وهذا يؤدي إلى نماذج أبسط حيث يتم استبعاد الميزات غير ذات الصلة. تساعد خوارزمية اللاسو على منع التجهيز الزائد عن طريق التحكم في تعقيد النموذج، مما يجعل النموذج أكثر قابلية للتفسير دون التضحية بالكثير من الدقة.

يعتبر Lasso مفيدًا بشكل خاص عندما تكون المتغيرات التوضيحية مرتبطة. على سبيل المثال، في التنبؤ بالطقس، قد تكون هناك علاقة بين درجة الحرارة والرطوبة، مما يؤدي إلى الإفراط في التجهيز. يقلل Lasso من تأثير مثل هذه الارتباطات، مما يؤدي إلى إنشاء نموذج أكثر قوة.

ريدج الانحدار

يعتبر انحدار ريدج (المعروف أيضًا باسم معيارL2أوL2أو تنظيم تيخونوف) أسلوبًا آخر لمنع التجهيز الزائد، خاصة عند وجود علاقة خطية متعددة (الارتباط بين المتغيرات التوضيحية). على عكس اللاسو، الذي يمكنه تقليص المعاملات إلى الصفر، يضيف انحدار ريدج عقوبة تتناسب مع مربع معاملات النموذج. الهدف هو إجراء تعديلات صغيرة على المعاملات دون إزالة المتغيرات بالكامل.

أمثلة على حالات استخدام الانحدار

تُستخدم نماذج الانحدار على نطاق واسع في مختلف الصناعات لإجراء تنبؤات بناءً على البيانات التاريخية. ومن خلال تحديد الأنماط والعلاقات بين المتغيرات، يمكن لهذه النماذج أن توفر رؤى قيمة لاتخاذ القرار. فيما يلي ثلاثة أمثلة معروفة للمناطق التي يتم فيها تطبيق الانحدار.

تحليل الطقس والتنبؤ به

يمكن لتحليل الانحدار التنبؤ بأنماط الطقس، مثل درجة الحرارة المتوقعة وهطول الأمطار لكل يوم من أيام الأسبوع المقبل. في كثير من الأحيان، يتم تدريب العديد من خوارزميات الانحدار المختلفة على بيانات الطقس التاريخية، بما في ذلك الرطوبة وسرعة الرياح والضغط الجوي والغطاء السحابي. تعمل قياسات هذه المتغيرات كل ساعة أو يومية كميزات يمكن للنموذج التعلم منها، ويتم تكليف الخوارزمية بالتنبؤ بتغيرات درجات الحرارة بمرور الوقت. عندما يتم استخدام خوارزميات الانحدار المتعددة (مجموعة) بالتوازي للتنبؤ بأنماط الطقس، يتم عادةً دمج تنبؤاتها من خلال شكل من أشكال المتوسط، مثل المتوسط ​​المرجح.

التنبؤ بالمبيعات والإيرادات

في سياق الأعمال، تُستخدم نماذج الانحدار بشكل متكرر للتنبؤ بالإيرادات ومقاييس الأداء الرئيسية الأخرى. قد يأخذ نموذج الانحدار المتعدد المتغيرات التي تؤثر على حجم المبيعات، مثل المقاييس من الحملات التسويقية، وتعليقات العملاء، واتجاهات الاقتصاد الكلي. يتم بعد ذلك تكليف النموذج بالتنبؤ بالمبيعات والإيرادات لفترة مستقبلية محددة. ومع توفر بيانات جديدة، قد يتم إعادة تدريب النموذج أو تحديثه لتحسين تنبؤاته بناءً على أحدث الملاحظات.

التنبؤ بنتائج الرعاية الصحية

نماذج الانحدار لها تطبيقات عديدة في التنبؤ بالنتائج الصحية. على سبيل المثال، يمكن استخدام النماذج الافتراضية لتقدير نسب معدل الإصابة من خلال التعلم من بيانات المرضى التاريخية. تساعد هذه النماذج في الإجابة على أسئلة مثل "ما الذي من المحتمل أن يحدث إذا قمنا بتعديل جرعة الدواء؟" يمكن استخدام الانحدار الخطي لتحديد عوامل الخطر، مثل التنبؤ بالتغيرات في صحة المريض بناءً على تعديلات نمط الحياة. يحسب الانحدار اللوجستي، الذي يستخدم عادةً للتشخيص، نسبة الأرجحية لوجود المرض بناءً على التاريخ الطبي للمريض والمتغيرات الأخرى ذات الصلة.

فوائد الانحدار

تعد خوارزميات ونماذج الانحدار، وخاصة الانحدار الخطي، مكونات أساسية للعديد من أنظمة التعلم الآلي. يتم استخدامها على نطاق واسع بسبب الفوائد التالية:

  • يمكن أن تكون سريعة.يمكن لتقنيات الانحدار إنشاء علاقات بسرعة بين متغيرات متعددة (ميزات) وقيمة مستهدفة، مما يجعلها مفيدة لتحليل البيانات الاستكشافية وتسريع تدريب نماذج التعلم الآلي.
  • فهي متعددة الاستخدامات. العديد من نماذج الانحدار، مثل الانحدار الخطي ومتعدد الحدود واللوجستي، تمت دراستها جيدًا ويمكن تكييفها لحل مجموعة واسعة من مشاكل العالم الحقيقي، بدءًا من التنبؤ وحتى مهام التصنيف.
  • يمكن أن تكون سهلة التنفيذ. على سبيل المثال، يمكن تنفيذ نماذج الانحدار الخطي دون الحاجة إلى تقنيات رياضية أو هندسية معقدة، مما يجعلها في متناول علماء البيانات والمهندسين بمستويات مهارات مختلفة.
  • فهي سهلة الفهم. تقدم نماذج الانحدار، وخاصة الانحدار الخطي، مخرجات قابلة للتفسير حيث تكون العلاقات بين المتغيرات وتأثيرها على النتيجة المتوقعة واضحة في كثير من الأحيان. وهذا يجعلها مفيدة في تحديد الاتجاهات والأنماط في البيانات التي يمكن أن توفر المزيد من التحليل الأعمق. في بعض الحالات، يمكن لنماذج الانحدار مقايضة إمكانية التفسير للحصول على دقة أعلى، اعتمادًا على حالة الاستخدام.

التحديات في الانحدار

في حين أن نماذج الانحدار تقدم العديد من الفوائد، إلا أنها تأتي أيضًا مع مجموعة التحديات الخاصة بها. في كثير من الأحيان، سوف تنعكس هذه التحديات في انخفاض الأداء أو قابلية التعميم، خاصة عند التعامل مع المشكلات المعقدة أو البيانات المحدودة. فيما يلي بعض المشكلات الأكثر شيوعًا التي تواجه تحليل الانحدار.

  • التجهيز الزائد:غالبًا ما تكافح النماذج لتحقيق التوازن بين التحيز والتباين. إذا كان النموذج معقدًا للغاية، فيمكن أن يتناسب مع البيانات التاريخية بشكل جيد للغاية (تقليل التباين) ولكنه يصبح متحيزًا عند تعرضه لبيانات جديدة. ويرجع ذلك غالبًا إلى أن النموذج يحفظ بيانات التدريب بدلاً من تعلم تجريد معمم.
  • عدم التجهيز:النموذج الذي يكون بسيطًا جدًا بالنسبة للمشكلة المطروحة يمكن أن يعاني من انحياز كبير. وسوف تظهر معدلات خطأ عالية في كل من بيانات التدريب والبيانات غير المرئية، مما يشير إلى أنها لم تتعلم الأنماط الأساسية. يمكن أن تؤدي التعديلات المفرطة لتصحيح التحيز العالي إلى عدم المطابقة، حيث يفشل النموذج في التقاط تعقيدات البيانات.
  • بيانات التدريب المعقدة:تفترض نماذج الانحدار عادةً أن الملاحظات المستخدمة للتدريب مستقلة. إذا كانت البيانات تحتوي على علاقات معقدة أو عشوائية متأصلة، فقد يواجه النموذج صعوبة في بناء تنبؤات دقيقة وموثوقة.
  • بيانات غير كاملة أو مفقودة:تتطلب خوارزميات الانحدار الخاضعة للإشراف كميات كبيرة من البيانات للتعرف على الأنماط وحساب الحالات الأساسية. عند التعامل مع البيانات المفقودة أو غير المكتملة، قد لا يعمل النموذج بشكل جيد، خاصة عند تعلم العلاقات المعقدة التي تتطلب تغطية واسعة النطاق للبيانات.
  • اختيار متغير التوقع:تعتمد نماذج الانحدار على البشر لتحديد متغيرات التوقع الصحيحة (الميزات). إذا تم تضمين عدد كبير جدًا من المتغيرات غير ذات الصلة، فقد يتدهور أداء النموذج. على العكس من ذلك، إذا تم اختيار عدد قليل جدًا من المتغيرات أو تم اختيارها بشكل خاطئ، فقد يفشل النموذج في حل المشكلة بدقة أو تقديم تنبؤات موثوقة.