ما هو الانحدار الخطي في التعلم الآلي؟
نشرت: 2024-09-06يعد الانحدار الخطي تقنية أساسية في تحليل البيانات والتعلم الآلي (ML). سيساعدك هذا الدليل على فهم الانحدار الخطي وكيفية إنشائه وأنواعه وتطبيقاته وفوائده وعيوبه.
جدول المحتويات
- ما هو الانحدار الخطي؟
- أنواع الانحدار الخطي
- الانحدار الخطي مقابل الانحدار اللوجستي
- كيف يعمل الانحدار الخطي؟
- تطبيقات الانحدار الخطي
- مزايا الانحدار الخطي في ML
- مساوئ الانحدار الخطي في ML
ما هو الانحدار الخطي؟
الانحدار الخطي هو طريقة إحصائية تستخدم في التعلم الآلي لنمذجة العلاقة بين متغير تابع ومتغير مستقل واحد أو أكثر. فهو يصمم العلاقات عن طريق ملاءمة معادلة خطية للبيانات المرصودة، وغالبًا ما يكون بمثابة نقطة بداية لخوارزميات أكثر تعقيدًا ويستخدم على نطاق واسع في التحليل التنبؤي.
بشكل أساسي، يصمم الانحدار الخطي العلاقة بين متغير تابع (النتيجة التي تريد التنبؤ بها) وواحد أو أكثر من المتغيرات المستقلة (ميزات الإدخال التي تستخدمها للتنبؤ) من خلال إيجاد الخط المستقيم الأكثر ملاءمة من خلال مجموعة من نقاط البيانات. يمثل هذا الخط، المسمىخط الانحدار، العلاقة بين المتغير التابع (النتيجة التي نريد التنبؤ بها) والمتغير (المتغيرات) المستقلة (ميزات الإدخال التي نستخدمها للتنبؤ). يتم تعريف معادلة خط الانحدار الخطي البسيط على النحو التالي:
ص = مكس + ج
حيث y هو المتغير التابع، x هو المتغير المستقل، m هو ميل الخط، و c هو تقاطع y. توفر هذه المعادلة نموذجًا رياضيًا لتعيين المدخلات والمخرجات المتوقعة، بهدف تقليل الاختلافات بين القيم المتوقعة والقيم المرصودة، والمعروفة باسم القيم المتبقية. ومن خلال تقليل هذه المخلفات، ينتج الانحدار الخطي نموذجًا يمثل البيانات على أفضل وجه.
من الناحية النظرية، يمكن تصور الانحدار الخطي على أنه رسم خط مستقيم عبر نقاط على الرسم البياني لتحديد ما إذا كانت هناك علاقة بين نقاط البيانات تلك. نموذج الانحدار الخطي المثالي لمجموعة من نقاط البيانات هو الخط الذي يقارب قيم كل نقطة في مجموعة البيانات بشكل أفضل.
أنواع الانحدار الخطي
هناك نوعان رئيسيان من الانحدار الخطي:الانحدار الخطي البسيطوالانحدار الخطي المتعدد .
الانحدار الخطي البسيط
يصمم الانحدار الخطي البسيط العلاقة بين متغير مستقل واحد ومتغير تابع باستخدام خط مستقيم. معادلة الانحدار الخطي البسيط هي:
ص = مكس + ج
حيث y هو المتغير التابع، x هو المتغير المستقل، m هو ميل الخط، و c هو تقاطع y.
تعد هذه الطريقة طريقة مباشرة للحصول على رؤى واضحة عند التعامل مع سيناريوهات ذات متغير واحد. لنفترض أن الطبيب يحاول فهم كيفية تأثير طول المريض على وزنه. من خلال رسم كل متغير على الرسم البياني وإيجاد الخط الأنسب باستخدام الانحدار الخطي البسيط، يمكن للطبيب التنبؤ بوزن المريض بناءً على طوله وحده.
الانحدار الخطي المتعدد
يوسع الانحدار الخطي المتعدد مفهوم الانحدار الخطي البسيط لاستيعاب أكثر من متغير واحد، مما يسمح بتحليل كيفية تأثير العوامل المتعددة على المتغير التابع. معادلة الانحدار الخطي المتعدد هي:
ص = ب 0 + ب 1 × 1 + ب 2 × 2 + … + ب ن × ن
حيث y هو المتغير التابع، x 1 , x 2 , …, x n هي المتغيرات المستقلة و b 1 , b 2 , …, b n هي المعاملات التي تصف العلاقة بين كل متغير مستقل والمتغير التابع.
على سبيل المثال، فكر في وكيل عقاري يريد تقدير أسعار المنازل. يمكن للوكيل استخدام انحدار خطي بسيط يعتمد على متغير واحد، مثل حجم المنزل أو الرمز البريدي، ولكن هذا النموذج سيكون تبسيطيا للغاية، حيث أن أسعار المساكن غالبا ما تكون مدفوعة بتفاعل معقد بين عوامل متعددة. ومن المرجح أن يوفر الانحدار الخطي المتعدد، الذي يتضمن متغيرات مثل حجم المنزل والحي وعدد غرف النوم، نموذج تنبؤ أكثر دقة.
الانحدار الخطي مقابل الانحدار اللوجستي
غالبًا ما يتم الخلط بين الانحدار الخطي والانحدار اللوجستي. بينما يتنبأ الانحدار الخطي بالنتائج على المتغيراتالمستمرة، يتم استخدام الانحدار اللوجستي عندما يكون المتغير التابعقاطعًا، وغالبًا ما يكون ثنائيًا (نعم أو لا). تحدد المتغيرات الفئوية مجموعات غير رقمية بعدد محدود من الفئات، مثل الفئة العمرية أو طريقة الدفع. من ناحية أخرى، يمكن للمتغيرات المستمرة أن تأخذ أي قيمة عددية وتكون قابلة للقياس. تتضمن أمثلة المتغيرات المستمرة الوزن والسعر ودرجة الحرارة اليومية.
على عكس الدالة الخطية المستخدمة في الانحدار الخطي، فإن الانحدار اللوجستي يمثل احتمالية النتيجة الفئوية باستخدام منحنى على شكل حرف S يسمى دالة لوجستية. في مثال التصنيف الثنائي، تقع نقاط البيانات التي تنتمي إلى الفئة "نعم" على أحد جانبي الشكل S، بينما تقع نقاط البيانات في الفئة "لا" على الجانب الآخر. من الناحية العملية، يمكن استخدام الانحدار اللوجستي لتصنيف ما إذا كانت رسالة البريد الإلكتروني بريدًا عشوائيًا أم لا، أو التنبؤ بما إذا كان العميل سيشتري منتجًا أم لا. بشكل أساسي، يتم استخدام الانحدار الخطي للتنبؤ بالقيم الكمية، في حين يتم استخدام الانحدار اللوجستي لمهام التصنيف.
كيف يعمل الانحدار الخطي؟
يعمل الانحدار الخطي من خلال إيجاد الخط الأنسب من خلال مجموعة من نقاط البيانات. تتضمن هذه العملية:
1 اختيار النموذج:في الخطوة الأولى يتم اختيار المعادلة الخطية المناسبة لوصف العلاقة بين المتغيرات التابعة والمستقلة.
2 ملاءمة النموذج:بعد ذلك، يتم استخدام تقنية تسمى المربعات الصغرى العادية (OLS) لتقليل مجموع الفروق المربعة بين القيم المرصودة والقيم التي تنبأ بها النموذج. يتم ذلك عن طريق ضبط ميل الخط وتقاطعه للعثور على أفضل ملاءمة. الغرض من هذه الطريقة هو تقليل الخطأ أو الاختلاف بين القيم المتوقعة والفعلية. تعد عملية الملاءمة هذه جزءًا أساسيًا من التعلم الآلي الخاضع للإشراف، حيث يتعلم النموذج من بيانات التدريب.
3 تقييم النموذج:في الخطوة الأخيرة، يتم تقييم جودة الملاءمة باستخدام مقاييس مثل R-squared، الذي يقيس نسبة التباين في المتغير التابع الذي يمكن التنبؤ به من المتغيرات المستقلة. بمعنى آخر، يقيس R-squared مدى توافق البيانات فعليًا مع نموذج الانحدار.
تنشئ هذه العملية نموذجًا للتعلم الآلي يمكن استخدامه بعد ذلك لإجراء تنبؤات بناءً على البيانات الجديدة.
تطبيقات الانحدار الخطي في ML
في التعلم الآلي، يعد الانحدار الخطي أداة شائعة الاستخدام للتنبؤ بالنتائج وفهم العلاقات بين المتغيرات في مختلف المجالات. وفيما يلي بعض الأمثلة البارزة لتطبيقاته:
التنبؤ بالإنفاق الاستهلاكي
يمكن استخدام مستويات الدخل في نموذج الانحدار الخطي للتنبؤ بإنفاق المستهلكين. على وجه التحديد، يمكن أن يتضمن الانحدار الخطي المتعدد عوامل مثل الدخل التاريخي، والعمر، والحالة الوظيفية لتقديم تحليل شامل. وهذا يمكن أن يساعد الاقتصاديين في تطوير السياسات الاقتصادية القائمة على البيانات ومساعدة الشركات على فهم أنماط سلوك المستهلك بشكل أفضل.
تحليل التأثير التسويقي
يمكن للمسوقين استخدام الانحدار الخطي لفهم كيفية تأثير الإنفاق الإعلاني على إيرادات المبيعات. من خلال تطبيق نموذج الانحدار الخطي على البيانات التاريخية، يمكن التنبؤ بإيرادات المبيعات المستقبلية، مما يسمح للمسوقين بتحسين ميزانياتهم واستراتيجياتهم الإعلانية لتحقيق أقصى قدر من التأثير.
التنبؤ بأسعار الأسهم
في عالم المال، يعد الانحدار الخطي أحد الأساليب العديدة المستخدمة للتنبؤ بأسعار الأسهم. باستخدام بيانات الأسهم التاريخية والمؤشرات الاقتصادية المختلفة، يمكن للمحللين والمستثمرين بناء نماذج انحدار خطي متعددة تساعدهم على اتخاذ قرارات استثمارية أكثر ذكاءً.
التنبؤ بالظروف البيئية
في العلوم البيئية، يمكن استخدام الانحدار الخطي للتنبؤ بالظروف البيئية. على سبيل المثال، يمكن لعوامل مختلفة مثل حجم حركة المرور، والظروف الجوية، والكثافة السكانية أن تساعد في التنبؤ بمستويات التلوث. ويمكن بعد ذلك استخدام نماذج التعلم الآلي هذه من قبل صناع السياسات والعلماء وأصحاب المصلحة الآخرين لفهم وتخفيف آثار الإجراءات المختلفة على البيئة.
مزايا الانحدار الخطي في ML
يقدم الانحدار الخطي العديد من المزايا التي تجعله تقنية أساسية في التعلم الآلي.
سهلة الاستخدام والتنفيذ
بالمقارنة مع معظم الأدوات والنماذج الرياضية، من السهل فهم وتطبيق الانحدار الخطي. إنه أمر رائع بشكل خاص كنقطة انطلاق لممارسي التعلم الآلي الجدد، حيث يوفر رؤى وخبرات قيمة كأساس لخوارزميات أكثر تقدمًا.
كفاءة حسابية
يمكن أن تكون نماذج التعلم الآلي كثيفة الاستخدام للموارد. يتطلب الانحدار الخطي قوة حسابية منخفضة نسبيًا مقارنة بالعديد من الخوارزميات ولا يزال بإمكانه تقديم رؤى تنبؤية ذات معنى.
نتائج قابلة للتفسير
النماذج الإحصائية المتقدمة، على الرغم من قوتها، غالبا ما يكون من الصعب تفسيرها. باستخدام نموذج بسيط مثل الانحدار الخطي، من السهل فهم العلاقة بين المتغيرات، ويتم الإشارة بوضوح إلى تأثير كل متغير من خلال معامله.
مؤسسة للتقنيات المتقدمة
يوفر فهم الانحدار الخطي وتنفيذه أساسًا متينًا لاستكشاف طرق التعلم الآلي الأكثر تقدمًا. على سبيل المثال، يعتمد الانحدار متعدد الحدود على الانحدار الخطي لوصف العلاقات غير الخطية الأكثر تعقيدًا بين المتغيرات.
مساوئ الانحدار الخطي في ML
على الرغم من أن الانحدار الخطي يعد أداة قيمة في التعلم الآلي، إلا أنه يحتوي على العديد من القيود الملحوظة. يعد فهم هذه العيوب أمرًا بالغ الأهمية عند اختيار أداة التعلم الآلي المناسبة.
بافتراض وجود علاقة خطية
يفترض نموذج الانحدار الخطي أن العلاقة بين المتغيرات التابعة والمستقلة خطية. في سيناريوهات العالم الحقيقي المعقدة، قد لا يكون هذا هو الحال دائمًا. على سبيل المثال، يكون طول الشخص على مدار حياته غير خطي، حيث يتباطأ النمو السريع الذي يحدث أثناء الطفولة ويتوقف في مرحلة البلوغ. لذلك، فإن التنبؤ بالارتفاع باستخدام الانحدار الخطي قد يؤدي إلى تنبؤات غير دقيقة.
حساسية للقيم المتطرفة
القيم المتطرفة هي نقاط بيانات تنحرف بشكل كبير عن غالبية الملاحظات في مجموعة البيانات. إذا لم يتم التعامل معها بشكل صحيح، يمكن لنقاط القيمة القصوى هذه أن تؤدي إلى تحريف النتائج، مما يؤدي إلى استنتاجات غير دقيقة. في التعلم الآلي، تعني هذه الحساسية أن القيم المتطرفة يمكن أن تؤثر بشكل غير متناسب على الدقة التنبؤية وموثوقية النموذج.
متعددة الخطية
في نماذج الانحدار الخطي المتعددة، يمكن للمتغيرات المستقلة المترابطة بشكل كبير أن تشوه النتائج، وهي ظاهرة تعرف باسمالتعددية الخطية. على سبيل المثال، قد يكون عدد غرف النوم في المنزل وحجمه مرتبطين بشكل كبير لأن المنازل الأكبر حجمًا تميل إلى احتواء المزيد من غرف النوم. وهذا يمكن أن يجعل من الصعب تحديد التأثير الفردي للمتغيرات الفردية على أسعار المساكن، مما يؤدي إلى نتائج غير موثوقة.
على افتراض انتشار الخطأ المستمر
يفترض الانحدار الخطي أن الاختلافات بين القيم المرصودة والمتوقعة (انتشار الخطأ) هي نفسها بالنسبة لجميع المتغيرات المستقلة. إذا لم يكن هذا صحيحًا، فقد تكون التنبؤات الناتجة عن النموذج غير موثوقة. في التعلم الآلي الخاضع للإشراف، قد يؤدي الفشل في معالجة انتشار الأخطاء إلى قيام النموذج بإنشاء تقديرات متحيزة وغير فعالة، مما يقلل من فعاليته الإجمالية.