ما هو الانحدار اللوجستي في التعلم الآلي؟
نشرت: 2024-10-04يعد الانحدار اللوجستي طريقة أساسية في التحليل الإحصائي والتعلم الآلي (ML). سيشرح هذا الدليل الشامل أساسيات الانحدار اللوجستي ويناقش الأنواع المختلفة والتطبيقات الواقعية ومزايا وعيوب استخدام هذه التقنية القوية.
جدول المحتويات
- ما هو الانحدار اللوجستي؟
- أنواع الانحدار اللوجستي
- الانحدار اللوجستي مقابل الانحدار الخطي
- كيف يعمل الانحدار اللوجستي
- التطبيقات
- المزايا
- العيوب
ما هو الانحدار اللوجستي؟
الانحدار اللوجستي، المعروف أيضًا باسم الانحدار اللوغاريتمي أو النموذج اللوغاريتمي، هو نوع من خوارزمية التعلم الخاضع للإشراف المستخدمة في مهام التصنيف، خاصة للتنبؤ باحتمالية النتيجة الثنائية (أي فئتين محتملتين). ويعتمد على الأساليب الإحصائية التي تحمل الاسم نفسه، والتي تقدر احتمالية وقوع حدث معين. على سبيل المثال، يمكن استخدام الانحدار اللوجستي للتنبؤ باحتمالية أن تكون رسالة البريد الإلكتروني غير مرغوب فيها أو قيام العميل بإجراء عملية شراء أو مغادرة موقع ويب.
يقوم النموذج بتقييم الخصائص ذات الصلة بالحدث (وتسمى "المتغيرات المتوقعة" أو "الميزات"). على سبيل المثال، إذا كان الحدث هو "وصول بريد إلكتروني"، فقد تتضمن الخصائص ذات الصلة عنوان IP المصدر أو عنوان البريد الإلكتروني للمرسل أو تقييم إمكانية قراءة المحتوى. وهو يصمم العلاقة بين هذه المتنبئين واحتمالية النتيجة باستخدام الدالة اللوجستية، والتي لها النموذج التالي:
و (س) = 1 / ( 1 + ه -x )
تقوم هذه الدالة بإخراج قيمة بين 0 و1، تمثل الاحتمالية المقدرة للحدث (قد تقول، "من المحتمل أن يكون هذا البريد الإلكتروني بريدًا عشوائيًا بنسبة 80%").
يستخدم الانحدار اللوجستي على نطاق واسع في تعلم الآلة، وخاصة لمهام التصنيف الثنائي. غالبًا ما تُستخدم الدالة السيني (نوع من الوظائف اللوجستية) لتحويل مخرجات أي نموذج تصنيف ثنائي إلى احتمال. على الرغم من أن الانحدار اللوجستي بسيط، إلا أنه بمثابة تقنية أساسية لنماذج أكثر تعقيدًا، مثل الشبكات العصبية، حيث يتم استخدام وظائف لوجستية مماثلة لنمذجة الاحتمالات. يشير مصطلحالنموذج اللوغاريتميإلى النماذج التي تستخدم هذه الدالة اللوغاريتمية لتعيين ميزات الإدخال للاحتمالات المتوقعة.
أنواع الانحدار اللوجستي
هناك ثلاثة أنواع رئيسية من الانحدار اللوجستي: ثنائي، متعدد الحدود، وترتيبي.
الانحدار اللوجستي الثنائي
يُعرف أيضًا باسم الانحدار الثنائي، وهو الشكل القياسي والأكثر شيوعًا للانحدار اللوجستي. عندما يتم استخدام مصطلحالانحدار اللوجستيبدون مؤهلات، فإنه عادة ما يشير إلى هذا النوع. يأتي اسم "ثنائي" من حقيقة أنه يأخذ في الاعتبار نتيجتين بالضبط؛ يمكن اعتباره إجابة على الأسئلة بنعم أو لا. يمكن للانحدار الثنائي التعامل مع الأسئلة الأكثر تعقيدًا إذا تم إعادة صياغتها كسلاسل من الأسئلة نعم أو لا، أو الأسئلة الثنائية.
مثال:تخيل حساب احتمالات ثلاثة خيارات متنافية: ما إذا كان العميل سيتخلى عن المنتج (أي يتوقف عن استخدام المنتج)، أو يشترك في نسخة مجانية من الخدمة، أو يشترك في الإصدار المتميز المدفوع. قد يحل الانحدار الثنائي المتسلسل هذه المشكلة عن طريق الإجابة على سلسلة الأسئلة التالية:
- هل سيخض العميل (نعم أم لا)؟
- إذا لم يكن الأمر كذلك، هل سيقوم العميل بالتسجيل في الخدمة المجانية (نعم أم لا)؟
- إذا لم يكن الأمر كذلك، هل سيقوم العميل بالتسجيل للحصول على الخدمة المميزة المدفوعة (نعم أم لا)؟
الانحدار اللوجستي متعدد الحدود
يُعرف هذا النوع من الانحدار اللوجستي أيضًا باسم الانحدار متعدد الحدود، وهو امتداد للانحدار الثنائي الذي يمكنه الإجابة على الأسئلة بأكثر من نتيجتين محتملتين. إنه يتجنب الحاجة إلى تسلسل الأسئلة لحل المشكلات الأكثر تعقيدًا. يفترض الانحدار متعدد الحدود أن الاحتمالات التي يتم حسابها ليس لها أي ترابط أو ترتيب لها وأن مجموعة الخيارات التي تم النظر فيها تغطي جميع النتائج المحتملة.
على سبيل المثال:يعمل الانحدار متعدد الحدود بشكل جيد عند التنبؤ باللون الذي من المحتمل أن يريده العميل للسيارة التي يشتريها من قائمة الألوان المتاحة. ومع ذلك، فإنه لا يعمل بشكل جيد لحساب الاحتمالات عندما يكون الترتيب مهمًا، مثل تقييم الألوان الأخضر والأصفر والأحمر كعلامات خطورة لمشكلة دعم العملاء، حيث تبدأ المشكلة دائمًا باللون الأخضر وقد يتم تصعيدها إلى الأصفر ثم بعد ذلك. الأحمر (حيث يتبع الأصفر دائمًا اللون الأخضر والأحمر يتبع دائمًا اللون الأصفر).
الانحدار اللوجستي الترتيبي
يُعرف أيضًا باسم نموذج الاحتمالات النسبية للانحدار، وقد تم تصميم هذا الشكل المتخصص من الانحدار اللوجستي للقيم الترتيبية - وهي المواقف التي يكون فيها الترتيب النسبي بين النتائج مهمًا. يتم استخدام الانحدار اللوجستي الترتيبي عندما تكون النتائج ذات ترتيب طبيعي ولكن المسافات بين الفئات غير معروفة.
على سبيل المثال:يمكن استخدامه لحساب احتمالات المكان الذي من المرجح أن يقوم فيه نزيل الفندق بتصنيف إقامته على مقياس مكون من خمسة أجزاء: سيئة للغاية، وسيئة، ومحايدة، وجيدة، وجيدة جدًا. الترتيب النسبي مهم - السيئ دائمًا أسوأ من المحايد، ومن المهم ملاحظة الاتجاه الذي ستتحرك فيه المراجعات على المقياس. عندما يكون النظام مهمًا، يمكن للانحدار الترتيبي تحديد العلاقات بين القيم التي يتم حساب احتمالاتها (على سبيل المثال، قد يكتشف أن السيئ يميل إلى الظهور بمقدار النصف في كثير من الأحيان كما هو محايد).
الانحدار اللوجستي مقابل الانحدار الخطي
على الرغم من اختلافهما، فإن الانحدار اللوجستي والانحدار الخطي غالبًا ما يظهران في سياقات مماثلة، حيث أنهما جزء من مجموعة أدوات رياضية أكبر ذات صلة. يحسب الانحدار اللوجستي عمومًا احتمالات النتائج المنفصلة، بينما يحسب الانحدار الخطي القيم المتوقعة للنتائج المستمرة.
على سبيل المثال، إذا حاول أحد التنبؤ بدرجة الحرارة الأكثر احتمالية ليوم واحد في المستقبل، فإن نموذج الانحدار الخطي سيكون أداة جيدة لهذه المهمة. وعلى النقيض من ذلك، تحاول نماذج الانحدار اللوجستي حساب أو التنبؤ باحتمالات خيارين أو أكثر من قائمة ثابتة من الاختيارات. بدلًا من التنبؤ بدرجة حرارة معينة، قد يعطي نموذج الانحدار اللوجستي احتمالات وقوع يوم معين في نطاقات درجات الحرارة الدافئة أو المريحة أو الباردة.
ونظرًا لأنه تم تصميمهما لمعالجة حالات استخدام منفصلة، فإن النموذجين يضعان افتراضات مختلفة حول الخصائص الإحصائية للقيم التي يتوقعانها ويتم تنفيذها باستخدام أدوات إحصائية مختلفة. يفترض الانحدار اللوجستي عادةً توزيعًا إحصائيًا ينطبق على القيم المنفصلة، مثل توزيع برنولي، بينما قد يستخدم الانحدار الخطي توزيعًا غاوسيًا. غالبًا ما يتطلب الانحدار اللوجستي مجموعات بيانات أكبر للعمل بفعالية، في حين أن الانحدار الخطي عادة ما يكون أكثر حساسية للقيم المتطرفة المؤثرة. بالإضافة إلى ذلك، يقدم الانحدار اللوجستي افتراضات حول بنية الاحتمالات التي يحسبها، في حين أن الانحدار الخطي يضع افتراضات حول كيفية توزيع الأخطاء في مجموعة بيانات التدريب.
تؤدي الاختلافات بين هذه النماذج إلى تقديم أداء أفضل لحالات الاستخدام المثالية الخاصة بها. سيكون الانحدار اللوجستي أكثر دقة للتنبؤ بالقيم الفئوية، وسيكون الانحدار الخطي أكثر دقة عند التنبؤ بالقيم المستمرة. غالبًا ما يتم الخلط بين التقنيتين مع بعضهما البعض، حيث يمكن إعادة استخدام مخرجاتهما من خلال حسابات رياضية مباشرة. يمكن تطبيق مخرجات نموذج الانحدار اللوجستي، بعد التحويل، على نفس أنواع المشكلات مثل مخرجات النموذج الخطي، مما يوفر تكلفة تدريب نموذجين منفصلين. لكنها لن تعمل كذلك؛ وينطبق الشيء نفسه في الاتجاه المعاكس.
كيف يعمل الانحدار اللوجستي؟
كنوع من خوارزمية التعلم الخاضعة للإشراف، يعتمد الانحدار اللوجستي على التعلم من مجموعات البيانات المشروحة جيدًا. تحتوي مجموعات البيانات عادةً على قوائم تمثيلات الميزات المطابقة لمخرجات النموذج المتوقعة لكل منها.
للحصول على فهم أوضح للانحدار اللوجستي، من الضروري أولاً فهم المصطلحات الرئيسية التالية:
- متغيرات التوقع:الخصائص أو الميزات التي يأخذها النموذج اللوجستي في الاعتبار عند حساب احتمالات النتائج. على سبيل المثال، يمكن أن تتضمن متغيرات التوقع لتقدير احتمالية شراء العميل لمنتج ما البيانات الديموغرافية وسجل التصفح.
- تمثيل الميزة:مثيل محدد لمتغيرات التوقع. على سبيل المثال، إذا كانت متغيرات التوقع هي "الرمز البريدي" و"الولاية" و"شريحة الدخل"، فقد يكون أحد تمثيلات المعالم هو "90210" و"كاليفورنيا" و"75 ألف+/سنة".
- دالة الارتباط:الوظيفة الرياضية الموجودة في قلب نموذج الانحدار والتي تربط متغيرات التوقع باحتمالات نتيجة معينة. ستتبع الوظيفة النمط:
θ = ب(μ)
حيث θهي احتمالات التنبؤ لكل فئة،bهي دالة محددة (عادةً دالة على شكلS، تسمى السيني)، وتمثلμالقيمة المتوقعة (من نطاق مستمر من القيم).
- الوظيفة اللوجستية:وظيفة الارتباط المحددة المستخدمة في الانحدار اللوجستي، وتعرف بأنها
σ ( س ) =1 / ( 1 +ه-x)
فهو يقوم بتطبيع الناتج إلى احتمال بين 0 و1، وتحويل التغييرات المتناسبة والمبنية على الضرب في متغيرات التوقع إلى تغييرات إضافية متسقة في الاحتمالات.
- الدالة اللوغاريتمية:معكوس الدالة اللوجستية، حيث تقوم بتحويل قيم الاحتمالية إلى احتمالات سجلية، مما يساعد على شرح كيفية ارتباط متغيرات التوقع باحتمالات النتيجة. فهو يساعد في شرح كيفية ارتباط متغيرات التوقع باحتمالات النتيجة. يتم تعريفه على النحو التالي:
لوغاريتمي p =σ ( p ) -1= ln ( p / ( 1 – p ) )
بالنسبة لاحتمالات معينة p، فإنها تؤدي معكوس الوظيفة اللوجستية.
- خسارة السجل:تُعرف أيضًا باسم الخسارة عبر الإنتروبيا أو الخسارة اللوجستية، وهي تقيس الفرق بين الاحتمالات المتوقعة والنتائج الفعلية في نماذج التصنيف. بالنسبة للتصنيف الثنائي، يطلق عليه غالبًا "الإنتروبيا الثنائية".
يقع في قلب عملية الانحدار اللوجستي قرار وظيفة الارتباط التي سيتم استخدامها. بالنسبة للانحدار اللوجستي الثنائي، ستكون هذه دائمًا الوظيفة اللوجستية. ستستخدم الانحدارات الأكثر تعقيدًا أنواعًا أخرى من الدوال السيني؛ تُعرف إحدى الوظائف السيني الأكثر شيوعًا باسم softmax ويتم استخدامها بشكل متكرر في نماذج تعلم الآلة وفي حالات استخدام الانحدار متعدد الحدود.
أثناء التدريب، سيعتمد النظام أيضًا على دالة الخسارة، التي تحسب مدى جودة أداء الانحدار أو ملاءمته. ويمكن النظر إلى هدف الأنظمة على أنه تقليص المسافة بين النتيجة أو الاحتمالات المتوقعة وما يحدث في العالم الحقيقي (أحياناً تسمى هذه المسافة "المفاجأة"). بالنسبة للانحدار اللوجستي، فإن دالة الخسارة هي شكل مختلف من دالة فقدان السجل الشائعة جدًا.
يمكن استخدام مجموعة متنوعة من خوارزميات التدريب القياسية على تعلم الآلة لتدريب نموذج الانحدار اللوجستي، بما في ذلك النسب المتدرج، وتقدير الاحتمال الأقصى، ونزول التدرج العشوائي.
تطبيقات الانحدار اللوجستي في ML
عادةً ما تُستخدم نماذج تعلم الآلة للانحدار اللوجستي لمهام التصنيف، أو للتنبؤ بالفئات من معلومات جزئية. تمتد حالات الاستخدام إلى العديد من المجالات، بما في ذلك المجال المالي والرعاية الصحية وعلم الأوبئة والتسويق. اثنان من التطبيقات الأكثر شهرة هما اكتشاف البريد الإلكتروني العشوائي والتشخيص الطبي.
كشف البريد الإلكتروني العشوائي
يمكن أن يكون الانحدار اللوجستي أداة فعالة لتصنيف الاتصالات، مثل تحديد رسائل البريد الإلكتروني كرسائل غير مرغوب فيها أم لا، على الرغم من استخدام أساليب أكثر تقدمًا في كثير من الأحيان في الحالات المعقدة. يمكن وضع علامة على عنوان المرسل والوجهة ومحتويات النص للرسالة وعنوان IP المصدر وما إلى ذلك - جميع خصائص البريد الإلكتروني - كمتغيرات تنبؤية واحتسابها في احتمالات أن تكون رسالة بريد إلكتروني معينة بريدًا عشوائيًا. تقوم أدوات تصفية البريد العشوائي بالبريد الإلكتروني بتدريب النماذج اللوجستية الثنائية وتحديثها بسرعة على رسائل البريد الإلكتروني الجديدة وتكتشف إستراتيجيات البريد العشوائي الجديدة وتتفاعل معها بسرعة.
تعمل الإصدارات الأكثر تقدمًا من مرشحات البريد العشوائي على معالجة رسائل البريد الإلكتروني مسبقًا لتسهيل التعرف عليها كرسائل غير مرغوب فيها. على سبيل المثال، يمكن للبرنامج النصي إضافة نسبة مئوية من رسائل البريد الإلكتروني التي تم وضع علامة عليها كرسائل غير مرغوب فيها لعنوان IP الخاص بالمرسل في رسالة بريد إلكتروني، ويمكن أن يأخذ الانحدار هذه المعلومات في الاعتبار.
التشخيص الطبي
تُستخدم نماذج الانحدار اللوجستي بشكل شائع للمساعدة في تشخيص الحالات الطبية مثل مرض السكري وسرطان الثدي. إنهم يتعلمون من التحليلات التي يجريها الأطباء والباحثون الطبيون ويعتمدون عليها.
بالنسبة للتشخيص المعتمد على الصور، مثل الكشف عن السرطان، يقوم الباحثون الطبيون والمتخصصون ببناء مجموعات بيانات من مختلف الاختبارات والتصوير وعمليات المسح. تتم بعد ذلك معالجة هذه البيانات وتحويلها إلى قوائم التقييمات النصية. قد يتم تحليل الصورة للحصول على تفاصيل مثل كثافة البكسل وعدد ومتوسط نصف قطر مجموعات البكسل المختلفة وما إلى ذلك. يتم بعد ذلك تضمين هذه القياسات في قائمة المتغيرات المتوقعة التي تتضمن نتائج الاختبارات والتقييمات الأخرى. تتعلم أنظمة الانحدار اللوجستي منها وتتنبأ بما إذا كان من المحتمل أن يتم تشخيص إصابة المريض بالسرطان.
إلى جانب التنبؤ بالتشخيص الطبي بدقة عالية، يمكن لأنظمة الانحدار اللوجستي أيضًا الإشارة إلى نتائج الاختبار الأكثر صلة بتقييماتها. يمكن أن تساعد هذه المعلومات في تحديد أولويات الاختبارات لمريض جديد، وتسريع عملية التشخيص.
مزايا الانحدار اللوجستي في ML
غالبًا ما يُفضل الانحدار اللوجستي بسبب بساطته وقابليته للتفسير، خاصة في الحالات التي يلزم فيها إنتاج النتائج بسرعة نسبية وحيث تكون الرؤى المتعمقة للبيانات مهمة.
نتائج سريعة وعملية
من الناحية العملية، يعتبر الانحدار اللوجستي سهل التنفيذ وسهل التفسير. إنه يعمل بشكل موثوق ويوفر رؤى قيمة حتى عندما لا تتوافق البيانات تمامًا مع الافتراضات أو التوقعات. تتميز النماذج الرياضية الأساسية بالكفاءة وسهولة التحسين نسبيًا، مما يجعل الانحدار اللوجستي خيارًا قويًا وعمليًا للعديد من التطبيقات.
رؤى مفيدة حول خصائص البيانات
من الناحية النظرية، يتفوق الانحدار اللوجستي في مهام التصنيف الثنائي، كما أنه سريع جدًا بشكل عام في تصنيف البيانات الجديدة. يمكن أن يساعد في تحديد المتغيرات المرتبطة بالنتائج محل الاهتمام، مما يوفر نظرة ثاقبة حول المكان الذي يجب أن يركز عليه تحليل البيانات الإضافي. غالبًا ما يوفر الانحدار اللوجستي دقة عالية في حالات الاستخدام البسيطة؛ وحتى عندما تتضاءل الدقة بالنسبة لمجموعات بيانات معينة، فإنها لا تزال توفر رؤى مفيدة حول الأهمية النسبية للمتغيرات واتجاه تأثيرها (إيجابيًا أو سلبيًا).
مساوئ الانحدار اللوجستي في تعلم الآلة
يضع الانحدار اللوجستي افتراضات حول البيانات التي يحللها، مما يساعد الخوارزميات الأساسية على أن تكون أسرع وأسهل للفهم على حساب الحد من فائدتها. ولا يمكن استخدامها لنمذجة النتائج المستمرة أو العلاقات غير الخطية، ويمكن أن تفشل إذا كانت العلاقة بالنموذج معقدة للغاية، وسوف تفرط في التناسب إذا قاموا بتحليل الكثير من البيانات.
يقتصر على نتائج منفصلة
لا يمكن استخدام الانحدار اللوجستي إلا للتنبؤ بالنتائج المنفصلة. إذا كانت المشكلة تتطلب تنبؤات مستمرة، فإن تقنيات مثل الانحدار الخطي تكون أكثر ملاءمة.
افترض العلاقات الخطية
يفترض النموذج وجود علاقة خطية بين متغيرات التوقع والاحتمالات المقدرة، وهو ما نادرًا ما يحدث في بيانات العالم الحقيقي. وهذا يتطلب في كثير من الأحيان معالجة مسبقة إضافية وتعديلات لتحسين الدقة. بالإضافة إلى ذلك، يفترض الانحدار اللوجستي أنه يمكن اتخاذ قرارات التصنيف باستخدام وظائف خطية بسيطة، والتي قد لا تعكس تعقيدات سيناريوهات العالم الحقيقي. ونتيجة لذلك، غالبًا ما يكون الانحدار اللوجستي بمثابة تقدير تقريبي قد يتطلب تحسينًا وتحديثات منتظمة ليظل ملائمًا.
قد يفشل في نمذجة العلاقات المعقدة
إذا لم يكن لدى مجموعة من المتغيرات المتوقعة علاقة خطية بالاحتمالات المحسوبة، أو إذا لم تكن المتغيرات المتوقعة مستقلة بما يكفي عن بعضها البعض، فقد يفشل الانحدار اللوجستي في العمل تمامًا، أو قد يكتشف فقط مجموعة فرعية من العلاقات الخطية عندما يحتوي النظام على مزيج من الخصائص الخطية وغيرها من الخصائص الأكثر تعقيدًا.
overfit مجموعات البيانات الكبيرة
بالنسبة لمجموعات البيانات الأكبر والأكثر تعقيدًا، يكون الانحدار اللوجستي عرضة للتجاوز، حيث يصبح النموذج متوافقًا بشكل وثيق مع البيانات المحددة التي تم تدريبه عليها، مما يؤدي إلى التقاط الضوضاء والتفاصيل الصغيرة بدلاً من الأنماط العامة. يمكن أن يؤدي هذا إلى ضعف الأداء في البيانات الجديدة غير المرئية. يمكن أن تساعد تقنيات مثل التنظيم في تخفيف التجاوز، ولكن هناك حاجة إلى دراسة متأنية عند تطبيق الانحدار اللوجستي على البيانات المعقدة.