غابات عشوائية في التعلم الآلي: ما هي وكيف تعمل

نشرت: 2025-02-03

الغابات العشوائية هي تقنية قوية ومتعددة الاستخدامات في التعلم الآلي (ML). سيساعدك هذا الدليل على فهم الغابات العشوائية ، وكيفية عملها وتطبيقاتها وفوائدها وتحدياتها.

جدول المحتويات

  • ما هي الغابة العشوائية؟
  • أشجار القرار مقابل الغابة العشوائية: ما الفرق؟
  • كيف تعمل الغابات العشوائية
  • التطبيقات العملية للغابات العشوائية
  • مزايا الغابات العشوائية
  • عيوب الغابات العشوائية

ما هي الغابة العشوائية؟

الغابة العشوائية هي خوارزمية التعلم الآلي تستخدم أشجار قرارات متعددة لإجراء تنبؤات. إنها طريقة تعليمية خاضعة للإشراف مصممة لكل من مهام التصنيف والانحدار. من خلال الجمع بين مخرجات العديد من الأشجار ، تعمل الغابة العشوائية على تحسين الدقة ، وتقلل من الإضافات ، وتوفر تنبؤات أكثر استقرارًا مقارنةً بشجرة قرار واحدة.

العمل أكثر ذكاء مع القواعد النحوية
شريك كتابة الذكاء الاصطناعى لأي شخص لديه عمل للقيام به

أشجار القرار مقابل الغابة العشوائية: ما الفرق؟

على الرغم من أن الغابات العشوائية مبنية على أشجار القرار ، إلا أن الخوارزميتين تختلفان بشكل كبير في الهيكل والتطبيق:

أشجار القرار

تتكون شجرة القرار من ثلاثة مكونات رئيسية: عقدة الجذر ، وعقد القرار (العقد الداخلية) ، وعقد الأوراق. مثل المخطط الانسيابي ، تبدأ عملية اتخاذ القرار في عقدة الجذر ، وتتدفق عبر عقد القرار بناءً على الظروف ، وتنتهي في عقدة ورقة تمثل النتيجة. على الرغم من أن أشجار القرار سهلة التفسير والتصور ، إلا أنها أيضًا عرضة للتورط ، خاصة مع مجموعات البيانات المعقدة أو الصاخبة.

غابات عشوائية

الغابة العشوائية هي مجموعة من أشجار القرار التي تجمع بين مخرجاتها لتحسين التنبؤات. يتم تدريب كل شجرة على عينة فريدة من نوعها (مجموعة فرعية تم أخذ عينات منها بشكل عشوائي من مجموعة البيانات الأصلية مع الاستبدال) وتقييم انقسامات القرار باستخدام مجموعة فرعية محددة بشكل عشوائي من الميزات في كل عقدة. هذا النهج ، المعروف باسم تعبئة الميزة ، يقدم التنوع بين الأشجار. من خلال تجميع التنبؤات - باستخدام أغلبية التصويت للتصنيف أو المتوسطات للانحدار - تنتج غابات العذراء نتائج أكثر دقة وثباتًا من أي شجرة قرار واحدة في المجموعة.

كيف تعمل الغابات العشوائية

تعمل الغابات العشوائية من خلال الجمع بين أشجار القرار المتعددة لإنشاء نموذج تنبؤ قوي ودقيق.

إليك شرح خطوة بخطوة للعملية:

1. وضع فرطميات

الخطوة الأولى هي تحديد فرط النموذج. وتشمل هذه:

  • عدد الأشجار:يحدد حجم الغابة
  • أقصى عمق لكل شجرة:يتحكم في مدى عمق كل شجرة قرار تنمو
  • عدد الميزات التي تم النظر فيها في كل تقسيم:يحد من عدد الميزات التي تم تقييمها عند إنشاء الانقسامات

تسمح هذه المقاييس المفرطة بضبط تعقيد النموذج وتحسين الأداء لمجموعات البيانات المحددة.

2. أخذ العينات bootstrap

بمجرد تعيين مكافآت فرطمي ، تبدأ عملية التدريب بأخذ عينات من bootstrap. هذا ينطوي على:

  • يتم اختيار نقاط البيانات من مجموعة البيانات الأصلية بشكل عشوائي لإنشاء مجموعات بيانات التدريب (عينات bootstrap) لكل شجرة قرار.
  • عادة ما تكون كل عينة من bootstrap حوالي ثلثي حجم مجموعة البيانات الأصلية ، مع تكرار بعض نقاط البيانات واستبعاد آخر.
  • يشار إلى الثلث المتبقي من نقاط البيانات ، غير المدرجة في عينة bootstrap ، على أنها بيانات خارج السقيمة (OOB).

3. بناء أشجار القرار

يتم تدريب كل شجرة قرار في الغابة العشوائية على عينة Bootstrap المقابلة باستخدام عملية فريدة:

  • ميزة التعبئة:في كل انقسام ، يتم تحديد مجموعة فرعية عشوائية من الميزات ، مما يضمن التنوع بين الأشجار.
  • تقسيم العقدة:يتم استخدام أفضل ميزة من المجموعة الفرعية لتقسيم العقدة:
    • بالنسبة لمهام التصنيف ، يتم تصنيف معايير مثل Gini Opturity (وهو مقياس لعدد المرات التي سيتم فيها تصنيف عنصر تم اختياره عشوائيًا بشكل غير صحيح إذا تم وضع علامات عليه بشكل عشوائي وفقًا لتوزيع ملصقات الفئة في العقدة) كيف يفصل الانقسام بشكل جيد.
    • بالنسبة لمهام الانحدار ، فإن تقنيات مثل تقليل التباين (طريقة تقيس مقدار تقسيم العقدة يقلل من تباين القيم المستهدفة ، مما يؤدي إلى تنبؤات أكثر دقة) بتقييم مدى تقسيم خطأ التنبؤ.
  • تنمو الشجرة بشكل متكرر حتى تلبي ظروف التوقف ، مثل الحد الأقصى للعمق أو الحد الأدنى لعدد نقاط البيانات لكل عقدة.

4. تقييم الأداء

عند إنشاء كل شجرة ، يتم تقدير أداء النموذج باستخدام بيانات OOB:

  • يوفر تقدير خطأ OOB مقياسًا غير متحيز لأداء النموذج ، مما يلغي الحاجة إلى مجموعة بيانات التحقق من الصحة.
  • من خلال تجميع التنبؤات من جميع الأشجار ، تحقق الغابة العشوائية الدقة المحسنة وتقلل من الزائد مقارنة بأشجار القرار الفردية.

التطبيقات العملية للغابات العشوائية

مثل أشجار القرار التي يتم بناؤها عليها ، يمكن تطبيق الغابات العشوائية على مشاكل التصنيف والانحدار في مجموعة واسعة من القطاعات ، مثل الرعاية الصحية والتمويل.

تصنيف ظروف المريض

في الرعاية الصحية ، تُستخدم الغابات العشوائية لتصنيف ظروف المريض بناءً على معلومات مثل التاريخ الطبي ، والعلوم السكانية ، ونتائج الاختبار. على سبيل المثال ، للتنبؤ بما إذا كان من المحتمل أن يطور المريض حالة محددة مثل مرض السكري ، تصنف كل شجرة قرار المريض على أنه معرض للخطر أو لا يعتمد على البيانات ذات الصلة ، وتتخذ الغابة العشوائية القرار النهائي بناءً على تصويت الأغلبية. هذا النهج يعني أن الغابات العشوائية مناسبة بشكل خاص لمجموعات البيانات المعقدة الغنية بالميزات الموجودة في الرعاية الصحية.

التنبؤ بقروض الافتراضات

تستخدم البنوك والمؤسسات المالية الكبرى غابات عشوائية على نطاق واسع لتحديد أهلية القرض وفهم المخاطر بشكل أفضل. يستخدم النموذج عوامل مثل الدخل ودرجة الائتمان لتحديد المخاطر. نظرًا لأن المخاطر تقاس كقيمة عددية مستمرة ، فإن الغابة العشوائية تؤدي الانحدار بدلاً من التصنيف. كل شجرة قرار ، مدربة على عينات bootstrap مختلفة قليلاً ، تخرج درجة المخاطر المتوقعة. بعد ذلك ، فإن الغابات العشوائية تتوسط جميع التنبؤات الفردية ، مما يؤدي إلى تقدير قوي ومخاطر شمولية.

التنبؤ بفقدان العملاء

في التسويق ، غالبًا ما يتم استخدام الغابات العشوائية للتنبؤ باحتمال توقف العميل عن استخدام منتج أو خدمة. يتضمن ذلك تحليل أنماط سلوك العملاء ، مثل تواتر الشراء والتفاعلات مع خدمة العملاء. من خلال تحديد هذه الأنماط ، يمكن للغابات العشوائية تصنيف العملاء المعرضين لخطر المغادرة. مع هذه الأفكار ، يمكن للشركات اتخاذ خطوات استباقية تعتمد على البيانات للاحتفاظ بالعملاء ، مثل تقديم برامج الولاء أو العروض الترويجية المستهدفة.

توقع أسعار العقارات

يمكن استخدام الغابات العشوائية للتنبؤ بأسعار العقارات ، وهي مهمة الانحدار. لجعل التنبؤ ، تستخدم الغابة العشوائية البيانات التاريخية التي تتضمن عوامل مثل الموقع الجغرافي ، واللقطات المربعة ، والمبيعات الحديثة في المنطقة. تؤدي عملية متوسط ​​الغابة العشوائية إلى تنبؤ أسعار أكثر موثوقية وثباتًا من شجرة القرار الفردية ، وهو أمر مفيد في الأسواق العقارية المتقلبة للغاية.

مزايا الغابات العشوائية

توفر الغابات العشوائية العديد من المزايا ، بما في ذلك الدقة والمتانة والتعدد الاستخدامات والقدرة على تقدير أهمية الميزة.

الدقة والمتانة

الغابات العشوائية أكثر دقة وقوة من أشجار القرار الفردية. يتم تحقيق ذلك من خلال الجمع بين مخرجات أشجار القرار المتعددة المدربة على عينات مختلفة من bootstrap من مجموعة البيانات الأصلية. التنوع الناتج يعني أن الغابات العشوائية أقل عرضة للتنقل من أشجار القرار الفردية. يعني نهج الفرقة هذا أن الغابات العشوائية جيدة في التعامل مع البيانات الصاخبة ، حتى في مجموعات البيانات المعقدة.

التنوع

مثل أشجار القرار التي تم بناؤها عليها ، فإن الغابات العشوائية متعددة الاستخدامات. يمكنهم التعامل مع كل من مهام الانحدار والتصنيف ، مما يجعلها قابلة للتطبيق على مجموعة واسعة من المشكلات. تعمل الغابات العشوائية أيضًا بشكل جيد مع مجموعات بيانات كبيرة غنية بالميزات ويمكنها التعامل مع كل من البيانات العددية والفئوية.

ميزة أهمية

الغابات العشوائية لديها قدرة مدمجة على تقدير أهمية ميزات معينة. كجزء من عملية التدريب ، تخرج الغابات العشوائية درجة تقيس مقدار ما تتغير دقة النموذج إذا تمت إزالة ميزة معينة. من خلال متوسط ​​الدرجات لكل ميزة ، يمكن أن توفر الغابات العشوائية مقياسًا قابلاً للقياس الكمي لأهمية الميزة. يمكن بعد ذلك إزالة الميزات الأقل أهمية لإنشاء أشجار وغابات أكثر كفاءة.

عيوب الغابات العشوائية

على الرغم من أن الغابات العشوائية تقدم العديد من الفوائد ، إلا أنها يصعب تفسيرها وأكثر تكلفة للتدريب من شجرة القرار الواحدة ، وقد تنتج التنبؤات ببطء أكثر من النماذج الأخرى.

تعقيد

في حين أن الغابات العشوائية وأشجار القرار لديها الكثير من العوامل المشتركة ، إلا أن الغابات العشوائية يصعب تفسيرها وتصورها. ينشأ هذا التعقيد لأن الغابات العشوائية تستخدم مئات أو الآلاف من أشجار القرار. تعد طبيعة "الصندوق الأسود" للغابات العشوائية عيبًا خطيرًا عندما يكون توضيح النموذج متطلبًا.

التكلفة الحسابية

يتطلب تدريب مئات أو الآلاف من أشجار القرار قوة وذاكرة معالجة أكثر بكثير من تدريب شجرة قرار واحدة. عندما تشارك مجموعات البيانات الكبيرة ، يمكن أن تكون التكلفة الحسابية أعلى. يمكن أن يؤدي هذا المتطلبات الكبيرة للموارد إلى ارتفاع تكلفة النقود وأوقات تدريب أطول. نتيجة لذلك ، قد لا تكون الغابات العشوائية عملية في سيناريوهات مثل الحوسبة الحافة ، حيث تكون طاقة الحساب والذاكرة نادرة. ومع ذلك ، يمكن موازاة الغابات العشوائية ، والتي يمكن أن تساعد في تقليل تكلفة الحساب.

وقت التنبؤ أبطأ

تتضمن عملية التنبؤ للغابة العشوائية اجتياز كل شجرة في الغابة وتجميع مخرجاتها ، والتي تكون أبطأ بطبيعتها من استخدام نموذج واحد. يمكن أن تؤدي هذه العملية إلى أوقات تنبؤ أبطأ من النماذج الأكثر بساطة مثل الانحدار اللوجستي أو الشبكات العصبية ، خاصة بالنسبة للغابات الكبيرة التي تحتوي على أشجار عميقة. بالنسبة لحالات الاستخدام التي يكون فيها الوقت من الجوهر ، مثل التجارة عالية التردد أو المركبات المستقلة ، يمكن أن يكون هذا التأخير باهظًا.