بناء نماذج ذكاء اصطناعي قوية مع التعبئة: التقنيات والفوائد والتطبيقات
نشرت: 2025-01-09التعبئة هي إحدى تقنيات التعلم الآلي المجمعة (ML) التي تعمل على تحسين اتساق النماذج التنبؤية. يصف هذا الدليل كيفية عمل التعبئة، ويناقش مزاياها وتحدياتها وتطبيقاتها، ويقارنها بالتقنيات ذات الصلة مثل التعزيز.
جدول المحتويات
- ما هو التعبئة؟
- التباين مقابل التحيز
- التعبئة مقابل التعزيز
- كيفية عمل التعبئة
- أنواع خوارزمية التعبئة
- تطبيقات التعبئة
- مزايا التعبئة
- التحديات والقيود المفروضة على التعبئة
ما هو التعبئة؟
التعبئة (أو بشكل أكثر رسمية، bootstrapaggregating) هي تقنية تعلم جماعية تعمل على تحسين دقة الإخراج باستخدام نماذج ML متعددة مماثلة. يجمع التعلم الجماعي في جوهره بين عدة نماذج لتحقيق أداء أفضل من أي نموذج فردي.
يتضمن النهج تقسيم بيانات التدريب إلى مجموعات فرعية عشوائية وتدريب نموذج مختلف على كل منها. بالنسبة للمدخلات الجديدة، يتم تجميع التنبؤات من جميع النماذج لإنتاج مخرجات نهائية. ومن خلال استخدام مجموعات فرعية عشوائية، تقلل هذه التقنية من التناقضات بين النماذج، مما يؤدي إلى تنبؤات أكثر اتساقًا.
تعتبر عملية التعبئة فعالة بشكل خاص في تحسين الاتساق عن طريق تقليل التباين في نظام تعلم الآلة.
التباين مقابل التحيز
يعد تقليل التحيز والتباين من الأهداف الأساسية لأي نموذج أو نظام تعلم الآلة.
يصف التحيز الأخطاء التي يرتكبها نظام تعلم الآلة بسبب افتراضاته حول البيانات التي يراها. يتم تحديده عادةً عن طريق حساب مدى خطأ النموذج في المتوسط. يقيس التباين اتساق النموذج. يتم تقديره عن طريق التحقق من مدى اختلاف مخرجات النموذج عن المدخلات المماثلة.
انحياز عالي
على سبيل المثال، دعونا نفكر في مشكلة التنبؤ بسعر بيع المنزل من خلال ميزاته (مثل القدم المربع وعدد غرف النوم). قد يقوم النموذج البسيط بالكثير من الافتراضات المبسطة وينظر فقط إلى اللقطات المربعة، مما يؤدي إلى انحيازه بدرجة عالية. سوف يخطئ دائمًا، حتى في بيانات التدريب، لأن الواقع أكثر تعقيدًا من افتراضاته. لذا فهي غير قادرة على التقاط تنبؤات الأسعار الحقيقية (مثل الموقع وجودة المدرسة وعدد غرف النوم).
التباين العالي
قد يلتقط النموذج الأكثر تعقيدًاكلاتجاه في بيانات التدريب ويكون به تباين كبير. على سبيل المثال، قد يجد هذا النموذج ارتباطًا صغيرًا بين رقم المنزل (أساسًا الجزء الرقمي من عنوان الشارع) والسعر في بيانات التدريب ويستخدمه، على الرغم من أنه ليس مؤشرًا فعليًا. سيكون أداءه جيدًا فيما يتعلق ببيانات التدريب ولكن بشكل سيئ فيما يتعلق ببيانات العالم الحقيقي.
مقايضة التباين والتحيز
سيكون للنموذج المثالي انحياز منخفض وتباين منخفض، مما يؤدي إلى توليد المخرجات الصحيحة باستمرار عبر مدخلات مماثلة. عادةً ما ينتج التحيز العالي عن كون النموذج بسيطًا جدًا بحيث لا يمكنه التقاط الأنماط الموجودة في بيانات التدريب، وهو ما يعني أنه غير مناسب. عادةً ما ينتج التباين العالي عن النموذج الذي يلتقط أنماطًا زائفة في بيانات التدريب - التجاوز.
إن زيادة تعقيد النموذج يمكن أن يسمح له بالتقاط المزيد من الأنماط، مما يؤدي إلى تقليل التحيز. ومع ذلك، فإن هذا النموذج الأكثر تطوراً سوف يميل إلى الإفراط في استيعاب بيانات التدريب، مما يؤدي إلى تباين أعلى، والعكس صحيح. ومن الناحية العملية، من الصعب تحقيق مقايضة متوازنة بين التحيز والتباين.
يركز التعبئة على تقليل التباين. قد يكون لكل نموذج في المجموعة تباين كبير لأنه يفوق مجموعة البيانات الخاصة به. ولكن بما أن كل نموذج يحصل على مجموعة بيانات عشوائية، فسوف يكتشفون أنماطًا زائفة مختلفة. في مثال سعر المنزل، قد يبالغ أحد النماذج في تقدير قيمة المنازل ذات الأرقام الزوجية، وقد يقلل نموذج آخر من قيمتها، وقد يتجاهل معظم النماذج أرقام المنازل تمامًا.
تميل هذه الأنماط العشوائية إلى الوصول إلى متوسط عندما نحسب متوسط توقعاتها، مما يترك لنا العلاقات الأساسية الحقيقية. وبالتالي تحقق المجموعة تباينًا أقل وتقليل التجهيز الزائد مقارنة بأي نموذج فردي.
التعبئة مقابل التعزيز
قد تسمع الحديث عن التعبئة في نفس سياق التعزيز. هذه هي تقنيات التعلم الجماعي الأكثر شيوعًا وتدعم العديد من نماذج التعلم الآلي الشائعة. التعزيز هو أسلوب يتم فيه تدريب النماذج على أخطاء النماذج السابقة. ثم يتم استخدام هذه المجموعة من النماذج للرد على أي مدخلات. دعونا نناقش الاختلافات بين التقنيتين بشكل أكبر.
التعبئة | التعزيز | |
التدريب النموذجي | يتم تدريب النماذج بالتوازي على مجموعات فرعية مختلفة من البيانات | يتم تدريب النماذج بشكل تسلسلي، حيث يركز كل نموذج على أخطاء النموذج السابق |
التركيز على تقليل الأخطاء | يقلل من التباين | يقلل من التحيز |
الخوارزميات المشتركة | غابة عشوائية، وأشجار القرار المعبأة | AdaBoost، تعزيز التدرج، XGBoost |
خطر التجهيز الزائد | انخفاض خطر التجهيز الزائد بسبب أخذ العينات العشوائية | ارتفاع خطر التجهيز الزائد |
التعقيد الحسابي | أدنى | أعلى |
كلتا التقنيتين شائعتان، على الرغم من أن التعزيز أكثر شيوعًا. يمكن أن يؤدي التعزيز إلى تقليل كل من التحيزوالتباين، في حين أن التعبئة عادة ما تؤثر فقط على التباين.
كيفية عمل التعبئة
دعونا نفكر في كيفية عمل التعبئة فعليًا. جوهر الأمر هو تقسيم بيانات التدريب بشكل عشوائي، وتدريب النماذج بالتوازي على البيانات المقسمة، واستخدام جميع النماذج للرد على المدخلات. سنتعامل مع كل واحد على حدة.
تقسيم البيانات
افترض أن لدينا مجموعة بيانات تدريبية تحتوي على نقاط بياناتnونريد إنشاء مجموعة من نماذجm. بعد ذلك، نحتاج إلى إنشاء مجموعات بياناتm(واحدة لكل نموذج)، تحتوي كل منها علىnنقطة. إذا كان هناك أكثر أو أقل منnنقطة في كل مجموعة بيانات، فسيتم تدريب بعض النماذج بشكل زائد أو ناقص.
لإنشاء مجموعة بيانات عشوائية جديدة واحدة، نختار بشكل عشوائيnنقطة من مجموعة بيانات التدريب الأصلية. والأهم من ذلك أننا نعيد النقاط إلى مجموعة البيانات الأصلية بعد كل تحديد. ونتيجة لذلك، ستحتوي مجموعة البيانات العشوائية الجديدة على أكثر من نسخة واحدة من بعض نقاط البيانات الأصلية بينما لا تحتوي على نسخ أخرى. في المتوسط، ستتكون مجموعة البيانات هذه من 63% من نقاط البيانات الفريدة و37% من نقاط البيانات المكررة.
ثم نكرر هذه العملية لإنشاء جميع مجموعات البياناتم. يساعد التباين في تمثيل نقاط البيانات على خلق التنوع بين نماذج المجموعة، وهو أحد المفاتيح لتقليل التباين بشكل عام.
التدريب النموذجي
باستخدام مجموعات البيانات العشوائيةm، نقوم ببساطة بتدريب نماذجm، نموذج واحد لكل مجموعة بيانات. يجب علينا استخدام نفس النوع من النماذج طوال الوقت لضمان تحيزات مماثلة. يمكننا تدريب النماذج بالتوازي، مما يسمح بتكرارها بشكل أسرع بكثير.
نماذج التجميع
والآن بعد أن أصبحلدينانماذج مدربة، يمكننا استخدامها كمجموعة للرد على أي مدخلات. يتم تغذية كل نقطة بيانات مدخلة بالتوازي مع كل نموذج، ويستجيب كل نموذج بمخرجاته. ثم نقوم بتجميع مخرجات النماذج للوصول إلى الإجابة النهائية. إذا كانت مشكلة تصنيف، فإننا نأخذ وضع المخرجات (المخرجات الأكثر شيوعا). إذا كانت مشكلة الانحدار، فإننا نأخذ متوسط النواتج.
المفتاح لتقليل التباين هنا هو أن كل نموذج يكون أفضل في بعض أنواع المدخلات وأسوأ في أنواع أخرى بسبب الاختلافات في بيانات التدريب. ومع ذلك، بشكل عام، يجب إلغاء أخطاء أي نموذج من النماذج الأخرى، مما يؤدي إلى انخفاض التباين.
أنواع خوارزميات التعبئة
يمكن تطبيق التعبئة كخوارزمية على أي نوع من النماذج. من الناحية العملية، هناك نموذجان شائعان جدًا: الغابات العشوائية وأشجار القرار المعبأة. دعونا نستكشف كليهما بإيجاز.
غابات عشوائية
الغابة العشوائية عبارة عن مجموعة من أشجار القرار، تم تدريب كل منها على مجموعات بيانات عشوائية. شجرة القرار هي نموذج يقوم بالتنبؤات من خلال الإجابة على أسئلة نعم/لا حول البيانات المدخلة حتى يتم العثور على التسمية المناسبة.
في الغابة العشوائية، تحتوي كل شجرة قرار على نفس المعلمات الفائقة - تكوينات محددة مسبقًا مثل الحد الأقصى لعمق الشجرة أو الحد الأدنى من العينات لكل تقسيم - ولكنها تستخدم ميزات مختلفة (يتم اختيارها عشوائيًا) من مجموعة بيانات التدريب. بدون التوزيع العشوائي للميزات، قد تتقارب كل شجرة قرار مع إجابات مماثلة على الرغم من الاختلافات في بيانات التدريب. تعد الغابات العشوائية خيارًا شائعًا للغاية لتعلم الآلة وغالبًا ما تكون نقطة بداية جيدة لحل مهام تعلم الآلة.
أشجار القرار المعبأة
تشبه أشجار القرار المعبأة إلى حد كبير الغابات العشوائية باستثناء أن كل شجرة تستخدم نفس الميزات من مجموعة بيانات التدريب. وهذا يقلل من تنوع النواتج من الأشجار، وهو ما له إيجابيات وسلبيات. على الجانب الإيجابي، فإن الأشجار أكثر استقرارًا ومن المرجح أن تعطي إجابات مماثلة؛ يمكن استخدام هذا لتحديد الميزات المهمة. الجانب السلبي هو أن التباين لن ينخفض بنفس القدر. لهذا السبب، يتم استخدام الغابات العشوائية أكثر بكثير من أشجار القرار المعبأة.
تطبيقات التعبئة
يمكن استخدام التعبئة في أي مشكلة تعلم الآلة حيث يكون التباين أعلى من المطلوب. طالما أن هناك نموذج ML، يمكن تعبئته في أكياس. ولجعل هذا الأمر أكثر واقعية، سنراجع بعض الأمثلة.
التصنيف والانحدار
يعد التصنيف والانحدار من المشاكل الأساسية في تعلم الآلة. قد يرغب المستخدم في تصنيف موضوع الصورة على أنه قطة أو كلب. أو قد يرغب المستخدم في التنبؤ بسعر بيع المنزل من خلال ميزاته - الانحدار. يمكن أن يساعد التعبئة في تقليل التباين لكلاهما، كما رأينا.
في التصنيف، يتم استخدام وضع نماذج المجموعة. في الانحدار، يتم استخدام المتوسط.
اختيار الميزة
يتمحور اختيار الميزة حول العثور على أهم الميزات في مجموعة البيانات - تلك التي تتنبأ بالمخرجات الصحيحة بشكل أفضل. من خلال إزالة بيانات الميزات غير ذات الصلة، يمكن لمطور النموذج تقليل احتمالية التجهيز الزائد.
إن معرفة أهم الميزات يمكن أن يجعل النماذج أكثر قابلية للتفسير. بالإضافة إلى ذلك، يمكن لمطوري النماذج استخدام هذه المعرفة لتقليل عدد الميزات في بيانات التدريب، مما يؤدي إلى تدريب أسرع. تعمل أشجار القرار المعبأة بشكل جيد للكشف عن الميزات المهمة. من المحتمل أن تكون الميزات ذات الوزن الثقيل بداخلها هي الميزات المهمة.
التعبئة في التجارة الإلكترونية
يعد التعبئة في التجارة الإلكترونية ذا قيمة خاصة للتنبؤ بحركة العملاء. غالبًا ما تتسم نماذج تعلم الآلة المدربة على البيانات المختلة بتباين كبير بسبب أنماط سلوك العملاء المعقدة والصاخبة؛ قد يفرطون في مجموعة بيانات التدريب الخاصة بهم. وقد يستنتجون أيضًا علاقات زائفة، مثل افتراض أن عدد حروف العلة في اسم العميل يؤثر على احتمالية تقلبه.
قد تحتوي مجموعة بيانات التدريب على أمثلة قليلة فقط تؤدي إلى هذا التجاوز. وباستخدام النماذج المعبأة، يمكن للمجموعة أن تحدد بشكل أفضل مؤشرات الاختلال الحقيقية مع تجاهل الارتباطات الزائفة، مما يؤدي إلى تنبؤات أكثر موثوقية للاختلال.
مزايا التعبئة
تعمل عملية التعبئة على تقليل تباين النموذج والتركيب الزائد ويمكن أن تساعد في حل مشكلات البيانات. إنها أيضًا إحدى تقنيات التعبئة الأكثر كفاءة وقابلية للتوازي.
انخفاض التباين
يشير تباين النموذج إلى أن النموذج لا يتعلم الأنماط الحقيقية ذات المعنى في البيانات. وبدلاً من ذلك، فهو يلتقط ارتباطات عشوائية لا تعني الكثير وهي أحد أعراض بيانات التدريب غير الكاملة.
التعبئة تقلل من تباين النماذج؛ تركز المجموعة ككل على العلاقات ذات المغزى بين المدخلات والمخرجات.
تعميم جيد للبيانات الجديدة
نظرًا لأن النماذج المعبأة من المرجح أن تلتقط علاقات ذات معنى، فيمكنها تعميم البيانات الجديدة أو غير المرئية. إن التعميم الجيد هو الهدف النهائي للتعلم الآلي، لذا فإن التعبئة غالبًا ما تكون تقنية مفيدة للعديد من النماذج.
في كل مشكلة تعلم الآلة تقريبًا، لا تمثل مجموعة بيانات التدريب البيانات الفعلية بشكل كامل، لذا فإن التعميم الجيد هو المفتاح. وفي حالات أخرى، قد يتغير التوزيع الحقيقي للبيانات بمرور الوقت، لذلك من الضروري وجود نموذج قابل للتكيف. التعبئة تساعد في كلتا الحالتين.
قابلة للتوازي بدرجة كبيرة
وعلى النقيض من التعزيز، فإن إنشاء النماذج المعبأة أمر قابل للتوازي إلى حد كبير. يمكن تدريب كل نموذج بشكل مستقل وفي وقت واحد، مما يسمح بالتجريب السريع وضبط المعلمات الفائقة بشكل أسهل (شريطة، بالطبع، أن يكون لديك موارد حسابية كافية للتدريب بالتوازي).
بالإضافة إلى ذلك، نظرًا لأن كل نموذج مستقل عن النماذج الأخرى، فيمكن تبديله للداخل أو للخارج. على سبيل المثال، يمكن إعادة تدريب نموذج ضعيف على مجموعة فرعية عشوائية مختلفة لتحسين أدائه دون المساس بالنماذج الأخرى.
التحديات والقيود المفروضة على التعبئة
ولسوء الحظ، فإن إضافة المزيد من النماذج يضيف المزيد من التعقيد. تعني تحديات التعقيد الإضافي أن النماذج المعبأة تتطلب الكثير من موارد الحوسبة، ويصعب تفسيرها وفهمها، وتتطلب المزيد من ضبط المعلمات الفائقة.
هناك حاجة إلى المزيد من الموارد الحسابية
تتطلب المزيد من النماذج المزيد من الموارد لتشغيلها، وغالبًا ما تحتوي المجموعات المعبأة في أكياس على أكثر من 50 نموذجًا. قد يعمل هذا بشكل جيد مع النماذج الأصغر حجمًا، ولكن مع النماذج الأكبر حجمًا، قد يصبح الأمر مستعصيًا على الحل.
يمكن أيضًا أن تتأثر أوقات الاستجابة للمجموعة أثناء نموها. للموارد أيضًا تكلفة الفرصة البديلة: فقد يكون من الأفضل استخدامها لتدريب نموذج أكبر وأفضل.
أصعب في التفسير
من الصعب تفسير نماذج تعلم الآلة ككل. تعد أشجار القرارات الفردية أسهل قليلاً لأنها توضح الميزة التي تستند إليها القرارات. ولكن عندما تقوم بتجميع مجموعة منها معًا، كما هو الحال في غابة عشوائية، فإن الإجابات المتضاربة من كل شجرة يمكن أن تكون مربكة.
إن أخذ وضع أو متوسط التنبؤات لا يفسر في حد ذاته سبب كون هذا التنبؤ صحيحًا. من الصعب أن نفهم حكمة الجمهور، رغم أنها على حق في كثير من الأحيان.
المزيد من ضبط المعلمة الفائقة
مع المزيد من النماذج، يتم تضخيم تأثيرات المعلمات الفائقة. يمكن لخطأ بسيط واحد في المعلمات الفائقة أن يؤثر الآن على عشرات أو مئات النماذج. يتطلب ضبط نفس مجموعة المعلمات الفائقة مزيدًا من الوقت، مما قد يضع عبئًا أكبر على الموارد المحدودة.