التعلم المعزز: ما هو وكيف يعمل
نشرت: 2024-07-17في عالم الذكاء الاصطناعي المذهل، يبرز التعلم المعزز باعتباره تقنية قوية تمكن الآلات من تعلم السلوكيات المثلى من خلال التجربة والخطأ، تمامًا مثل الطريقة التي يكتسب بها البشر والحيوانات المهارات في العالم الحقيقي.
جدول المحتويات
- ما هو التعلم المعزز؟
- RL مقابل التعلم الخاضع للإشراف وغير الخاضع للإشراف
- كيف يعمل التعلم المعزز
- أنواع التعلم المعزز
- تطبيقات التعلم المعزز
- مزايا التعلم المعزز
- عيوب التعلم المعزز
ما هو التعلم المعزز (RL)؟
التعلم المعزز (RL) هو نوع من التعلم الآلي (ML) حيث يتعلم الوكيل اتخاذ القرارات من خلال التفاعل مع بيئته. في هذا السياق، الوكيل هو برنامج يتخذ قرارات بشأن الإجراءات التي يجب اتخاذها، ويتلقى ردود فعل في شكل مكافآت أو عقوبات، ويعدل سلوكه لتحقيق أقصى قدر من المكافآت التراكمية.
التعلم الآلي هو مجموعة فرعية من الذكاء الاصطناعي (AI) الذي يستخدم البيانات والأساليب الإحصائية لبناء برامج تحاكي المنطق البشري بدلاً من الاعتماد على تعليمات مشفرة. RL مستوحى بشكل مباشر من كيفية استخدام الأشخاص للتجربة والخطأ لتحسين قراراتهم.
التعزيز مقابل التعلم الخاضع للإشراف وغير الخاضع للإشراف
في التعلم تحت الإشراف ، يتم تدريب النماذج باستخدام البيانات المصنفة، حيث يتم توفير المخرجات الصحيحة لكل إدخال.يساعد هذا التوجيه النموذج على إجراء تنبؤات دقيقة عندما يواجه بيانات جديدة غير مرئية. يعد التعلم الخاضع للإشراف مفيدًا لمهام مثل اكتشاف البريد العشوائي وتصنيف الصور والتنبؤ بالطقس.
ومن ناحية أخرى، يعملالتعلم غير الخاضع للرقابة مع البيانات غير المسماة للعثور على الأنماط والتجمعات.يمكنه تجميع نقاط بيانات متشابهة، والعثور على الارتباطات بين العناصر، وتقليل تعقيد البيانات لتسهيل المعالجة. تشمل الأمثلة تقسيم العملاء وأنظمة التوصية والكشف عن الحالات الشاذة.
التعلم المعزز يختلف عن كليهما.في RL، يتعلم الوكيل من خلال التفاعل مع بيئته وتلقي ردود فعل إيجابية أو سلبية. تمكن حلقة التغذية الراجعة هذه الوكيل من تعديل تصرفاته لتحقيق أفضل النتائج الممكنة. يُعد تعلم التعلم مفيدًا بشكل خاص للمهام التي يحتاج فيها الوكيل إلى تعلم سلسلة من القرارات، كما هو الحال في اللعب والروبوتات والقيادة الذاتية.
كيف يعمل التعلم المعزز
يعد فهم مبادئ RL أمرًا بالغ الأهمية لفهم كيفية تعلم العملاء الأذكياء واتخاذهم للقرارات. أدناه، سوف نستكشف المفاهيم الأساسية وعملية RL بالتفصيل.
المفاهيم الأساسية في RL
يحتوي RL على مفردات مميزة لا تنطبق على الأنواع الأخرى من ML. المفاهيم الأساسية التي يجب فهمها هي:
1 الوكيل والبيئة: الوكيل هو برنامج الكمبيوتر الذي يتخذ القرار، بينما تشمل البيئة كل ما يتفاعل معه الوكيل.ويشمل ذلك جميع الحالات والإجراءات الممكنة، بما في ذلك القرارات السابقة التي اتخذها الوكيل. التفاعل بين الوكيل والبيئة هو جوهر عملية التعلم.
2 الحالة والفعل: تمثل الحالة الوضع الحالي للفاعل في أي لحظة معينة، والفعل هو قرار يمكن للفاعل اتخاذه استجابة لحالته.يهدف الوكيل إلى اختيار الإجراءات التي ستؤدي إلى الحالات الأكثر ملاءمة.
3 المكافأة والعقاب: بعد اتخاذ الإجراء، يتلقى الوكيل ردود فعل من البيئة: إذا كانت إيجابية تسمى مكافأة، إذا كانت سلبية، عقاب.تساعد هذه التعليقات الوكيل على معرفة الإجراءات المفيدة والتي يجب تجنبها، وتوجيه قراراته المستقبلية.
4 السياسة: السياسة هي استراتيجية الوكيل لتحديد الإجراء الذي يجب اتخاذه في كل ولاية.فهو يعين الحالات إلى الإجراءات، ويعمل كدليل للوكيل لتحقيق أفضل النتائج بناءً على التجارب السابقة.
5 دالة القيمة: تقوم دالة القيمة بتقدير الفائدة طويلة المدى من التواجد في حالة معينة أو اتخاذ إجراء معين.فهو يساعد الوكيل على فهم المكافآت المستقبلية المحتملة، حتى لو كان ذلك يعني تحمل مكافأة سلبية قصيرة الأجل لتحقيق أقصى قدر من المكاسب على المدى الطويل. تعد وظيفة القيمة ضرورية لاتخاذ القرارات التي تعمل على تحسين المكافآت التراكمية بمرور الوقت.
عملية ر.ل
في حين أن الغرض وطريقة التعلم يختلفان تمامًا عن الأنواع الأخرى من تعلم الآلة، إلا أن العملية متشابهة من حيث إعداد البيانات واختيار المعلمات والتقييم والتكرار.
فيما يلي نظرة عامة مختصرة على عملية RL:
1 تعريف المشكلة وتحديد الأهداف.حدد المشكلة بوضوح وحدد أهداف الوكيل وغاياته، بما في ذلك هيكل المكافأة. سيساعدك هذا في تحديد البيانات التي تحتاجها والخوارزمية التي تريد تحديدها.
2 جمع البيانات والتهيئة.جمع البيانات الأولية وتحديد البيئة وإعداد المعلمات اللازمة لتجربة RL.
3 المعالجة المسبقة وهندسة الميزات.تنظيف البيانات: إجراء فحص فوري وإزالة التكرارات والتأكد من حصولك على تصنيفات الميزات المناسبة وتحديد كيفية التعامل مع القيم المفقودة. في العديد من الحالات، ستحتاج إلى إنشاء ميزات جديدة لتوضيح الجوانب المهمة للبيئة، مثل إنشاء نقطة بيانات تحديد موقع واحدة من عدة مدخلات لأجهزة الاستشعار.
4 اختيار الخوارزمية.استنادًا إلى المشكلة والبيئة، اختر خوارزمية RL المناسبة وقم بتكوين الإعدادات الأساسية، المعروفة باسم المعلمات الفائقة. على سبيل المثال، ستحتاج إلى إنشاء توازن بين الاستكشاف (تجربة مسارات جديدة) مقابل الاستغلال (اتباع المسارات المعروفة).
5 التدريب.قم بتدريب الوكيل من خلال السماح له بالتفاعل مع البيئة واتخاذ الإجراءات والحصول على المكافآت وتحديث سياسته. اضبط المعلمات الفائقة وكرر العملية. استمر في مراقبة وضبط المفاضلة بين الاستكشاف والاستغلال للتأكد من أن الوكيل يتعلم بشكل فعال.
6 التقييم.قم بتقييم أداء الوكيل باستخدام المقاييس، ومراقبة أدائه في السيناريوهات القابلة للتطبيق للتأكد من أنه يلبي الأهداف والغايات المحددة.
7 ضبط النموذج وتحسينه.قم بضبط المعلمات الفائقة وتحسين الخوارزمية وإعادة تدريب الوكيل لتحسين الأداء بشكل أكبر.
8 النشر والرصد.بمجرد أن تشعر بالرضا عن أداء الوكيل، قم بنشر الوكيل المدرب في بيئة العالم الحقيقي. مراقبة أدائه باستمرار وتنفيذ حلقة ردود الفعل للتعلم والتحسين المستمر.
9 الصيانة والتحديث.في حين أن التعلم المستمر مفيد جدًا، فقد تحتاج أحيانًا إلى إعادة التدريب من الظروف الأولية لتحقيق أقصى استفادة من البيانات والتقنيات الجديدة. قم بتحديث قاعدة معارف الوكيل بشكل دوري، وأعد تدريبها بالبيانات الجديدة، وتأكد من تكيفها مع التغيرات في البيئة أو الأهداف.
أنواع التعلم المعزز
يمكن تصنيف التعلم المعزز على نطاق واسع إلى ثلاثة أنواع: التعلم الخالي من النماذج، والقائم على النموذج، والهجين. كل نوع له حالات الاستخدام وطرقه المحددة.
التعلم المعزز الخالي من النماذج
مع RL الخالي من النماذج، يتعلم الوكيل مباشرة من التفاعلات مع البيئة. فهو لا يحاول فهم البيئة أو التنبؤ بها ولكنه يحاول ببساطة تعظيم أدائها في الموقف المقدم. مثال على RL بدون نموذج هو مكنسة Roomba الروبوتية: أثناء سيرها، تتعلم مكان العوائق وتصطدم بها بشكل أقل أثناء التنظيف أكثر.
أمثلة:
- الأساليب القائمة على القيمة.الأكثر شيوعًا هو Q-learning، حيث تمثل قيمة Q المكافآت المستقبلية المتوقعة لاتخاذ إجراء معين في حالة معينة. تعتبر هذه الطريقة مثالية للمواقف ذات الاختيارات المنفصلة، أي الخيارات المحدودة والمحددة، مثل طريقة الانعطاف عند التقاطع. يمكنك تعيين قيم Q يدويًا، أو استخدام قيمة صفر أو قيمة منخفضة لتجنب التحيز، أو ترتيب القيم بشكل عشوائي لتشجيع الاستكشاف، أو استخدام قيم عالية بشكل موحد لضمان الاستكشاف الأولي الشامل. مع كل تكرار، يقوم الوكيل بتحديث قيم Q هذه لتعكس استراتيجيات أفضل. يحظى التعلم القائم على القيمة بشعبية كبيرة لأنه سهل التنفيذ ويعمل بشكل جيد في مساحات العمل المنفصلة، على الرغم من أنه قد يواجه الكثير من المتغيرات.
- أساليب التدرج في السياسة: على عكس Q-learning، الذي يحاول تقدير قيمة الإجراءات في كل ولاية، تركز أساليب التدرج في السياسة بشكل مباشر على تحسين الإستراتيجية (أو السياسة) التي يستخدمها الوكيل لاختيار الإجراءات.بدلاً من تقدير القيم، تقوم هذه الأساليب بضبط السياسة لتعظيم المكافأة المتوقعة. تعد أساليب تدرج السياسة مفيدة في المواقف التي يمكن أن تكون فيها الإجراءات أي قيمة - باتباع القياس أعلاه، قد يكون ذلك بمثابة السير في أي اتجاه عبر الحقل - أو عندما يكون من الصعب تحديد قيمة الإجراءات المختلفة. ويمكنهم التعامل مع عمليات صنع القرار الأكثر تعقيدًا وسلسلة متواصلة من الاختيارات، لكنهم عادةً ما يحتاجون إلى المزيد من القوة الحاسوبية للعمل بفعالية.
التعلم المعزز القائم على النموذج
يتضمن التعلم القائم على النموذج إنشاء نموذج للبيئة لتخطيط الإجراءات والتنبؤ بالحالات المستقبلية. تلتقط هذه النماذج التفاعل بين الإجراءات وتغيرات الحالة من خلال التنبؤ بمدى احتمالية تأثير الإجراء على حالة البيئة والمكافآت أو العقوبات الناتجة. يمكن أن يكون هذا النهج أكثر كفاءة، حيث يمكن للوكيل محاكاة استراتيجيات مختلفة داخليًا قبل التصرف. تستخدم السيارة ذاتية القيادة هذا الأسلوب لفهم كيفية الاستجابة لميزات المرور والأشياء المختلفة. لن تكون تقنية Roomba الخالية من النماذج كافية لمثل هذه المهام المعقدة.
أمثلة:
- Dyna-Q: Dyna-Q عبارة عن خوارزمية تعلم معززة هجينة تجمع بين Q-learning والتخطيط.يقوم الوكيل بتحديث قيم Q الخاصة به بناءً على تفاعلات حقيقية مع البيئة وعلى تجارب محاكاة تم إنشاؤها بواسطة النموذج. يعد Dyna-Q مفيدًا بشكل خاص عندما تكون التفاعلات في العالم الحقيقي باهظة الثمن أو تستغرق وقتًا طويلاً.
- بحث شجرة مونت كارلو (MCTS): يحاكي MCTS العديد من الإجراءات والحالات المستقبلية المحتملة لبناء شجرة بحث لتمثيل القرارات التي تتبع كل اختيار.يستخدم الوكيل هذه الشجرة لاتخاذ القرار بشأن الإجراء الأفضل من خلال تقدير المكافآت المحتملة للمسارات المختلفة. تتفوق MCTS في سيناريوهات صنع القرار ذات البنية الواضحة، مثل ألعاب الطاولة مثل الشطرنج، ويمكنها التعامل مع التخطيط الاستراتيجي المعقد.
تعتبر الأساليب القائمة على النماذج مناسبة عندما يمكن تصميم البيئة بدقة وعندما تتمكن عمليات المحاكاة من توفير رؤى قيمة. وهي تتطلب عينات أقل مقارنة بالطرق الخالية من النماذج، ولكن يجب أن تكون تلك العينات دقيقة، مما يعني أنها قد تتطلب المزيد من الجهد الحسابي للتطوير.
التعلم المعزز الهجين
يجمع التعلم المعزز الهجين بين الأساليب للاستفادة من نقاط القوة الخاصة بكل منها. يمكن أن تساعد هذه التقنية في تحقيق التوازن بين المفاضلات بين كفاءة العينة والتعقيد الحسابي.
أمثلة:
- البحث عن السياسات الموجهة (GPS): يعد نظام تحديد المواقع العالمي (GPS) تقنية هجينة تتناوب بين التعلم الخاضع للإشراف والتعلم المعزز.يستخدم التعلم الخاضع للإشراف لتدريب سياسة تعتمد على البيانات التي تم إنشاؤها من وحدة تحكم قائمة على النموذج. يتم بعد ذلك تنقيح السياسة باستخدام التعلم المعزز للتعامل مع أجزاء من مساحة الدولة حيث يكون النموذج أقل دقة. ويساعد هذا النهج في نقل المعرفة من التخطيط القائم على النماذج إلى التعلم المباشر للسياسات.
- البنى المتكاملة: تدمج بعض البنى العديد من المكونات القائمة على النماذج والخالية من النماذج في إطار واحد، وتتكيف مع جوانب مختلفة من بيئة معقدة بدلاً من فرض نهج واحد على كل شيء.على سبيل المثال، قد يستخدم الوكيل نهجًا قائمًا على النموذج للتخطيط طويل المدى ونهجًا خاليًا من النماذج لاتخاذ القرارات على المدى القصير.
- النماذج العالمية: النماذج العالمية هي منهج يقوم فيه الوكيل ببناء تمثيل مدمج ومجرد للبيئة، والذي يستخدمه لمحاكاة الحالات المستقبلية.يستخدم الوكيل أسلوبًا خاليًا من النماذج لتعلم السياسات داخل بيئة المحاكاة الداخلية هذه. تقلل هذه التقنية من الحاجة إلى التفاعلات في العالم الحقيقي.
تطبيقات التعلم المعزز
لدى RL مجموعة واسعة من التطبيقات في مختلف المجالات:
- ممارسة الألعاب: حققت خوارزميات RL أداءً خارقًا في حالات مثل الشطرنج وألعاب الفيديو.ومن الأمثلة البارزة على ذلك AlphaGo، الذي يلعب لعبة اللوحة Go باستخدام مزيج من الشبكات العصبية العميقة وMonte Carlo Tree Search. تثبت هذه النجاحات قدرة RL على تطوير استراتيجيات معقدة والتكيف مع البيئات الديناميكية.
- الروبوتات: في علم الروبوتات، يساعد RL في تدريب الروبوتات على أداء مهام مثل الإمساك بالأشياء والتنقل بين العوائق.تسمح عملية التعلم بالتجربة والخطأ للروبوتات بالتكيف مع حالات عدم اليقين في العالم الحقيقي وتحسين أدائها بمرور الوقت، متجاوزة الأساليب غير المرنة القائمة على القواعد.
- الرعاية الصحية: من خلال الاستجابة للبيانات الخاصة بالمريض، يمكن لـ RL تحسين خطط العلاج وإدارة التجارب السريرية وتخصيص الدواء.يمكن أن يقترح RL أيضًا تدخلات تعمل على زيادة نتائج المرضى إلى أقصى حد من خلال التعلم المستمر من بيانات المريض.
- التمويل: يعتبر RL القائم على النموذج مناسبًا تمامًا للمعايير الواضحة والديناميكيات المعقدة لأجزاء مختلفة من المجال المالي، وخاصة تلك التي تتفاعل مع الأسواق الديناميكية للغاية.وتشمل استخداماته هنا إدارة المحافظ وتقييم المخاطر واستراتيجيات التداول التي تتكيف مع ظروف السوق الجديدة.
- المركبات ذاتية القيادة: تستخدم السيارات ذاتية القيادة نماذج مدربة على RL للاستجابة للعقبات وظروف الطريق وأنماط حركة المرور الديناميكية.ويقومون على الفور بتطبيق هذه النماذج للتكيف مع ظروف القيادة الحالية مع إعادة البيانات أيضًا إلى عملية تدريب مستمرة مركزية. تساعد ردود الفعل المستمرة من البيئة هذه المركبات على تحسين سلامتها وكفاءتها بمرور الوقت.
مزايا التعلم المعزز
- التعلم التكيفي: يتعلم وكلاء RL باستمرار من تفاعلاتهم مع البيئة ويتكيفون معها.التعلم السريع يجعل RL مناسبًا بشكل خاص للإعدادات الديناميكية وغير المتوقعة.
- تعدد الاستخدامات: يعمل نظام RL على مجموعة واسعة من المشكلات التي تتضمن سلسلة من القرارات حيث يؤثر أحدها على بيئة الآخر، بدءًا من ممارسة الألعاب وحتى الروبوتات وحتى الرعاية الصحية.
- اتخاذ القرار الأمثل: تركز RL على تعظيم المكافآت طويلة المدى، مما يضمن قيام وكلاء RL بتطوير استراتيجيات مُحسّنة لتحقيق أفضل النتائج الممكنة بمرور الوقت بدلاً من مجرد القرار التالي.
- أتمتة المهام المعقدة: يمكن لـ RL أتمتة المهام التي يصعب تشفيرها، مثل التخصيص الديناميكي للموارد، وأنظمة التحكم المعقدة مثل إدارة شبكة الكهرباء، والتوصيات المخصصة بدقة.
عيوب التعلم المعزز
- البيانات والمتطلبات الحسابية: غالبًا ما يتطلب RL كميات كبيرة من البيانات وقوة المعالجة، وكلاهما يمكن أن يكون مكلفًا للغاية.
- وقت تدريب طويل: قد يستغرق تدريب وكلاء RL أسابيع أو حتى أشهر عندما تتضمن العملية التفاعل مع العالم الحقيقي وليس مجرد نموذج.
- التعقيد: يتضمن تصميم وضبط أنظمة RL دراسة متأنية لهيكل المكافآت، وتمثيل السياسات، وتوازن الاستكشاف والاستغلال.يجب اتخاذ هذه القرارات بشكل مدروس لتجنب استغراق الكثير من الوقت أو الموارد.
- السلامة والموثوقية: بالنسبة للتطبيقات المهمة مثل الرعاية الصحية والقيادة الذاتية، يمكن أن يكون للسلوك غير المتوقع والقرارات دون المستوى الأمثل عواقب وخيمة.
- قابلية تفسير منخفضة: في بعض عمليات RL، خاصة في البيئات المعقدة، من الصعب أو من المستحيل معرفة بالضبط كيف توصل الوكيل إلى قراراته.
- عدم كفاءة العينة: تتطلب العديد من خوارزميات RL عددًا كبيرًا من التفاعلات مع البيئة لتعلم السياسات الفعالة.وهذا يمكن أن يحد من فائدتها في السيناريوهات التي تكون فيها التفاعلات في العالم الحقيقي مكلفة أو محدودة.