درجة F1 في التعلم الآلي: كيفية حساب وتطبيقها واستخدامها بشكل فعال
نشرت: 2025-02-10تعد درجة F1 مقياسًا قويًا لتقييم نماذج التعلم الآلي (ML) المصممة لأداء تصنيف ثنائي أو متعدد الطوائف. ستشرح هذه المقالة ما هي درجة F1 ، ولماذا هو مهم ، وكيف يتم حسابها ، وتطبيقاتها وفوائدها وقيودها.
جدول المحتويات
- ما هي درجة F1؟
- كيفية حساب درجة F1
- درجة F1 مقابل الدقة
- تطبيقات درجة F1
- فوائد درجة F1
- قيود درجة F1
ما هي درجة F1؟
يواجه ممارسو ML تحديًا مشتركًا عند بناء نماذج التصنيف: تدريب النموذج على التقاط جميع الحالات مع تجنب الإنذارات الخاطئة. هذا مهم بشكل خاص في التطبيقات الحرجة مثل الكشف عن الاحتيال المالي والتشخيص الطبي ، حيث يكون لأجهزة الإنذار الخاطئة والتصنيفات المهمة عواقب وخيمة. يعد تحقيق التوازن الصحيح مهمًا بشكل خاص عند التعامل مع مجموعات البيانات غير المتوازنة ، حيث تكون فئة مثل المعاملات الاحتيالية نادرة جدًا من الفئة الأخرى (المعاملات المشروعة).
الدقة والاستدعاء
لقياس جودة الأداء النموذجية ، تجمع درجة F1 بين مقايين مرتبطين:
- الدقة، التي تجيب ، "عندما يتنبأ النموذج بحالة إيجابية ، كم مرة يكون صحيحًا؟"
- أذكر، ما الذي يجيب ، "من بين جميع الحالات الإيجابية الفعلية ، كم عدد النموذج الذي حدده بشكل صحيح؟"
إن النموذج ذي الدقة العالية ولكن منخفضة الاستدعاء هو حذر للغاية ، ويفتقد العديد من الإيجابيات الحقيقية ، في حين أن أحدهم مع استدعاء عالي ولكن الدقة المنخفضة عدوانية للغاية ، مما يولد العديد من الإيجابيات الخاطئة. تحدد درجة F1 توازنًا من خلال أخذ الوسط التوافقي للدقة والاستدعاء ، مما يعطي وزنًا أكبر لقيم أقل ويضمن أداء النموذج بشكل جيد على كل من المقاييس بدلاً من التفوق في واحد فقط.
مثال على الدقة وتذكر
لفهم الدقة والاستدعاء بشكل أفضل ، فكر في نظام اكتشاف البريد العشوائي. إذا كان لدى النظام نسبة عالية من رسائل البريد الإلكتروني التي تم وضع علامة عليها بشكل صحيح كرسائل غير مرغوب فيها ، فهذا يعني أنه يتمتع بدقة عالية. على سبيل المثال ، إذا كانت مراسلات البريد الإلكتروني 100 رسائل بريد إلكتروني كرسائل بريد إلكتروني ، و 90 منها عبارة عن رسائل غير مرغوب فيها ، فإن الدقة 90 ٪. الاستدعاء العالي ، من ناحية أخرى ، يعني أن النظام يمسك معظم رسائل البريد الإلكتروني بالرسائل البريد العشوائية الفعلية. على سبيل المثال ، إذا كان هناك 200 رسائل بريد إلكتروني البريد العشوائي الفعلية ونظامنا يمسك 90 منها ، فإن الاستدعاء هو 45 ٪.
المتغيرات من درجة F1
في أنظمة التصنيف المتعددة أو سيناريوهات ذات احتياجات محددة ، يمكن حساب درجة F1 بطرق مختلفة ، اعتمادًا على العوامل المهمة:
- Macro-F1:يحسب درجة F1 بشكل منفصل لكل فئة ويأخذ المتوسط
- Micro-F1:يحسب الاستدعاء والدقة على جميع التنبؤات
- مرجح: على غرار Macro-F1 ، ولكن يتم وزن الفصول على أساس التردد
ما وراء درجة F1: عائلة F-Score
تعد درجة F1 جزءًا من عائلة أكبر من المقاييس تسمى F-Scores. توفر هذه الدرجات طرقًا مختلفة لوزن الدقة والاستدعاء:
- F2:يضع التركيز بشكل أكبر على الاستدعاء ، وهو أمر مفيد عندما تكون السلبيات الخاطئة مكلفة
- F0.5:يركز بشكل أكبر على الدقة ، وهو أمر مفيد عندما تكون الإيجابيات الخاطئة مكلفة
كيفية حساب درجة F1
يتم تعريف درجة F1 رياضيا على أنها الوسط التوافقي للدقة والاستدعاء. على الرغم من أن هذا قد يبدو معقدًا ، إلا أن عملية الحساب واضحة عند تقسيمها إلى خطوات واضحة.
صيغة درجة F1:
قبل الغوص في الخطوات لحساب F1 ، من المهم فهم المكونات الرئيسية لما يسمىمصفوفة الارتباك، والتي تستخدم لتنظيم نتائج التصنيف:
- الإيجابيات الحقيقية (TP):عدد الحالات التي تم تحديدها بشكل صحيح على أنها إيجابية
- إيجابيات كاذبة (FP):عدد الحالات التي تم تحديدها بشكل غير صحيح على أنها إيجابية
- السلبيات الخاطئة (FN):عدد الحالات المفقودة (الإيجابيات الفعلية التي لم يتم تحديدها)
تتضمن العملية العامة تدريب النموذج ، واختبار التنبؤات وتنظيم النتائج ، وحساب الدقة والاستدعاء ، وحساب درجة F1.
الخطوة 1: تدريب نموذج التصنيف
أولاً ، يجب تدريب النموذج على تصنيفات ثنائية أو متعددة. هذا يعني أن النموذج يجب أن يكون قادرًا على تصنيف الحالات على أنها تنتمي إلى واحدة من فئتين. ومن الأمثلة على ذلك "البريد العشوائي/ليس البريد العشوائي" و "الاحتيال/ليس الاحتيال".
الخطوة 2: اختبار التنبؤات وتنظيم النتائج
بعد ذلك ، استخدم النموذج لأداء التصنيفات على مجموعة بيانات منفصلة لم يتم استخدامها كجزء من التدريب. تنظيم النتائج في مصفوفة الارتباك. تظهر هذه المصفوفة:
- TP: كم عدد التنبؤات كانت صحيحة بالفعل
- FP: كم عدد التنبؤات الإيجابية كانت غير صحيحة
- FN: كم عدد الحالات الإيجابية التي فاتتها
توفر مصفوفة الارتباك نظرة عامة على كيفية أداء النموذج.
الخطوة 3: حساب الدقة
باستخدام مصفوفة الارتباك ، يتم حساب الدقة بهذه الصيغة:
على سبيل المثال ، إذا حدد نموذج الكشف عن البريد العشوائي بشكل صحيح 90 رسائل بريد إلكتروني عبر البريد العشوائي (TP) ولكن تم وضع علامة على 10 رسائل بريد إلكتروني غير صحيحة (FP) ، فإن الدقة هي 0.90.
الخطوة 4: حساب الاستدعاء
بعد ذلك ، احسب الاستدعاء باستخدام الصيغة:
باستخدام مثال اكتشاف البريد العشوائي ، إذا كان هناك 200 رسائل بريد إلكتروني من الرسائل غير المرغوب فيها ، واشتعلت النموذج 90 منها (TP) أثناء فقدان 110 (FN) ، فإن الاستدعاء هو 0.45.

الخطوة 5: حساب درجة F1
مع دقة وقيم الاسترجاع في متناول اليد ، يمكن حساب درجة F1.
تتراوح درجة F1 من 0 إلى 1. عند تفسير النتيجة ، فكر في هذه المعايير العامة:
- 0.9 أو أعلى:النموذج يعمل بشكل رائع ، ولكن يجب فحصه للتغلب على التورط.
- 0.7 إلى 0.9:أداء جيد لمعظم التطبيقات
- 0.5 إلى 0.7:الأداء على ما يرام ، ولكن يمكن أن يستخدم النموذج التحسين.
- 0.5 أو أقل:النموذج يؤدي بشكل سيئ ويحتاج إلى تحسن خطير.
باستخدام حسابات مثال الكشف عن البريد العشوائي للدقة والاستدعاء ، ستكون درجة F1 0.60 أو 60 ٪.
في هذه الحالة ، تشير درجة F1 إلى أنه حتى مع وجود دقة عالية ، فإن انخفاض الاستدعاء يؤثر على الأداء الكلي. هذا يشير إلى أن هناك مجالًا للتحسين في ركوب المزيد من رسائل البريد الإلكتروني العشوائية.
درجة F1 مقابل الدقة
في حين أن كل من F1والدقةيحددان أداء النموذج ، فإن درجة F1 توفر مقياسًا أكثر دقة. الدقة ببساطة تحسب النسبة المئوية للتنبؤات الصحيحة. ومع ذلك ، يمكن أن يكون الاعتماد على الدقة لقياس أداء النموذج مشكلة عندما يفوق عدد مثيلات فئة واحدة في مجموعة البيانات الفئة الأخرى بشكل كبير. يشار إلى هذه المشكلة باسمالمفارقة الدقة.
لفهم هذه المشكلة ، فكر في مثال نظام الكشف عن البريد العشوائي. لنفترض أن نظام البريد الإلكتروني يتلقى 1000 رسالة بريد إلكتروني كل يوم ، ولكن 10 منها فقط هي البريد العشوائي في الواقع. إذا كان اكتشاف البريد العشوائي يصنف ببساطة كل بريد إلكتروني على أنه غير مرغوب فيه ، فسيظل ذلك يحقق دقة 99 ٪. وذلك لأن 990 تنبؤات من أصل 1000 كانت صحيحة ، على الرغم من أن النموذج لا طائل منه بالفعل عندما يتعلق الأمر بالكشف عن البريد العشوائي. من الواضح أن الدقة لا تعطي صورة دقيقة لجودة النموذج.
تتجنب درجة F1 هذه المشكلة من خلال الجمع بين قياسات الدقة والاستدعاء. لذلك ، يجب استخدام F1 بدلاً من الدقة في الحالات التالية:
- مجموعة البيانات غير متوازنة.هذا أمر شائع في مجالات مثل تشخيص الحالات الطبية الغامضة أو اكتشاف البريد العشوائي ، حيث تكون فئة واحدة نادرة نسبيًا.
- FN و FP كلاهما مهمان.على سبيل المثال ، تسعى اختبارات الفحص الطبي إلى تحقيق التوازن بين المشكلات الفعلية مع عدم رفع إنذارات كاذبة.
- يحتاج النموذج إلى تحقيق توازن بين كونه عدوانيًا للغاية وحذرًا جدًا.على سبيل المثال ، في تصفية البريد العشوائي ، قد يسمح مرشح حذر للغاية من خلال الكثير من البريد العشوائي (استدعاء منخفض) ولكن نادراً ما يرتكب أخطاء (دقة عالية). من ناحية أخرى ، قد يحظر مرشح عدواني بشكل مفرط رسائل البريد الإلكتروني الحقيقية (الدقة المنخفضة) حتى لو كان يصطاد كل الرسائل غير المرغوب فيها (استدعاء مرتفع).
تطبيقات درجة F1
تحتوي درجة F1 على مجموعة واسعة من التطبيقات عبر مختلف الصناعات حيث يكون التصنيف المتوازن أمرًا بالغ الأهمية. وتشمل هذه التطبيقات اكتشاف الاحتيال المالي ، والتشخيص الطبي ، واعتدال المحتوى.
اكتشاف الاحتيال المالي
النماذج المصممة للكشف عن الاحتيال المالي هي فئة من الأنظمة مناسبة تمامًا للقياس باستخدام درجة F1. غالبًا ما تقوم الشركات المالية بمعالجة الملايين أو المليارات من المعاملات يوميًا ، حيث تكون الحالات الفعلية للاحتيال نادرة نسبيًا. لهذا السبب ، يحتاج نظام الكشف عن الاحتيال إلى التقاط أكبر عدد ممكن من المعاملات الاحتيالية مع تقليل عدد الإنذارات الخاطئة في وقت واحد وإزعاج العملاء. يمكن أن يساعد قياس درجة F1 المؤسسات المالية على تحديد مدى توازن أنظمتها مع الأعمدة المزدوجة للوقاية من الاحتيال وتجربة عملاء جيدة.
التشخيص الطبي
في التشخيص الطبي والاختبار ، يكون لكل من FN و FP عواقب وخيمة. النظر في مثال نموذج مصمم للكشف عن أشكال نادرة من السرطان. يمكن أن يؤدي تشخيص مريض صحي بشكل غير صحيح إلى الإجهاد والعلاج غير الضروريين ، في حين أن فقدان علبة السرطان الفعلية سيكون له عواقب وخيمة على المريض. بمعنى آخر ، يحتاج النموذج إلى أن يكون لكل من الدقة العالية والاستدعاء العالي ، وهو أمر يمكن أن تقيسه درجة F1.
اعتدال المحتوى
يمثل المحتوى المعتدل تحديًا شائعًا في المنتديات عبر الإنترنت ، ومنصات الوسائط الاجتماعية ، والأسواق عبر الإنترنت. لتحقيق سلامة المنصة دون الزائد ، يجب أن توازن هذه الأنظمة من الدقة والاستدعاء. يمكن أن تساعد درجة F1 المنصات في تحديد مدى موازنة نظامها بشكل جيد.
فوائد درجة F1
بالإضافة إلى توفير عرض أكثر دقة لأداء النموذج من الدقة ، توفر درجة F1 العديد من المزايا الرئيسية عند تقييم أداء نموذج التصنيف. وتشمل هذه الفوائد تدريبًا وتحسين نموذجيًا أسرع ، وتقليل تكاليف التدريب ، والتقاط التورط في وقت مبكر.
تدريب أسرع وتحسين النماذج
يمكن أن تساعد درجة F1 في تسريع تدريب النماذج من خلال توفير مقياس مرجعي واضح يمكن استخدامه لتوجيه التحسين. بدلاً من ضبط الاستدعاء والدقة بشكل منفصل ، والذي يتضمن عمومًا مقايضات معقدة ، يمكن لممارسي ML التركيز على زيادة درجة F1. مع هذا النهج المبسط ، يمكن تحديد معلمات النموذج الأمثل بسرعة.
انخفاض تكاليف التدريب
يمكن أن تساعد درجة F1 ممارسي ML على اتخاذ قرارات مستنيرة حول متى يكون النموذج جاهزًا للنشر من خلال توفير مقياس واحد دقيق لأداء النموذج. من خلال هذه المعلومات ، يمكن للممارسين تجنب دورات التدريب غير الضرورية ، والاستثمارات في الموارد الحسابية ، والاضطرار إلى الحصول على بيانات تدريب إضافية أو إنشاء بيانات تدريب إضافية. بشكل عام ، يمكن أن يؤدي ذلك إلى تخفيضات كبيرة في التكاليف عند نماذج تصنيف التدريب.
اصطياد التكلفة في وقت مبكر
نظرًا لأن درجة F1 تعتبر كل من الدقة والاستدعاء ، يمكن أن تساعد ممارسي ML في تحديد متى يصبح النموذج متخصصًا جدًا في بيانات التدريب. هذه المشكلة ، التي تسمى الإضافات ، هي مشكلة شائعة في نماذج التصنيف. تمنح درجة F1 الممارسين تحذيرًا مبكرًا أنهم بحاجة إلى ضبط التدريب قبل أن يصل النموذج إلى نقطة لا يمكن فيها التعميم على البيانات الحقيقية.
قيود درجة F1
على الرغم من فوائدها العديدة ، فإن درجة F1 لها العديد من القيود المهمة التي يجب على الممارسين مراعاتها. وتشمل هذه القيود عدم وجود حساسية للسلبيات الحقيقية ، وليس مناسبة لبعض مجموعات البيانات ، ويكون من الصعب تفسيرها لمشاكل متعددة الطوائف.
عدم وجود حساسية للسلبيات الحقيقية
لا تفسر درجة F1 السلبيات الحقيقية ، مما يعني أنها ليست مناسبة بشكل جيد للتطبيقات التي يكون فيها قياس هذا أمرًا مهمًا. على سبيل المثال ، فكر في نظام مصمم لتحديد ظروف القيادة الآمنة. في هذه الحالة ، يكون تحديد الظروف آمنة بشكل صحيح (السلبيات الحقيقية) بنفس أهمية تحديد الظروف الخطيرة. نظرًا لأنه لا يتتبع FN ، فإن درجة F1 لن تلتقط بدقة هذا الجانب من الأداء النموذجي العام.
غير مناسب لبعض مجموعات البيانات
قد لا تكون درجة F1 مناسبة لمجموعات البيانات حيث يكون تأثير FP و FN مختلفًا بشكل كبير. النظر في مثال نموذج فحص السرطان. في مثل هذه الحالة ، يمكن أن يكون فقدان الحالة الإيجابية (FN) مهددًا للحياة ، في حين أن إيجاد حالة إيجابية (FP) يؤدي بشكل خاطئ فقط إلى اختبار إضافي. لذلك ، فإن استخدام مقياس يمكن أن يتم تقييمه لحساب هذه التكلفة هو خيار أفضل من درجة F1.
من الصعب تفسير المشكلات المتعددة
في حين أن الاختلافات مثل درجات Micro-F1 و Macro-F1 تعني أنه يمكن استخدام درجة F1 لتقييم أنظمة التصنيف متعددة الطوائف ، فإن تفسير هذه المقاييس المجمعة غالبًا ما يكون أكثر تعقيدًا من درجة F1 الثنائية. على سبيل المثال ، قد تخفي درجة Micro-F1 الأداء الضعيف في تصنيف الفصول الأقل تكرارًا ، في حين أن درجة Macro-F1 قد تعزف على زيادة الوزن. بالنظر إلى ذلك ، تحتاج الشركات إلى النظر في ما إذا كان المعاملة المتساوية للفئات أو الأداء العام على مستوى المثيل أكثر أهمية عند اختيار متغير F1 الصحيح لنماذج التصنيف المتعددة.