คะแนน F1 ในการเรียนรู้ของเครื่อง: วิธีการคำนวณใช้และใช้อย่างมีประสิทธิภาพ

เผยแพร่แล้ว: 2025-02-10

คะแนน F1 เป็นตัวชี้วัดที่ทรงพลังสำหรับการประเมินโมเดลการเรียนรู้ของเครื่อง (ML) ที่ออกแบบมาเพื่อทำการจำแนกประเภทไบนารีหรือหลายคลาส บทความนี้จะอธิบายว่าคะแนน F1 คืออะไรทำไมมันถึงสำคัญวิธีการคำนวณและการใช้งานผลประโยชน์และข้อ จำกัด

สารบัญ

  • คะแนน F1 คืออะไร?
  • วิธีคำนวณคะแนน F1
  • คะแนน F1 เทียบกับความแม่นยำ
  • แอปพลิเคชันของคะแนน F1
  • ประโยชน์ของคะแนน F1
  • ข้อ จำกัด ของคะแนน F1

คะแนน F1 คืออะไร?

ผู้ปฏิบัติงาน ML เผชิญกับความท้าทายทั่วไปเมื่อสร้างแบบจำลองการจำแนกประเภท: การฝึกอบรมแบบจำลองเพื่อจับทุกกรณีในขณะที่หลีกเลี่ยงการเตือนที่ผิดพลาด สิ่งนี้มีความสำคัญอย่างยิ่งในการใช้งานที่สำคัญเช่นการตรวจจับการฉ้อโกงทางการเงินและการวินิจฉัยทางการแพทย์ซึ่งการเตือนภัยที่ผิดพลาดและการจำแนกประเภทที่สำคัญขาดหายไปมีผลร้ายแรง การบรรลุความสมดุลที่เหมาะสมนั้นมีความสำคัญอย่างยิ่งเมื่อต้องรับมือกับชุดข้อมูลที่ไม่สมดุลซึ่งหมวดหมู่เช่นการทำธุรกรรมการฉ้อโกงนั้นหาได้ยากกว่าหมวดหมู่อื่น ๆ (ธุรกรรมที่ถูกกฎหมาย)

ทำงานอย่างชาญฉลาดด้วยไวยากรณ์
พันธมิตรการเขียน AI สำหรับทุกคนที่ทำงานที่ต้องทำ

ความแม่นยำและการเรียกคืน

เพื่อวัดคุณภาพประสิทธิภาพของโมเดลคะแนน F1 รวมสองตัวชี้วัดที่เกี่ยวข้อง:

  • ความแม่นยำคำตอบใดที่“ เมื่อแบบจำลองทำนายกรณีที่เป็นบวกมันถูกต้องบ่อยแค่ไหน”
  • จำได้ว่าคำตอบใด“ ในกรณีที่เป็นบวกที่เกิดขึ้นจริงทั้งหมดมีจำนวนเท่าใดที่ระบุได้อย่างถูกต้อง”

แบบจำลองที่มีความแม่นยำสูง แต่การเรียกคืนต่ำนั้นมีความระมัดระวังมากเกินไปหายไปจากข้อดีที่แท้จริงมากมายในขณะที่หนึ่งที่มีการเรียกคืนสูง แต่ความแม่นยำต่ำนั้นก้าวร้าวมากเกินไปทำให้เกิดผลบวกปลอมมากมาย คะแนน F1 สร้างความสมดุลโดยการใช้ค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการเรียกคืนซึ่งให้น้ำหนักมากขึ้นเพื่อลดค่านิยมและทำให้มั่นใจได้ว่าแบบจำลองทำงานได้ดีทั้งสองตัวชี้วัดมากกว่าที่ยอดเยี่ยมในหนึ่งเดียว

การวัดความแม่นยำและการเรียกคืนในคะแนน F1

ตัวอย่างที่แม่นยำและการเรียกคืน

เพื่อให้เข้าใจความแม่นยำและการเรียกคืนได้ดีขึ้นให้พิจารณาระบบตรวจจับสแปม หากระบบมีอัตราการตั้งค่าสถานะอีเมลที่ถูกต้องเป็นสแปมอย่างถูกต้องซึ่งหมายความว่ามีความแม่นยำสูง ตัวอย่างเช่นหากระบบตั้งค่าสถานะอีเมล 100 ฉบับเป็นสแปมและ 90 รายการเป็นสแปมจริงความแม่นยำคือ 90% ในทางกลับกันการเรียกคืนสูงหมายถึงระบบจับอีเมลสแปมที่เกิดขึ้นจริงส่วนใหญ่ ตัวอย่างเช่นหากมีอีเมลสแปมจริง 200 ฉบับและระบบของเราจับได้ 90 รายการการเรียกคืนคือ 45%

ตัวแปรของคะแนน F1

ในระบบการจำแนกประเภท multiclass หรือสถานการณ์ที่มีความต้องการเฉพาะคะแนน F1 สามารถคำนวณได้ในรูปแบบที่แตกต่างกันขึ้นอยู่กับปัจจัยที่สำคัญ:

  • Macro-F1:คำนวณคะแนน F1 แยกกันสำหรับแต่ละชั้นเรียนและใช้ค่าเฉลี่ย
  • Micro-F1:คำนวณการเรียกคืนและความแม่นยำในการคาดการณ์ทั้งหมด
  • ถ่วงน้ำหนัก -F1: คล้ายกับมาโคร F1 แต่คลาสมีน้ำหนักตามความถี่

Beyond the F1 คะแนน: ครอบครัว F-score

คะแนน F1 เป็นส่วนหนึ่งของตระกูลตัวชี้วัดขนาดใหญ่ที่เรียกว่าคะแนน F คะแนนเหล่านี้นำเสนอวิธีการที่แตกต่างกันในการรับน้ำหนักและการเรียกคืน:

  • F2:ให้ความสำคัญกับการเรียกคืนมากขึ้นซึ่งมีประโยชน์เมื่อลบเท็จมีค่าใช้จ่ายสูง
  • F0.5:ให้ความสำคัญกับความแม่นยำมากขึ้นซึ่งมีประโยชน์เมื่อบวกเท็จมีค่าใช้จ่ายสูง

วิธีคำนวณคะแนน F1

คะแนน F1 ถูกกำหนดทางคณิตศาสตร์ว่าเป็นค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการเรียกคืน ในขณะที่สิ่งนี้อาจฟังดูซับซ้อนกระบวนการคำนวณนั้นตรงไปตรงมาเมื่อแบ่งออกเป็นขั้นตอนที่ชัดเจน

สูตรสำหรับคะแนน F1:

สูตรสำหรับคะแนน F1

ก่อนที่จะดำน้ำในขั้นตอนในการคำนวณ F1 สิ่งสำคัญคือต้องเข้าใจองค์ประกอบสำคัญของสิ่งที่เรียกว่าเมทริกซ์ความสับสนซึ่งใช้ในการจัดระเบียบผลลัพธ์การจำแนกประเภท:

  • TRUE POSITIVES (TP):จำนวนกรณีที่ระบุอย่างถูกต้องเป็นบวก
  • False Positives (FP):จำนวนกรณีที่ระบุไม่ถูกต้องเป็นบวก
  • False Negatives (FN):จำนวนกรณีที่ไม่ได้รับ (ข้อดีจริงที่ไม่ได้ระบุ)

กระบวนการทั่วไปเกี่ยวข้องกับการฝึกอบรมแบบจำลองการทดสอบการคาดการณ์และการจัดระเบียบผลลัพธ์คำนวณความแม่นยำและการเรียกคืนและการคำนวณคะแนน F1

ขั้นตอนที่ 1: ฝึกอบรมรูปแบบการจำแนกประเภท

ขั้นแรกต้องได้รับการฝึกอบรมแบบจำลองเพื่อทำการจำแนกประเภทไบนารีหรือแบบมัลติคลาส ซึ่งหมายความว่าแบบจำลองจะต้องสามารถจำแนกกรณีเป็นของหนึ่งในสองหมวดหมู่ ตัวอย่าง ได้แก่ “ สแปม/ไม่ใช่สแปม” และ“ การฉ้อโกง/ไม่ใช่การฉ้อโกง”

ขั้นตอนที่ 2: ทดสอบการคาดการณ์และจัดระเบียบผลลัพธ์

ถัดไปใช้โมเดลเพื่อดำเนินการจำแนกประเภทในชุดข้อมูลแยกต่างหากที่ไม่ได้ใช้เป็นส่วนหนึ่งของการฝึกอบรม จัดระเบียบผลลัพธ์ลงในเมทริกซ์ความสับสน เมทริกซ์นี้แสดง:

  • TP: การคาดการณ์ที่ถูกต้องจริง ๆ
  • FP: การคาดการณ์เชิงบวกจำนวนเท่าใด
  • FN: มีกรณีบวกจำนวนเท่าใด

เมทริกซ์ความสับสนให้ภาพรวมของวิธีการทำงานของโมเดล

ขั้นตอนที่ 3: คำนวณความแม่นยำ

การใช้เมทริกซ์ความสับสนความแม่นยำจะคำนวณด้วยสูตรนี้:

สูตรสำหรับการคำนวณความแม่นยำ

ตัวอย่างเช่นหากรูปแบบการตรวจจับสแปมระบุอย่างถูกต้อง 90 อีเมลสแปม (TP) แต่ถูกตั้งค่าสถานะไม่ถูกต้อง 10 อีเมล Nonspam (FP) ความแม่นยำคือ 0.90

ตัวอย่างการตรวจจับสแปมการคำนวณเพื่อความแม่นยำ

ขั้นตอนที่ 4: คำนวณการเรียกคืน

ถัดไปคำนวณการเรียกคืนโดยใช้สูตร:

การใช้ตัวอย่างการตรวจจับสแปมหากมีอีเมลสแปมทั้งหมด 200 ฉบับและโมเดลจับ 90 รายการ (TP) ในขณะที่หายไป 110 (FN) การเรียกคืนคือ 0.45

ตัวอย่างการตรวจจับสแปมการคำนวณสำหรับการเรียกคืน

ขั้นตอนที่ 5: คำนวณคะแนน F1

ด้วยค่าความแม่นยำและการเรียกคืนในมือสามารถคำนวณคะแนน F1 ได้

คะแนน F1 อยู่ในช่วงตั้งแต่ 0 ถึง 1 เมื่อตีความคะแนนให้พิจารณาเกณฑ์มาตรฐานทั่วไปเหล่านี้:

  • 0.9 หรือสูงกว่า:โมเดลนั้นมีประสิทธิภาพที่ยอดเยี่ยม แต่ควรตรวจสอบเพื่อให้มากเกินไป
  • 0.7 ถึง 0.9:ประสิทธิภาพที่ดีสำหรับการใช้งานส่วนใหญ่
  • 0.5 ถึง 0.7:ประสิทธิภาพก็โอเค แต่โมเดลสามารถใช้การปรับปรุงได้
  • 0.5 หรือน้อยกว่า:โมเดลทำงานได้ไม่ดีและต้องการการปรับปรุงอย่างจริงจัง

การใช้การคำนวณตัวอย่างการตรวจจับสแปมเพื่อความแม่นยำและการเรียกคืนคะแนน F1 จะเป็น 0.60 หรือ 60%

ตัวอย่างการตรวจจับสแปมการคำนวณเพื่อความแม่นยำและการเรียกคืน

ในกรณีนี้คะแนน F1 บ่งชี้ว่าแม้จะมีความแม่นยำสูงการเรียกคืนที่ต่ำกว่านั้นมีผลต่อประสิทธิภาพโดยรวม สิ่งนี้ชี้ให้เห็นว่ามีที่ว่างสำหรับการปรับปรุงในการจับอีเมลสแปมมากขึ้น

คะแนน F1 เทียบกับความแม่นยำ

ในขณะที่ทั้ง F1 และความแม่นยำจำนวนประสิทธิภาพของโมเดลคะแนน F1 ให้การวัดที่เหมาะสมยิ่งขึ้น ความแม่นยำเพียงแค่คำนวณเปอร์เซ็นต์ของการทำนายที่ถูกต้อง อย่างไรก็ตามการพึ่งพาความแม่นยำในการวัดประสิทธิภาพของแบบจำลองอาจเป็นปัญหาเมื่อจำนวนอินสแตนซ์ของหมวดหมู่หนึ่งในชุดข้อมูลมีค่ามากกว่าหมวดหมู่อื่น ๆ อย่างมีนัยสำคัญ ปัญหานี้เรียกว่าความ ขัดแย้งที่แม่นยำ

เพื่อทำความเข้าใจปัญหานี้ให้พิจารณาตัวอย่างของระบบตรวจจับสแปม สมมติว่าระบบอีเมลได้รับอีเมล 1,000 ฉบับทุกวัน แต่มีเพียง 10 ฉบับเท่านั้นที่เป็นสแปม หากการตรวจจับสแปมจัดประเภทอีเมลทุกฉบับว่าไม่ใช่สแปมมันจะยังคงมีความแม่นยำ 99% นี่เป็นเพราะการคาดการณ์ 990 จาก 1,000 นั้นถูกต้องแม้ว่าแบบจำลองนั้นจะไร้ประโยชน์จริง ๆ เมื่อมันมาถึงการตรวจจับสแปม เห็นได้ชัดว่าความแม่นยำไม่ได้ให้ภาพที่ถูกต้องเกี่ยวกับคุณภาพของโมเดล

คะแนน F1 หลีกเลี่ยงปัญหานี้โดยการรวมการวัดความแม่นยำและการเรียกคืน ดังนั้นควรใช้ F1 แทนความแม่นยำในกรณีต่อไปนี้:

  • ชุดข้อมูลไม่สมดุลนี่เป็นเรื่องธรรมดาในสาขาต่าง ๆ เช่นการวินิจฉัยสภาพทางการแพทย์ที่คลุมเครือหรือการตรวจจับสแปมซึ่งหมวดหมู่หนึ่งค่อนข้างหายาก
  • FN และ FP มีความสำคัญตัวอย่างเช่นการทดสอบการตรวจคัดกรองทางการแพทย์พยายามที่จะสร้างความสมดุลให้กับปัญหาที่เกิดขึ้นจริงโดยไม่ทำให้เกิดการเตือนที่ผิดพลาด
  • แบบจำลองจำเป็นต้องสร้างสมดุลระหว่างการก้าวร้าวและระมัดระวังเกินไปตัวอย่างเช่นในการกรองสแปมตัวกรองที่ระมัดระวังมากเกินไปอาจทำให้ผ่านสแปมมากเกินไป (การเรียกคืนต่ำ) แต่ไม่ค่อยทำผิดพลาด (ความแม่นยำสูง) ในทางกลับกันตัวกรองที่ก้าวร้าวมากเกินไปอาจบล็อกอีเมลจริง (ความแม่นยำต่ำ) แม้ว่าจะจับสแปมทั้งหมด (เรียกคืนสูง)

แอปพลิเคชันของคะแนน F1

คะแนน F1 มีแอพพลิเคชั่นที่หลากหลายในอุตสาหกรรมต่าง ๆ ที่มีการจำแนกประเภทที่สมดุล แอปพลิเคชันเหล่านี้รวมถึงการตรวจจับการฉ้อโกงทางการเงินการวินิจฉัยทางการแพทย์และการกลั่นกรองเนื้อหา

การตรวจจับการฉ้อโกงทางการเงิน

แบบจำลองที่ออกแบบมาเพื่อตรวจจับการฉ้อโกงทางการเงินเป็นหมวดหมู่ของระบบที่เหมาะสมสำหรับการวัดโดยใช้คะแนน F1 บริษัท ทางการเงินมักดำเนินการทำธุรกรรมหลายล้านหรือหลายพันล้านรายการต่อวันโดยมีกรณีการฉ้อโกงจริง ๆ ค่อนข้างหายาก ด้วยเหตุนี้ระบบตรวจจับการฉ้อโกงจึงจำเป็นต้องทำธุรกรรมการฉ้อโกงมากที่สุดเท่าที่จะทำได้ในขณะเดียวกันก็ลดจำนวนการเตือนที่ผิดพลาดและทำให้ลูกค้าไม่สะดวก การวัดคะแนน F1 สามารถช่วยให้สถาบันการเงินกำหนดว่าระบบของพวกเขามีความสมดุลกับเสาสองเสาของการป้องกันการฉ้อโกงและประสบการณ์ของลูกค้าที่ดี

การวินิจฉัยทางการแพทย์

ในการวินิจฉัยและการทดสอบทางการแพทย์ FN และ FP ทั้งคู่มีผลกระทบร้ายแรง พิจารณาตัวอย่างของแบบจำลองที่ออกแบบมาเพื่อตรวจหามะเร็งรูปแบบที่หายาก การวินิจฉัยผู้ป่วยที่มีสุขภาพดีอย่างไม่ถูกต้องอาจนำไปสู่ความเครียดและการรักษาที่ไม่จำเป็นในขณะที่กรณีมะเร็งที่ขาดหายไปจะมีผลกระทบร้ายแรงต่อผู้ป่วย กล่าวอีกนัยหนึ่งโมเดลต้องมีทั้งความแม่นยำสูงและการเรียกคืนสูงซึ่งเป็นสิ่งที่คะแนน F1 สามารถวัดได้

การกลั่นกรองเนื้อหา

การดูแลเนื้อหาเป็นความท้าทายทั่วไปในฟอรัมออนไลน์แพลตฟอร์มโซเชียลมีเดียและตลาดออนไลน์ เพื่อให้บรรลุความปลอดภัยของแพลตฟอร์มโดยไม่ต้องใช้ความอ่อนไหวมากเกินไประบบเหล่านี้จะต้องสร้างความสมดุลระหว่างความแม่นยำและการเรียกคืน คะแนน F1 สามารถช่วยแพลตฟอร์มกำหนดได้ว่าระบบของพวกเขามีความสมดุลทั้งสองปัจจัยนี้

ประโยชน์ของคะแนน F1

นอกเหนือจากการให้มุมมองที่เหมาะสมยิ่งขึ้นของประสิทธิภาพของโมเดลมากกว่าความแม่นยำคะแนน F1 ยังมีข้อได้เปรียบที่สำคัญหลายประการเมื่อประเมินประสิทธิภาพการจำแนกประเภท ผลประโยชน์เหล่านี้รวมถึงการฝึกอบรมแบบจำลองที่เร็วขึ้นและการเพิ่มประสิทธิภาพลดค่าใช้จ่ายในการฝึกอบรมและการจับภาพมากเกินไปก่อน

การฝึกอบรมแบบจำลองและการเพิ่มประสิทธิภาพที่เร็วขึ้น

คะแนน F1 สามารถช่วยเพิ่มความเร็วในการฝึกอบรมแบบจำลองโดยการจัดหาตัวชี้วัดอ้างอิงที่ชัดเจนซึ่งสามารถใช้เพื่อเป็นแนวทางในการเพิ่มประสิทธิภาพ แทนที่จะปรับจูนการเรียกคืนและความแม่นยำแยกต่างหากซึ่งโดยทั่วไปเกี่ยวข้องกับการแลกเปลี่ยนที่ซับซ้อนผู้ปฏิบัติงาน ML สามารถมุ่งเน้นไปที่การเพิ่มคะแนน F1 ด้วยวิธีการที่มีความคล่องตัวนี้พารามิเตอร์โมเดลที่ดีที่สุดสามารถระบุได้อย่างรวดเร็ว

ลดค่าใช้จ่ายในการฝึกอบรม

คะแนน F1 สามารถช่วยผู้ปฏิบัติงาน ML ในการตัดสินใจอย่างชาญฉลาดเกี่ยวกับเมื่อโมเดลพร้อมสำหรับการปรับใช้โดยการวัดประสิทธิภาพแบบจำลองที่เหมาะสมและเหมาะสม ด้วยข้อมูลนี้ผู้ปฏิบัติงานสามารถหลีกเลี่ยงรอบการฝึกอบรมที่ไม่จำเป็นการลงทุนในทรัพยากรการคำนวณและต้องได้รับหรือสร้างข้อมูลการฝึกอบรมเพิ่มเติม โดยรวมแล้วสิ่งนี้สามารถนำไปสู่การลดต้นทุนได้อย่างมากเมื่อรูปแบบการจำแนกประเภทการฝึกอบรม

จับตัวมากเกินไปก่อน

เนื่องจากคะแนน F1 พิจารณาทั้งความแม่นยำและการเรียกคืนจึงสามารถช่วยผู้ปฏิบัติงาน ML ระบุว่าเมื่อใดที่แบบจำลองมีความเชี่ยวชาญในข้อมูลการฝึกอบรมมากเกินไป ปัญหานี้เรียกว่าการ overfitting เป็นปัญหาทั่วไปกับรูปแบบการจำแนกประเภท คะแนน F1 ให้ผู้ปฏิบัติงานเตือนล่วงหน้าว่าพวกเขาจำเป็นต้องปรับการฝึกอบรมก่อนที่โมเดลจะมาถึงจุดที่ไม่สามารถสรุปข้อมูลในโลกแห่งความจริงได้

ข้อ จำกัด ของคะแนน F1

แม้จะได้รับประโยชน์มากมายคะแนน F1 มีข้อ จำกัด ที่สำคัญหลายประการที่ผู้ปฏิบัติงานควรพิจารณา ข้อ จำกัด เหล่านี้รวมถึงการขาดความอ่อนไหวต่อเชิงลบที่แท้จริงไม่เหมาะสำหรับชุดข้อมูลบางชุดและยากที่จะตีความสำหรับปัญหาหลายระดับ

ขาดความอ่อนไหวต่อเชิงลบที่แท้จริง

คะแนน F1 ไม่ได้คำนึงถึงเชิงลบที่แท้จริงซึ่งหมายความว่ามันไม่เหมาะสำหรับแอปพลิเคชันที่การวัดสิ่งนี้มีความสำคัญ ตัวอย่างเช่นพิจารณาระบบที่ออกแบบมาเพื่อระบุสภาพการขับขี่ที่ปลอดภัย ในกรณีนี้การระบุอย่างถูกต้องเมื่อเงื่อนไขมีความปลอดภัยอย่างแท้จริง (เชิงลบที่แท้จริง) มีความสำคัญเท่ากับการระบุเงื่อนไขที่เป็นอันตราย เนื่องจากไม่ได้ติดตาม FN คะแนน F1 จะไม่จับภาพโมเดลโดยรวมได้อย่างถูกต้อง

ไม่เหมาะสำหรับชุดข้อมูลบางชุด

คะแนน F1 อาจไม่เหมาะสำหรับชุดข้อมูลที่ผลกระทบของ FP และ FN แตกต่างกันอย่างมีนัยสำคัญ พิจารณาตัวอย่างของรูปแบบการตรวจคัดกรองมะเร็ง ในสถานการณ์เช่นนี้การขาดหายไปในกรณีบวก (FN) อาจเป็นอันตรายถึงชีวิตในขณะที่การค้นหากรณีบวก (FP) อย่างผิด ๆ จะนำไปสู่การทดสอบเพิ่มเติม ดังนั้นการใช้ตัวชี้วัดที่สามารถถ่วงน้ำหนักเพื่อบัญชีสำหรับค่าใช้จ่ายนี้เป็นตัวเลือกที่ดีกว่าคะแนน F1

ยากต่อการตีความสำหรับปัญหาหลายระดับ

ในขณะที่การเปลี่ยนแปลงเช่นคะแนน Micro-F1 และ Macro-F1 หมายความว่าคะแนน F1 สามารถใช้ในการประเมินระบบการจำแนกประเภทหลายระดับการตีความตัวชี้วัดที่รวมเหล่านี้มักจะซับซ้อนกว่าคะแนน Binary F1 ตัวอย่างเช่นคะแนน Micro-F1 อาจซ่อนประสิทธิภาพที่ไม่ดีในการจำแนกคลาสที่น้อยกว่าบ่อยครั้งในขณะที่คะแนนมาโคร F1 อาจมีน้ำหนักเกินที่หายาก เมื่อพิจารณาถึงสิ่งนี้ธุรกิจจำเป็นต้องพิจารณาว่าการรักษาชั้นเรียนที่เท่าเทียมกันหรือประสิทธิภาพระดับตัวอย่างโดยรวมนั้นมีความสำคัญมากกว่าเมื่อเลือกตัวแปร F1 ที่เหมาะสมสำหรับแบบจำลองการจำแนกแบบหลายคลาส