การจำแนกประเภทในการเรียนรู้ของเครื่อง: คืออะไรและทำงานอย่างไร
เผยแพร่แล้ว: 2024-11-20การจำแนกประเภทเป็นแนวคิดหลักในการวิเคราะห์ข้อมูลและการเรียนรู้ของเครื่อง (ML) คู่มือนี้จะสำรวจว่าการจัดประเภทคืออะไรและทำงานอย่างไร อธิบายความแตกต่างระหว่างการจัดประเภทและการถดถอย และครอบคลุมประเภทของงาน อัลกอริธึม แอปพลิเคชัน ข้อดี และความท้าทาย
สารบัญ
- การจำแนกประเภทคืออะไร?
- การจำแนกประเภทกับการถดถอย
- ประเภทของงานการจำแนกประเภทใน ML
- อัลกอริธึมที่ใช้ในการวิเคราะห์การจำแนกประเภท
- การประยุกต์การจำแนกประเภท
- ข้อดีของการจำแนกประเภท
- ข้อเสียของการจำแนกประเภท
การจำแนกประเภทในการเรียนรู้ของเครื่องคืออะไร?
การจัดประเภทเป็นเทคนิคการเรียนรู้ภายใต้การดูแลในการเรียนรู้ของเครื่องซึ่งจะคาดการณ์หมวดหมู่ (หรือที่เรียกว่าคลาส) ของจุดข้อมูลใหม่ตามคุณลักษณะอินพุต อัลกอริธึมการจำแนกประเภทใช้ข้อมูลที่ติดป้ายกำกับซึ่งทราบหมวดหมู่ที่ถูกต้อง เพื่อเรียนรู้วิธีจับคู่คุณลักษณะต่างๆ กับหมวดหมู่เฉพาะ กระบวนการนี้เรียกอีกอย่างว่าการจัดหมวดหมู่หรือการจำแนกประเภทตามหมวดหมู่
เพื่อทำการจำแนกประเภท อัลกอริธึมจะดำเนินการในสองขั้นตอนสำคัญ ในระหว่างขั้นตอนการฝึกอบรม อัลกอริธึมจะเรียนรู้ความสัมพันธ์ระหว่างข้อมูลอินพุตและป้ายกำกับหรือหมวดหมู่ที่เกี่ยวข้อง เมื่อได้รับการฝึกอบรมแล้ว โมเดลจะเข้าสู่ขั้นตอนการอนุมาน ซึ่งจะใช้รูปแบบที่เรียนรู้เพื่อจัดประเภทข้อมูลใหม่ที่มองไม่เห็นในแอปพลิเคชันในโลกแห่งความเป็นจริง ประสิทธิผลของการจำแนกประเภทส่วนใหญ่ขึ้นอยู่กับวิธีจัดการขั้นตอนเหล่านี้และคุณภาพของข้อมูลที่ประมวลผลล่วงหน้าที่มีอยู่ระหว่างการฝึกอบรม
การทำความเข้าใจว่าอัลกอริธึมการจำแนกประเภทจัดการขั้นตอนเหล่านี้อย่างไรเป็นสิ่งสำคัญ ข้อแตกต่างที่สำคัญประการหนึ่งคือวิธีที่พวกเขาเข้าถึงการเรียนรู้ สิ่งนี้นำเราไปสู่กลยุทธ์ที่แตกต่างกันสองประการที่อัลกอริทึมการจำแนกประเภทอาจปฏิบัติตาม: การเรียนรู้แบบขี้เกียจและการเรียนรู้อย่างกระตือรือร้น
ผู้เรียนที่ขี้เกียจ กับ ผู้เรียนที่กระตือรือร้น
โดยทั่วไปอัลกอริทึมการจำแนกประเภทจะใช้หนึ่งในสองกลยุทธ์การเรียนรู้: การเรียนรู้แบบขี้เกียจหรือการเรียนรู้อย่างกระตือรือร้น วิธีการเหล่านี้มีความแตกต่างกันโดยพื้นฐานเกี่ยวกับวิธีการและเวลาที่โมเดลจะถูกสร้างขึ้น ซึ่งส่งผลต่อความยืดหยุ่น ประสิทธิภาพ และกรณีการใช้งานของอัลกอริธึม แม้ว่าทั้งสองมีเป้าหมายในการจำแนกประเภทข้อมูล แต่ก็ใช้วิธีการที่แตกต่างกันซึ่งเหมาะสมกับงานและสภาพแวดล้อมประเภทต่างๆ
เรามาตรวจสอบการดำเนินการของผู้เรียนที่เกียจคร้านและกระตือรือร้นเพื่อทำความเข้าใจจุดแข็งและจุดอ่อนของแต่ละวิธีให้ดียิ่งขึ้น
ขี้เกียจเรียน
อัลกอริธึมการเรียนรู้แบบ Lazy Learning หรือที่เรียกว่าผู้เรียนตามอินสแตนซ์หรือหน่วยความจำจะจัดเก็บข้อมูลการฝึกอบรมและชะลอการเรียนรู้จริงจนกว่าจะต้องจัดประเภทแบบสอบถาม เมื่ออัลกอริธึมตัวใดตัวหนึ่งถูกนำไปใช้งาน ระบบจะเปรียบเทียบจุดข้อมูลใหม่กับอินสแตนซ์ที่จัดเก็บไว้โดยใช้การวัดความคล้ายคลึงกัน คุณภาพและปริมาณของข้อมูลที่มีอยู่มีอิทธิพลอย่างมากต่อความแม่นยำของอัลกอริทึม โดยการเข้าถึงชุดข้อมูลขนาดใหญ่มักจะปรับปรุงประสิทธิภาพให้ดีขึ้น ผู้เรียนที่ขี้เกียจมักจัดลำดับความสำคัญของข้อมูลล่าสุด ซึ่งเรียกว่าอคติเกี่ยวกับความใหม่เนื่องจากพวกเขาเรียนรู้แบบเรียลไทม์ พวกเขาจึงอาจช้าลงและมีราคาแพงกว่าในการคำนวณเมื่อตอบคำถาม
ผู้เรียนที่ขี้เกียจเก่งในสภาพแวดล้อมที่ไม่หยุดนิ่งซึ่งการตัดสินใจแบบเรียลไทม์เป็นสิ่งสำคัญ และข้อมูลก็มีการพัฒนาอยู่ตลอดเวลา อัลกอริธึมเหล่านี้เหมาะอย่างยิ่งสำหรับงานที่มีข้อมูลใหม่เข้ามาอย่างต่อเนื่อง และไม่มีเวลาสำหรับรอบการฝึกอบรมที่ครอบคลุมระหว่างงานจำแนกประเภท
ผู้เรียนที่กระตือรือร้น
ในทางตรงกันข้าม อัลกอริธึมการเรียนรู้ที่กระตือรือร้นจะประมวลผลข้อมูลการฝึกอบรมทั้งหมดล่วงหน้า สร้างแบบจำลองก่อนที่จะดำเนินการจำแนกประเภทใดๆ โดยทั่วไปขั้นตอนการเรียนรู้ล่วงหน้านี้ต้องใช้ทรัพยากรมากและซับซ้อนกว่า ช่วยให้อัลกอริทึมสามารถเปิดเผยความสัมพันธ์ที่ลึกซึ้งยิ่งขึ้นในข้อมูลได้ เมื่อผ่านการฝึกอบรมแล้ว ผู้เรียนที่กระตือรือร้นไม่จำเป็นต้องเข้าถึงข้อมูลการฝึกอบรมเดิม ทำให้มีประสิทธิภาพสูงในระหว่างขั้นตอนการทำนาย พวกเขาสามารถจัดประเภทข้อมูลได้อย่างรวดเร็วและจัดการการสืบค้นข้อมูลจำนวนมากโดยมีค่าใช้จ่ายในการคำนวณน้อยที่สุด
อย่างไรก็ตาม ผู้เรียนที่กระตือรือร้นมีความยืดหยุ่นน้อยกว่าในการปรับตัวเข้ากับข้อมูลใหม่แบบเรียลไทม์ กระบวนการฝึกอบรมที่ใช้ทรัพยากรจำนวนมากจะจำกัดปริมาณข้อมูลที่สามารถจัดการได้ ทำให้ยากต่อการผสานรวมข้อมูลใหม่ๆ โดยไม่ต้องฝึกอบรมโมเดลทั้งหมดใหม่
ต่อไปในโพสต์นี้ เราจะได้เห็นว่าอัลกอริธึมที่ขี้เกียจและกระตือรือร้นสามารถนำไปใช้ควบคู่กับการจดจำใบหน้าได้อย่างไร
การจำแนกประเภทกับการถดถอย: อะไรคือความแตกต่าง?
ตอนนี้เราได้สำรวจวิธีการจำแนกประเภทแล้ว สิ่งสำคัญคือต้องแยกความแตกต่างจากเทคนิคการเรียนรู้แบบมีผู้สอนที่สำคัญอีกประการหนึ่ง: การถดถอย
ทั้งการจำแนกประเภทและการถดถอยใช้ในการคาดการณ์ตามข้อมูลที่ติดป้ายกำกับจากขั้นตอนการฝึกอบรม แต่จะแตกต่างกันตามประเภทของการคาดการณ์ที่สร้างขึ้น
อัลกอริธึมการจำแนกประเภททำนายผลลัพธ์ที่ไม่ต่อเนื่องและเป็นหมวดหมู่ ตัวอย่างเช่น ในระบบการจัดหมวดหมู่อีเมล อีเมลอาจถูกระบุว่าเป็น "สแปม" หรือ "แฮม" (โดยที่ "แฮม" หมายถึงอีเมลที่ไม่ใช่สแปม) ในทำนองเดียวกัน แบบจำลองการจำแนกสภาพอากาศอาจคาดการณ์ว่า "ใช่" "ไม่" หรือ "อาจจะ" เพื่อตอบคำถาม "พรุ่งนี้ฝนจะตกหรือไม่"
ในทางกลับกันอัลกอริธึมการถดถอย ทำนายค่าต่อเนื่อง แทนที่จะกำหนดข้อมูลให้กับหมวดหมู่ แบบจำลองการถดถอยจะประมาณผลลัพธ์ที่เป็นตัวเลข ตัวอย่างเช่น ในระบบอีเมล โมเดลการถดถอยอาจคาดการณ์ความน่าจะเป็น (เช่น 70%) ที่อีเมลนั้นเป็นสแปม สำหรับแบบจำลองการพยากรณ์อากาศ สามารถทำนายปริมาณฝนที่คาดหวังได้ เช่น ปริมาณฝน 2 นิ้ว
แม้ว่าการจำแนกประเภทและการถดถอยจะมีจุดประสงค์ที่แตกต่างกัน แต่บางครั้งก็ใช้ร่วมกัน ตัวอย่างเช่น การถดถอยอาจประมาณความน่าจะเป็นที่ป้อนเข้าสู่ระบบการจำแนกประเภท ซึ่งช่วยเพิ่มความแม่นยำและรายละเอียดของการคาดการณ์
ประเภทของงานการจำแนกประเภทใน ML
งานการจำแนกประเภทจะแตกต่างกันไป โดยแต่ละงานได้รับการปรับแต่งให้เหมาะกับประเภทข้อมูลและความท้าทายเฉพาะ ขึ้นอยู่กับความซับซ้อนของงานและลักษณะของหมวดหมู่ คุณสามารถใช้วิธีการต่างๆ ได้: ไบนารี่ มัลติคลาส มัลติเลเบล หรือการจำแนกประเภทที่ไม่สมดุล มาเจาะลึกแต่ละแนวทางด้านล่างกัน
การจำแนกประเภทไบนารี
การจำแนกประเภทไบนารีเป็นงานพื้นฐานที่จัดเรียงข้อมูลออกเป็นสองประเภท เช่น จริง/เท็จ หรือ ใช่/ไม่ใช่ มีการวิจัยและนำไปใช้อย่างกว้างขวางในด้านต่างๆ เช่น การตรวจจับการฉ้อโกง การวิเคราะห์ความรู้สึก การวินิจฉัยทางการแพทย์ และการกรองสแปม แม้ว่าการจำแนกประเภทไบนารีจะเกี่ยวข้องกับสองคลาส แต่การจัดหมวดหมู่ที่ซับซ้อนมากขึ้นสามารถจัดการได้โดยการแบ่งปัญหาออกเป็นงานไบนารีหลายงาน ตัวอย่างเช่น หากต้องการจัดประเภทข้อมูลเป็น “แอปเปิ้ล” “ส้ม” “กล้วย” และ “อื่นๆ” ตัวแยกประเภทไบนารีที่แยกกันสามารถใช้เพื่อตอบว่า “มันเป็นแอปเปิ้ลหรือเปล่า” “มันเป็นส้มหรือเปล่า” และ “ กล้วยเหรอ?”
การจำแนกประเภทหลายคลาส
การจำแนกประเภทหลายคลาสหรือที่เรียกว่าการจำแนกประเภทพหุนาม ได้รับการออกแบบมาสำหรับงานที่ข้อมูลถูกจัดประเภทเป็นสามประเภทขึ้นไป ต่างจากแบบจำลองที่แยกปัญหาออกเป็นงานการจำแนกประเภทไบนารีหลายงาน อัลกอริธึมแบบหลายคลาสถูกสร้างขึ้นเพื่อจัดการกับสถานการณ์ดังกล่าวได้อย่างมีประสิทธิภาพมากขึ้น โดยทั่วไปแล้ว อัลกอริธึมเหล่านี้จะซับซ้อนกว่า ต้องการชุดข้อมูลขนาดใหญ่ และใช้ทรัพยากรในการตั้งค่ามากกว่าระบบไบนารี แต่มักจะให้ประสิทธิภาพที่ดีกว่าเมื่อนำไปใช้งาน
การจำแนกประเภทหลายป้ายกำกับ
การจำแนกประเภทหลายป้ายกำกับหรือที่เรียกว่าการจำแนกประเภทหลายเอาต์พุต จะกำหนดป้ายกำกับมากกว่าหนึ่งรายการให้กับข้อมูลที่กำหนด มักสับสนกับการจำแนกประเภทหลายคลาส โดยที่แต่ละอินสแตนซ์จะได้รับป้ายกำกับเพียงป้ายกำกับเดียวจากหลายหมวดหมู่
เพื่อชี้แจงความแตกต่าง: อัลกอริธึมการจำแนกประเภทไบนารีสามารถจัดเรียงรูปภาพออกเป็นสองประเภท ได้แก่ รูปภาพที่มีผลไม้ และรูปภาพที่ไม่มีผลไม้ จากนั้นระบบมัลติคลาสสามารถจัดประเภทภาพผลไม้เป็นหมวดหมู่เฉพาะ เช่น กล้วย แอปเปิล หรือส้ม ในทางกลับกัน การจัดหมวดหมู่หลายป้ายกำกับจะทำให้สามารถกำหนดป้ายกำกับหลายรายการให้กับรูปภาพเดียวได้ ตัวอย่างเช่น รูปภาพเดียวสามารถจัดประเภทได้ว่าเป็นทั้ง "ผลไม้" และ "กล้วย" และผลไม้ก็อาจมีป้ายกำกับว่า "สุก" หรือ "ไม่สุก" สิ่งนี้ทำให้ระบบสามารถพิจารณาคุณลักษณะอิสระหลายอย่างพร้อมกัน เช่น (“ไม่มีผลไม้” “ไม่มีกล้วย” “ไม่มีอะไรสุก”) (“ผลไม้” “กล้วย” “สุก” หรือ (“ผลไม้ ” “กล้วย” “ไม่มีอะไรสุก”)
การจำแนกประเภทที่ไม่สมดุล
บ่อยครั้ง ข้อมูลที่มีสำหรับการฝึกอบรมไม่ได้แสดงถึงการกระจายข้อมูลที่เห็นในความเป็นจริง ตัวอย่างเช่น อัลกอริทึมอาจเข้าถึงข้อมูลผู้ใช้ได้เพียง 100 คนในระหว่างการฝึกอบรม โดย 50% ซื้อสินค้า (เมื่อในความเป็นจริง มีผู้ใช้เพียง 10% เท่านั้นที่ซื้อสินค้า) อัลกอริธึมการจำแนกประเภทที่ไม่สมดุลช่วยแก้ปัญหานี้ในระหว่างการเรียนรู้โดยใช้เทคนิคการสุ่มตัวอย่างมากเกินไป (การนำข้อมูลการฝึกบางส่วนมาใช้ซ้ำ) และการสุ่มตัวอย่างน้อยเกินไป (ใช้ข้อมูลการฝึกบางส่วนน้อยเกินไป) การทำเช่นนี้จะทำให้อัลกอริธึมการเรียนรู้เรียนรู้ว่าชุดย่อยของข้อมูลเกิดขึ้นในความเป็นจริงมากหรือน้อยบ่อยกว่าที่เกิดขึ้นในข้อมูลการฝึกอบรม เทคนิคเหล่านี้มักจะเป็นการเพิ่มประสิทธิภาพการฝึกอบรมประเภทหนึ่ง เนื่องจากช่วยให้ระบบเรียนรู้จากข้อมูลน้อยกว่าที่ใช้ในการเรียนรู้อย่างอื่นอย่างมาก
บางครั้งการรวบรวมข้อมูลให้เพียงพอเพื่อสะท้อนความเป็นจริงอาจเป็นเรื่องยากหรือใช้เวลานาน และการเพิ่มประสิทธิภาพประเภทนี้อาจทำให้โมเดลได้รับการฝึกฝนเร็วขึ้น ในบางครั้ง ปริมาณข้อมูลมีขนาดใหญ่มากจนอัลกอริธึมการจำแนกประเภทใช้เวลานานเกินไปในการฝึกอบรมกับข้อมูลทั้งหมด และอัลกอริธึมที่ไม่สมดุลก็ทำให้สามารถฝึกอบรมได้อยู่ดี
อัลกอริธึมที่ใช้ในการวิเคราะห์การจำแนกประเภท
อัลกอริธึมการจำแนกประเภทได้รับการศึกษาอย่างดี และไม่พบการจำแนกรูปแบบใดรูปแบบหนึ่งที่เหมาะสมในระดับสากลสำหรับทุกสถานการณ์ เป็นผลให้มีชุดเครื่องมือขนาดใหญ่ของอัลกอริธึมการจำแนกประเภทที่รู้จักกันดี ด้านล่างนี้เราจะอธิบายสิ่งที่พบบ่อยที่สุดบางส่วน
ตัวทำนายเชิงเส้น
ตัวทำนายเชิงเส้นหมายถึงอัลกอริธึมที่ทำนายผลลัพธ์ตามการผสมผสานเชิงเส้นของคุณสมบัติอินพุต วิธีการเหล่านี้ใช้กันอย่างแพร่หลายในงานจำแนกประเภทเนื่องจากเป็นวิธีที่ตรงไปตรงมาและมีประสิทธิภาพ
การถดถอยโลจิสติก
การถดถอยโลจิสติกเป็นหนึ่งในตัวทำนายเชิงเส้นที่ใช้บ่อยที่สุด โดยเฉพาะอย่างยิ่งในการจำแนกประเภทไบนารี โดยจะคำนวณความน่าจะเป็นของผลลัพธ์ตามตัวแปรที่สังเกตได้โดยใช้ฟังก์ชันลอจิสติก (หรือซิกมอยด์) ชั้นเรียนที่มีความน่าจะเป็นสูงสุดจะถูกเลือกเป็นผลลัพธ์ที่คาดการณ์ไว้ โดยมีเงื่อนไขว่าเกินเกณฑ์ความเชื่อมั่น หากไม่มีผลลัพธ์ตรงตามเกณฑ์นี้ ผลลัพธ์อาจถูกทำเครื่องหมายว่า “ไม่แน่ใจ” หรือ “ยังไม่ได้ตัดสินใจ”
การถดถอยเชิงเส้น
โดยทั่วไปการถดถอยเชิงเส้นจะใช้สำหรับกรณีการใช้งานการถดถอย และจะให้ผลลัพธ์เป็นค่าต่อเนื่อง อย่างไรก็ตาม ค่าต่างๆ สามารถนำไปใช้ใหม่สำหรับการจัดหมวดหมู่ได้โดยการเพิ่มตัวกรองหรือแมปเพื่อแปลงเอาต์พุตเป็นคลาส ตัวอย่างเช่น หากคุณได้ฝึกโมเดลการถดถอยเชิงเส้นที่คาดการณ์ปริมาณฝน โมเดลเดียวกันนี้อาจกลายเป็นตัวแยกประเภทไบนารี "วันที่ฝนตก"/"ไม่ใช่วันที่ฝนตก" ได้โดยการตั้งค่าเกณฑ์ตามอำเภอใจ ตามค่าเริ่มต้น เป็นเพียงสัญลักษณ์ของผลลัพธ์การถดถอยที่ใช้เมื่อแปลงแบบจำลองเป็นตัวแยกประเภทไบนารี (0 และตัวเลขบวกจะถูกแมปกับคำตอบ "ใช่" หรือ "+1" และตัวเลขลบเป็นคำตอบ "ไม่" หรือ "- 1”) แผนที่อาจมีความซับซ้อนมากขึ้นและปรับให้เข้ากับกรณีการใช้งาน ตัวอย่างเช่น คุณอาจตัดสินใจว่าการทำนายปริมาณน้ำฝนที่เกินกว่า 5 มล. จะถือเป็น "วันฝนตก" และอะไรก็ตามที่ต่ำกว่านั้นจะทำนายสิ่งที่ตรงกันข้าม
การวิเคราะห์จำแนก
การวิเคราะห์จำแนกเชิงเส้น (LDA) เป็นอีกหนึ่งตัวทำนายเชิงเส้นที่สำคัญที่ใช้ในการจำแนกประเภท LDA ทำงานโดยการค้นหาชุดค่าผสมเชิงเส้นของฟีเจอร์ที่แยกคลาสต่างๆ ได้ดีที่สุด โดยถือว่าการสังเกตมีความเป็นอิสระและกระจายตามปกติ แม้ว่า LDA มักใช้ในการลดขนาด แต่ก็ยังเป็นเครื่องมือจำแนกประเภทที่มีประสิทธิภาพซึ่งกำหนดการสังเกตให้กับคลาสต่างๆ โดยใช้ฟังก์ชันจำแนกประเภท ซึ่งเป็นฟังก์ชันที่วัดความแตกต่างระหว่างคลาสต่างๆ
การจำแนกแบบเบย์
อัลกอริธึมการจำแนกประเภทแบบเบย์ใช้ทฤษฎีบทของเบย์ในการคำนวณความน่าจะเป็นหลังของแต่ละคลาสโดยพิจารณาจากข้อมูลที่สังเกตได้ อัลกอริธึมเหล่านี้จะถือว่าคุณสมบัติทางสถิติบางอย่างของข้อมูล และประสิทธิภาพขึ้นอยู่กับว่าสมมติฐานเหล่านี้ยึดถือได้ดีเพียงใด ตัวอย่างเช่น Naive Bayes ถือว่าฟีเจอร์นั้นมีความเป็นอิสระตามเงื่อนไขตามคลาส
การจำแนกประเภท k-NN
อัลกอริธึม k-nearest Neighbor (k-NN) เป็นวิธีการจำแนกประเภทที่ใช้กันอย่างแพร่หลายอีกวิธีหนึ่ง แม้ว่าจะสามารถนำไปใช้กับงานการถดถอยและการจัดหมวดหมู่ได้ แต่ก็มักใช้สำหรับการจัดหมวดหมู่ อัลกอริธึมจะกำหนดคลาสให้กับจุดข้อมูลใหม่ตามคลาสของเพื่อนบ้านที่ใกล้ที่สุด k (โดยที่ k คือตัวแปร) โดยใช้การคำนวณระยะทางเพื่อกำหนดความใกล้เคียง อัลกอริธึม k-NN นั้นเรียบง่าย มีประสิทธิภาพ และประสิทธิผลเมื่อมีโครงสร้างภายในเครื่องในข้อมูล ประสิทธิภาพขึ้นอยู่กับการเลือกตัวชี้วัดระยะทางที่เหมาะสมและมั่นใจว่าข้อมูลมีรูปแบบเฉพาะที่สามารถช่วยในการจำแนกประเภทได้
ต้นไม้ตัดสินใจและป่าสุ่ม
แผนผังการตัดสินใจเป็นอัลกอริทึมยอดนิยมที่ใช้สำหรับงานจำแนกประเภท โดยทำงานโดยการแบ่งข้อมูลแบบวนซ้ำตามค่าคุณลักษณะเพื่อตัดสินใจว่าการสังเกตที่กำหนดนั้นอยู่ในคลาสใด อย่างไรก็ตาม แผนผังการตัดสินใจมีแนวโน้มที่จะพอดีกับข้อมูลการฝึกอบรมมากเกินไป ดักจับสัญญาณรบกวน และนำไปสู่ความแปรปรวนสูง การติดตั้งมากเกินไปนี้ส่งผลให้มีการสรุปข้อมูลใหม่ได้ไม่ดี
เพื่อบรรเทาปัญหา overfitting มีการใช้ป่าสุ่มเป็นวิธีการทั้งมวล ฟอเรสต์แบบสุ่มจะฝึกแผนผังการตัดสินใจหลายรายการพร้อมกันบนชุดย่อยแบบสุ่มของข้อมูล และต้นไม้แต่ละต้นจะทำการทำนายของตัวเอง การทำนายขั้นสุดท้ายทำได้โดยการรวบรวมการทำนายของต้นไม้ทั้งหมด โดยทั่วไปผ่านการลงคะแนนเสียงข้างมาก กระบวนการนี้เรียกว่า "การบรรจุถุง" (คำย่อสำหรับการรวมบูตสแตรป) ช่วยลดความแปรปรวนและปรับปรุงความสามารถของโมเดลในการสรุปข้อมูลทั่วไปกับข้อมูลที่มองไม่เห็น ป่าสุ่มมีประสิทธิภาพในการสร้างสมดุลระหว่างอคติและความแปรปรวน ทำให้เป็นอัลกอริธึมที่มีประสิทธิภาพสำหรับงานจำแนกประเภท
การประยุกต์การจำแนกประเภท
อัลกอริธึมการจำแนกประเภทถูกนำมาใช้กันอย่างแพร่หลายในด้านต่างๆ เพื่อแก้ไขปัญหาในโลกแห่งความเป็นจริงโดยการจัดหมวดหมู่ข้อมูลออกเป็นกลุ่มที่กำหนดไว้ล่วงหน้า ด้านล่างนี้คือการประยุกต์ใช้การจัดประเภททั่วไปบางส่วน รวมถึงการจดจำใบหน้า การจัดประเภทเอกสาร และการทำนายพฤติกรรมลูกค้า
การจดจำใบหน้า
ระบบจดจำใบหน้าจะจับคู่ใบหน้าในวิดีโอหรือภาพถ่ายแบบเรียลไทม์กับฐานข้อมูลของใบหน้าที่รู้จัก มักใช้สำหรับการรับรองความถูกต้อง
ตัวอย่างเช่น ระบบปลดล็อคโทรศัพท์จะเริ่มต้นด้วยการใช้ระบบตรวจจับใบหน้า ซึ่งจะถ่ายภาพความละเอียดต่ำจากกล้องที่หันหน้าไปทางใบหน้าทุกๆ สองสามวินาที จากนั้นอนุมานได้ว่ามีใบหน้าอยู่ในภาพหรือไม่ ระบบตรวจจับใบหน้าอาจเป็นเครื่องแยกประเภทไบนารี่ที่ได้รับการฝึกอบรมมาเป็นอย่างดีและกระตือรือร้นที่จะตอบคำถามที่ว่า “มีใบหน้าอยู่หรือไม่”
ตัวแยกประเภทที่ขี้เกียจจะติดตามความกระตือรือร้นที่ว่า “มีใบหน้าไหม?” ลักษณนาม มันจะใช้รูปถ่ายและเซลฟี่ทั้งหมดของเจ้าของโทรศัพท์เพื่อดำเนินงานจำแนกไบนารีแยกต่างหากและตอบคำถาม “ใบหน้านี้เป็นของบุคคลที่ได้รับอนุญาตให้ปลดล็อคโทรศัพท์หรือไม่” หากคำตอบคือใช่ โทรศัพท์จะปลดล็อค ถ้าคำตอบคือไม่ มันก็จะไม่
การจำแนกประเภทเอกสาร
การจัดประเภทเอกสารเป็นส่วนสำคัญของกลยุทธ์การจัดการข้อมูลสมัยใหม่ ตัวแยกประเภทที่ใช้ ML แค็ตตาล็อกและจัดประเภทเอกสารที่เก็บไว้จำนวนมาก รองรับการจัดทำดัชนีและการค้นหาที่ทำให้เอกสารและเนื้อหามีประโยชน์มากขึ้น
งานจำแนกประเภทเอกสารเริ่มต้นด้วยการประมวลผลเอกสารล่วงหน้า เนื้อหาได้รับการวิเคราะห์และแปลงเป็นการแสดงตัวเลข (เนื่องจากตัวเลขประมวลผลได้ง่ายกว่า) คุณสมบัติที่สำคัญของเอกสาร เช่น สมการทางคณิตศาสตร์ รูปภาพที่ฝัง และภาษาของเอกสาร จะถูกแยกออกจากเอกสารและไฮไลต์เพื่อให้อัลกอริทึม ML เรียนรู้ ตามด้วยงานการประมวลผลอื่นๆ ที่คล้ายกันในลักษณะเดียวกัน
จากนั้นชุดย่อยของเอกสารจะถูกจำแนกด้วยมือโดยมนุษย์ เพื่อสร้างชุดข้อมูลการฝึกอบรมสำหรับระบบการจำแนกประเภท เมื่อผ่านการฝึกอบรมแล้ว ตัวแยกประเภทจะจัดทำแคตตาล็อกและจัดประเภทเอกสารขาเข้าทั้งหมดอย่างรวดเร็วและทุกขนาด หากตรวจพบข้อผิดพลาดในการจำแนกประเภท คุณสามารถเพิ่มการแก้ไขด้วยตนเองลงในเอกสารการฝึกอบรมสำหรับระบบ ML ได้ ในบางครั้ง โมเดลตัวจําแนกสามารถถูกฝึกใหม่โดยเพิ่มการแก้ไขเข้าไป และประสิทธิภาพของโมเดลจะดีขึ้น
การทำนายพฤติกรรมลูกค้า
ร้านค้าปลีกและอีคอมเมิร์ซออนไลน์รวบรวมข้อมูลที่ละเอียดและละเอียดเกี่ยวกับพฤติกรรมของลูกค้า ข้อมูลนี้สามารถใช้เพื่อจัดหมวดหมู่ลูกค้าใหม่และตอบคำถามเช่น “ลูกค้าใหม่นี้มีแนวโน้มที่จะซื้อสินค้าหรือไม่” และ “การเสนอส่วนลด 25% จะส่งผลต่อพฤติกรรมการซื้อของลูกค้ารายนี้หรือไม่”
ตัวแยกประเภทได้รับการฝึกอบรมโดยใช้ข้อมูลจากลูกค้าเดิมและพฤติกรรมสุดท้ายของลูกค้า เช่น พวกเขาทำการซื้อหรือไม่ เมื่อลูกค้าใหม่โต้ตอบกับแพลตฟอร์ม โมเดลนี้สามารถคาดเดาได้ว่าพวกเขาจะซื้อสินค้าหรือไม่และเมื่อใด นอกจากนี้ยังสามารถทำการวิเคราะห์แบบ what-if เพื่อตอบคำถามเช่น “ถ้าฉันเสนอส่วนลด 25% ให้กับผู้ใช้รายนี้ พวกเขาจะซื้อสินค้าหรือไม่”
ข้อดีของการจำแนกประเภท
การจัดหมวดหมู่มีประโยชน์หลายประการในโดเมนการเรียนรู้ของเครื่อง ทำให้เป็นแนวทางที่ใช้กันอย่างแพร่หลายในการแก้ปัญหาการจัดหมวดหมู่ข้อมูล ด้านล่างนี้ เราจะสำรวจข้อดีที่สำคัญบางประการของการจำแนกประเภท รวมถึงความสมบูรณ์ ความยืดหยุ่น และความสามารถในการให้ผลลัพธ์ที่มนุษย์สามารถอ่านได้
ได้ศึกษาและเข้าใจเป็นอย่างดี
การจำแนกประเภทเป็นหนึ่งในปัญหาที่ได้รับการศึกษาและเข้าใจมากที่สุดในโดเมนการเรียนรู้ของเครื่อง ด้วยเหตุนี้ จึงมีชุดเครื่องมือที่สมบูรณ์จำนวนมากสำหรับงานจำแนกประเภท ช่วยให้ผู้ใช้สามารถสมดุลการแลกเปลี่ยนระหว่างความเร็ว ประสิทธิภาพ การใช้ทรัพยากร และข้อกำหนดด้านคุณภาพข้อมูล
เทคนิคมาตรฐาน เช่น เมทริกซ์ความแม่นยำ ความแม่นยำ การเรียกคืน และความสับสน มีไว้สำหรับประเมินประสิทธิภาพของตัวแยกประเภท ด้วยเครื่องมือเหล่านี้ การเลือกระบบการจำแนกประเภทที่เหมาะสมที่สุดสำหรับปัญหาที่กำหนด ประเมินประสิทธิภาพ และปรับปรุงเมื่อเวลาผ่านไปจึงค่อนข้างตรงไปตรงมา
ให้ผลลัพธ์ที่มนุษย์สามารถอ่านได้
ตัวแยกประเภทมักจะยอมให้มีการแลกเปลี่ยนระหว่างอำนาจการทำนายและความสามารถในการอ่านของมนุษย์ โมเดลที่เรียบง่ายและตีความได้มากขึ้น เช่น แผนผังการตัดสินใจหรือการถดถอยโลจิสติก สามารถปรับแต่งเพื่อทำให้พฤติกรรมเข้าใจได้ง่ายขึ้น โมเดลที่สามารถตีความได้เหล่านี้สามารถใช้เพื่อสำรวจคุณสมบัติของข้อมูล ทำให้ผู้ใช้ที่เป็นมนุษย์ได้รับข้อมูลเชิงลึกเกี่ยวกับข้อมูล ข้อมูลเชิงลึกดังกล่าวสามารถเป็นแนวทางในการพัฒนาโมเดลการเรียนรู้ของเครื่องที่ซับซ้อนและแม่นยำยิ่งขึ้น
ข้อเสียของการจำแนกประเภท
แม้ว่าการจัดหมวดหมู่เป็นเครื่องมือที่ทรงพลังในการเรียนรู้ของเครื่อง แต่ก็มาพร้อมกับความท้าทายและข้อจำกัดบางประการ ด้านล่างนี้ เราจะกล่าวถึงข้อเสียที่สำคัญบางประการของการจำแนกประเภท รวมถึงการติดตั้งมากเกินไป การติดตั้งไม่เพียงพอ และความจำเป็นในการประมวลผลข้อมูลการฝึกอบรมล่วงหน้าอย่างครอบคลุม
ฟิตเกิน
เมื่อแบบจำลองการจัดประเภทการฝึก สิ่งสำคัญคือต้องปรับกระบวนการฝึกเพื่อลดโอกาสที่แบบจำลองจะพอดีกับข้อมูลมากเกินไป การติดตั้งมากเกินไปเป็นปัญหาที่แบบจำลองจะจดจำข้อมูลต้นฉบับบางส่วนหรือทั้งหมด แทนที่จะพัฒนาความเข้าใจเชิงนามธรรมเกี่ยวกับความสัมพันธ์ในข้อมูล แบบจำลองที่มีข้อมูลการฝึกอบรมพอดีเกินไปจะทำงานได้ดีเมื่อเห็นข้อมูลใหม่ที่คล้ายกับข้อมูลที่ได้รับการฝึกอย่างใกล้ชิด แต่อาจทำงานได้ไม่ดีโดยทั่วไป
ฟิตติ้งด้านล่าง
ประสิทธิภาพของระบบการจำแนกประเภทขึ้นอยู่กับการมีข้อมูลการฝึกอบรมเพียงพอ และการประยุกต์ใช้กับปัญหาที่ทำงานได้ดีสำหรับอัลกอริธึมการจำแนกประเภทที่เลือก หากมีข้อมูลการฝึกไม่เพียงพอ หรือหากอัลกอริธึมการจำแนกประเภทเฉพาะไม่มีเครื่องมือที่เหมาะสมในการตีความข้อมูลอย่างถูกต้อง โมเดลที่ได้รับการฝึกอาจไม่สามารถเรียนรู้ที่จะคาดการณ์ที่ดีได้ ปรากฏการณ์นี้เรียกว่า มีเทคนิคมากมายในการพยายามบรรเทาภาวะ underfitting และการใช้อย่างถูกต้องไม่ใช่เรื่องง่ายเสมอไป
การประมวลผลข้อมูลการฝึกอบรมล่วงหน้า
ระบบการจำแนกประเภทจำนวนมากมีข้อกำหนดที่ค่อนข้างเข้มงวดสำหรับโครงสร้างข้อมูลและการจัดรูปแบบ ประสิทธิภาพของพวกเขามักจะมีความสัมพันธ์อย่างใกล้ชิดกับประสิทธิภาพในการประมวลผลข้อมูลก่อนที่จะเปิดเผยหรือฝึกอบรม เป็นผลให้ระบบการจำแนกประเภทสามารถเข้มงวดและไม่ยืดหยุ่นได้ โดยมีขอบเขตที่เข้มงวดเกี่ยวกับปัญหาและบริบทของข้อมูลที่เหมาะสมที่สุด