แผนผังการตัดสินใจในการเรียนรู้ของเครื่องคืออะไร?

เผยแพร่แล้ว: 2024-08-14

แผนผังการตัดสินใจเป็นหนึ่งในเครื่องมือที่พบบ่อยที่สุดในชุดเครื่องมือแมชชีนเลิร์นนิงของนักวิเคราะห์ข้อมูล ในคู่มือนี้ คุณจะได้เรียนรู้ว่าแผนผังการตัดสินใจคืออะไร วิธีการสร้างแผนผังเหล่านี้ แอปพลิเคชันต่างๆ สิทธิประโยชน์ และอื่นๆ อีกมากมาย

สารบัญ

  • ต้นไม้การตัดสินใจคืออะไร?
  • คำศัพท์เกี่ยวกับแผนผังการตัดสินใจ
  • ประเภทของแผนผังการตัดสินใจ
  • ต้นไม้การตัดสินใจทำงานอย่างไร
  • การใช้งาน
  • ข้อดี
  • ข้อเสีย

ต้นไม้การตัดสินใจคืออะไร?

ในแมชชีนเลิร์นนิง (ML) แผนผังการตัดสินใจคืออัลกอริธึมการเรียนรู้แบบมีผู้สอนที่มีลักษณะคล้ายผังงานหรือแผนภูมิการตัดสินใจ แตกต่างจากอัลกอริธึมการเรียนรู้ภายใต้การดูแลอื่นๆ แผนผังการตัดสินใจสามารถใช้ได้ทั้งงานจำแนกประเภทและงานการถดถอย นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์มักใช้แผนผังการตัดสินใจเมื่อสำรวจชุดข้อมูลใหม่ เนื่องจากสร้างและตีความได้ง่าย นอกจากนี้ แผนผังการตัดสินใจสามารถช่วยระบุคุณลักษณะข้อมูลที่สำคัญที่อาจเป็นประโยชน์เมื่อใช้อัลกอริธึม ML ที่ซับซ้อนมากขึ้น

แผนผังการตัดสินใจในแมชชีนเลิร์นนิง

คำศัพท์เกี่ยวกับแผนผังการตัดสินใจ

โครงสร้างต้นไม้การตัดสินใจโดยทั่วไปประกอบด้วยสามองค์ประกอบ: โหนดรูท โหนดลีฟ และโหนดการตัดสินใจ (หรือภายใน) เช่นเดียวกับผังงานหรือแผนภูมิต้นไม้ในโดเมนอื่น การตัดสินใจในแผนภูมิมักจะเคลื่อนที่ไปในทิศทางเดียว (ลงหรือขึ้น) เริ่มต้นจากโหนดราก ผ่านโหนดการตัดสินใจบางโหนด และสิ้นสุดที่โหนดปลายสุดเฉพาะ แต่ละโหนดปลายสุดจะเชื่อมต่อชุดย่อยของข้อมูลการฝึกเข้ากับป้ายกำกับ แผนผังนี้ประกอบขึ้นผ่านการฝึกอบรม ML และกระบวนการเพิ่มประสิทธิภาพ และเมื่อสร้างขึ้นแล้ว ก็สามารถนำไปใช้กับชุดข้อมูลต่างๆ ได้

ต่อไปนี้คือการเจาะลึกคำศัพท์ส่วนที่เหลือ:

  • โหนดราก:โหนดที่เก็บคำถามชุดแรกซึ่งแผนผังการตัดสินใจจะถามเกี่ยวกับข้อมูล โหนดจะเชื่อมต่อกับโหนดการตัดสินใจหรือโหนดปลายสุดอย่างน้อยหนึ่งรายการ (แต่โดยปกติแล้วจะมีสองรายการขึ้นไป)
  • โหนดการตัดสินใจ (หรือโหนดภายใน):โหนดเพิ่มเติมที่มีคำถาม โหนดการตัดสินใจจะมีคำถามหนึ่งข้อเกี่ยวกับข้อมูลและกำหนดทิศทางกระแสข้อมูลไปยังหนึ่งในรายการย่อยตามการตอบสนอง
  • ลูก:โหนดตั้งแต่หนึ่งโหนดขึ้นไปที่รูทหรือโหนดการตัดสินใจชี้ไป แสดงรายการตัวเลือกถัดไปที่กระบวนการตัดสินใจสามารถนำมาใช้ในการวิเคราะห์ข้อมูล
  • โหนดใบ (หรือโหนดปลายทาง):โหนดที่ระบุว่ากระบวนการตัดสินใจเสร็จสมบูรณ์แล้ว เมื่อกระบวนการตัดสินใจไปถึงโหนดปลายสุด มันจะคืนค่าจากโหนดปลายสุดเป็นเอาต์พุต
  • ป้ายกำกับ (คลาส หมวดหมู่):โดยทั่วไปแล้ว สตริงที่เชื่อมโยงโดยโหนดปลายสุดที่มีข้อมูลการฝึกบางส่วน ตัวอย่างเช่น ใบไม้อาจเชื่อมโยงป้ายกำกับ "ลูกค้าที่พึงพอใจ" กับกลุ่มลูกค้าเฉพาะเจาะจงที่มีการนำเสนออัลกอริทึมการฝึกอบรม ML แบบแผนผังการตัดสินใจ
  • สาขา (หรือแผนผังย่อย):นี่คือชุดของโหนดที่ประกอบด้วยโหนดการตัดสินใจที่จุดใดก็ได้ในแผนผัง ร่วมกับโหนดย่อยทั้งหมดและโหนดย่อยของพวกเขา ไปจนถึงโหนดใบ
  • การตัดแต่งกิ่ง:โดยทั่วไปแล้วการดำเนินการปรับให้เหมาะสมจะดำเนินการบนแผนผังเพื่อให้มีขนาดเล็กลงและช่วยให้ส่งกลับเอาต์พุตได้เร็วขึ้น การตัดแต่งกิ่งมักหมายถึง "หลังการตัดแต่งกิ่ง" ซึ่งเกี่ยวข้องกับการลบโหนดหรือกิ่งก้านออกตามอัลกอริทึมหลังจากกระบวนการฝึกอบรม ML ได้สร้างแผนภูมิแล้ว “การตัดแต่งกิ่งล่วงหน้า” หมายถึงการกำหนดขีดจำกัดตามอำเภอใจว่าต้นไม้ตัดสินใจจะเติบโตได้ลึกหรือใหญ่เพียงใดในระหว่างการฝึกอบรม ทั้งสองกระบวนการบังคับใช้ความซับซ้อนสูงสุดสำหรับแผนผังการตัดสินใจ ซึ่งโดยปกติจะวัดจากความลึกหรือความสูงสูงสุด การปรับปรุงประสิทธิภาพทั่วไปที่น้อยกว่า ได้แก่ การจำกัดจำนวนสูงสุดของโหนดการตัดสินใจหรือโหนดปลายสุด
  • การแยกส่วน:ขั้นตอนการเปลี่ยนแปลงหลักดำเนินการบนแผนผังการตัดสินใจระหว่างการฝึกอบรม มันเกี่ยวข้องกับการแบ่งรูทหรือโหนดการตัดสินใจออกเป็นสองโหนดย่อยขึ้นไป
  • การจัดหมวดหมู่:อัลกอริธึม ML ที่พยายามค้นหาว่า (จากรายการคลาส หมวดหมู่ หรือป้ายกำกับใดที่คงที่และไม่ต่อเนื่องกัน) มีแนวโน้มมากที่สุดที่จะนำไปใช้กับข้อมูลชิ้นหนึ่ง อาจพยายามตอบคำถามเช่น “วันไหนในสัปดาห์ที่ดีที่สุดสำหรับการจองเที่ยวบิน” เพิ่มเติมเกี่ยวกับการจำแนกประเภทด้านล่าง
  • การถดถอย:อัลกอริธึม ML ที่พยายามทำนายค่าต่อเนื่องซึ่งอาจไม่มีขอบเขตเสมอไป ระบบอาจพยายามตอบ (หรือคาดเดาคำตอบ) สำหรับคำถาม เช่น “วันอังคารหน้ามีคนจองเที่ยวบินกี่คน” เราจะพูดถึงแผนผังการถดถอยเพิ่มเติมในหัวข้อถัดไป

ทำงานอย่างชาญฉลาดยิ่งขึ้นด้วย Grammarly
คู่หูการเขียน AI สำหรับใครก็ตามที่มีงานทำ

ประเภทของแผนผังการตัดสินใจ

โดยทั่วไปแผนผังการตัดสินใจจะถูกจัดกลุ่มเป็นสองประเภท: ต้นไม้การจำแนกประเภทและต้นไม้การถดถอย แผนผังเฉพาะอาจถูกสร้างขึ้นเพื่อนำไปใช้กับการจำแนกประเภท การถดถอย หรือทั้งสองกรณีการใช้งาน แผนผังการตัดสินใจสมัยใหม่ส่วนใหญ่ใช้อัลกอริธึม CART (Classification and Regression Trees) ซึ่งสามารถทำงานทั้งสองประเภทได้

ต้นไม้จำแนกประเภท

ต้นไม้การจำแนกประเภท ซึ่งเป็นประเภทต้นไม้ตัดสินใจที่พบบ่อยที่สุด พยายามแก้ไขปัญหาการจำแนกประเภท จากรายการคำตอบที่เป็นไปได้สำหรับคำถาม (มักง่ายอย่าง "ใช่" หรือ "ไม่ใช่") แผนผังการจำแนกประเภทจะเลือกคำตอบที่น่าจะเป็นไปได้มากที่สุดหลังจากถามคำถามเกี่ยวกับข้อมูลที่นำเสนอ โดยปกติแล้วจะถูกนำไปใช้เป็นต้นไม้ไบนารี ซึ่งหมายความว่าแต่ละโหนดการตัดสินใจมีลูกสองคนพอดี

แผนผังการจำแนกประเภทอาจพยายามตอบคำถามแบบปรนัย เช่น "ลูกค้ารายนี้พอใจหรือไม่" หรือ "ลูกค้ารายนี้มีแนวโน้มว่าจะเข้าเยี่ยมชมร้านค้าใด" หรือ “พรุ่งนี้จะเป็นวันดีไปสนามกอล์ฟไหม?”

วิธีทั่วไปสองวิธีในการวัดคุณภาพของแผนผังการจำแนกประเภทนั้นขึ้นอยู่กับข้อมูลที่ได้รับและเอนโทรปี:

  • ข้อมูลที่ได้รับ:ประสิทธิภาพของต้นไม้จะเพิ่มขึ้นเมื่อถามคำถามน้อยลงก่อนที่จะได้คำตอบ ข้อมูลที่ได้รับจะวัดว่าต้นไม้สามารถบรรลุคำตอบ "อย่างรวดเร็ว" ได้อย่างไรโดยการประเมินว่ามีการเรียนรู้ข้อมูลเพิ่มเติมเกี่ยวกับข้อมูลแต่ละชิ้นในแต่ละโหนดการตัดสินใจมากขึ้นเพียงใด จะประเมินว่าคำถามที่สำคัญและมีประโยชน์ที่สุดจะถูกถามเป็นลำดับแรกในแผนผังหรือไม่
  • เอนโทรปี:ความแม่นยำถือเป็นสิ่งสำคัญสำหรับฉลากแผนผังการตัดสินใจ ตัวชี้วัดเอนโทรปีวัดความแม่นยำนี้โดยการประเมินฉลากที่ต้นไม้สร้างขึ้น พวกเขาประเมินความถี่ที่ข้อมูลแบบสุ่มลงเอยด้วยป้ายกำกับที่ไม่ถูกต้อง และความคล้ายคลึงกันระหว่างข้อมูลการฝึกอบรมทั้งหมดที่ได้รับป้ายกำกับเดียวกัน

การวัดคุณภาพต้นไม้ขั้นสูงเพิ่มเติม ได้แก่ดัชนีจินีอัตราส่วนกำไรการประเมินไคสแควร์และการวัดต่างๆ สำหรับการลดความแปรปรวน

ต้นไม้ถดถอย

โดยทั่วไปแผนผังการถดถอยจะใช้ในการวิเคราะห์การถดถอยสำหรับการวิเคราะห์ทางสถิติขั้นสูง หรือเพื่อคาดการณ์ข้อมูลจากช่วงที่ต่อเนื่องและอาจไม่มีขอบเขต เมื่อพิจารณาตัวเลือกที่ต่อเนื่องกัน (เช่น จากศูนย์ถึงอนันต์ในระดับจำนวนจริง) แผนผังการถดถอยจะพยายามทำนายการจับคู่ที่น่าจะเป็นไปได้มากที่สุดสำหรับข้อมูลที่กำหนดหลังจากถามคำถามหลายชุด คำถามแต่ละข้อจะจำกัดขอบเขตของคำตอบที่เป็นไปได้ให้แคบลง ตัวอย่างเช่น แผนผังการถดถอยอาจใช้เพื่อคาดการณ์คะแนนเครดิต รายได้จากสายธุรกิจ หรือจำนวนการโต้ตอบในวิดีโอการตลาด

ความแม่นยำของแผนผังการถดถอยมักจะประเมินโดยใช้หน่วยเมตริก เช่นค่าคลาดเคลื่อนกำลังสองเฉลี่ยหรือค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ยซึ่งจะคำนวณว่าค่าคาดการณ์ชุดหนึ่งๆ อยู่ไกลจากค่าจริงมากน้อยเพียงใด

ต้นไม้การตัดสินใจทำงานอย่างไร

ตัวอย่างของการเรียนรู้แบบมีผู้สอน แผนผังการตัดสินใจอาศัยข้อมูลที่จัดรูปแบบอย่างดีสำหรับการฝึกอบรม ข้อมูลต้นฉบับมักประกอบด้วยรายการค่าที่แบบจำลองควรเรียนรู้ที่จะคาดการณ์หรือจัดประเภท แต่ละค่าควรมีป้ายกำกับที่แนบมาและรายการคุณลักษณะที่เกี่ยวข้อง ซึ่งเป็นคุณสมบัติที่แบบจำลองควรเรียนรู้ที่จะเชื่อมโยงกับป้ายกำกับ

อาคารหรือการฝึกอบรม

ในระหว่างกระบวนการฝึกอบรม โหนดการตัดสินใจในแผนผังการตัดสินใจจะถูกแบ่งแบบวนซ้ำเป็นโหนดที่เฉพาะเจาะจงมากขึ้นตามอัลกอริธึมการฝึกอบรมหนึ่งรายการขึ้นไป คำอธิบายระดับมนุษย์ของกระบวนการอาจมีลักษณะดังนี้:

  • เริ่มต้นด้วยโหนดรูทที่เชื่อมต่อกับชุดการฝึกทั้งหมด
  • การแยกโหนดรูท:ใช้แนวทางทางสถิติ กำหนดการตัดสินใจให้กับโหนดรูทตามคุณลักษณะข้อมูลอย่างใดอย่างหนึ่ง และกระจายข้อมูลการฝึกไปยังลีฟโหนดที่แยกจากกันอย่างน้อยสองโหนด ซึ่งเชื่อมต่อแบบลูกกับรูท
  • ใช้ขั้นตอนที่สองซ้ำกับเด็กแต่ละคน เปลี่ยนจากโหนดใบเป็นโหนดการตัดสินใจ หยุดเมื่อถึงขีดจำกัด (เช่น ความสูง/ความลึกของต้นไม้ การวัดคุณภาพของลูกในแต่ละลีฟที่แต่ละโหนด ฯลฯ) หรือหากข้อมูลของคุณหมด (เช่น แต่ละลีฟมีข้อมูล จุดที่เกี่ยวข้องกับป้ายกำกับเดียว)

การตัดสินใจเลือกคุณลักษณะที่จะพิจารณาในแต่ละโหนดจะแตกต่างกันไปตามการจัดหมวดหมู่ การถดถอย และกรณีการใช้งานการจัดหมวดหมู่และการถดถอยแบบรวม มีอัลกอริธึมมากมายให้เลือกสำหรับแต่ละสถานการณ์ อัลกอริธึมทั่วไป ได้แก่:

  • ID3 (การจำแนกประเภท):ปรับเอนโทรปีและการรับข้อมูลให้เหมาะสม
  • C4.5 (การจัดหมวดหมู่):ID3 เวอร์ชันที่ซับซ้อนมากขึ้น เพิ่มการทำให้เป็นมาตรฐานในการรับข้อมูล
  • CART (การจำแนกประเภท/การถดถอย): “แผนผังการจำแนกและการถดถอย”; อัลกอริธึมโลภที่ปรับให้เหมาะสมเพื่อความเจือปนขั้นต่ำในชุดผลลัพธ์
  • CHAID (การจำแนกประเภท/การถดถอย): “การตรวจจับการโต้ตอบอัตโนมัติของไคสแควร์”; ใช้การวัดไคสแควร์แทนเอนโทรปีและการรับข้อมูล
  • MARS (การจำแนกประเภท/การถดถอย): ใช้การประมาณเชิงเส้นแบบเป็นชิ้นๆ เพื่อจับภาพความไม่เชิงเส้น

ระบอบการฝึกอบรมทั่วไปคือป่าสุ่ม ฟอเรสต์สุ่ม หรือฟอเรสต์การตัดสินใจแบบสุ่ม เป็นระบบที่สร้างแผนผังการตัดสินใจที่เกี่ยวข้องกันมากมาย ทรีหลายเวอร์ชันอาจถูกฝึกแบบคู่ขนานโดยใช้อัลกอริธึมการฝึกผสมกัน จากการวัดคุณภาพต้นไม้ต่างๆ เซตย่อยของต้นไม้เหล่านี้จะถูกนำมาใช้ในการสร้างคำตอบ สำหรับกรณีการใช้งานการจำแนกประเภท คลาสที่เลือกโดยต้นไม้จำนวนมากที่สุดจะถูกส่งกลับเป็นคำตอบ สำหรับกรณีการใช้งานการถดถอย คำตอบจะถูกรวมเข้าด้วยกัน โดยปกติจะเป็นค่าเฉลี่ยหรือการทำนายโดยเฉลี่ยของต้นไม้แต่ละต้น

การประเมินและการใช้แผนผังการตัดสินใจ

เมื่อสร้างแผนผังการตัดสินใจแล้ว จะสามารถจัดประเภทข้อมูลใหม่หรือคาดการณ์ค่าสำหรับกรณีการใช้งานเฉพาะได้ สิ่งสำคัญคือต้องเก็บเกณฑ์ชี้วัดประสิทธิภาพของแผนภูมิไว้และใช้เพื่อประเมินความแม่นยำและความถี่ของข้อผิดพลาด หากโมเดลเบี่ยงเบนไปจากประสิทธิภาพที่คาดไว้มากเกินไป อาจถึงเวลาที่ต้องฝึกโมเดลใหม่กับข้อมูลใหม่ หรือค้นหาระบบ ML อื่นๆ เพื่อนำไปใช้กับกรณีการใช้งานนั้น

การประยุกต์แผนผังการตัดสินใจใน ML

แผนผังการตัดสินใจมีการใช้งานที่หลากหลายในสาขาต่างๆ นี่คือตัวอย่างบางส่วนที่แสดงให้เห็นถึงความเก่งกาจของพวกเขา:

ข้อมูลการตัดสินใจส่วนบุคคล

บุคคลอาจติดตามข้อมูลเกี่ยวกับร้านอาหารที่พวกเขาเคยไป พวกเขาอาจติดตามรายละเอียดที่เกี่ยวข้อง เช่น เวลาเดินทาง เวลารอ อาหารที่นำเสนอ เวลาเปิดทำการ คะแนนรีวิวเฉลี่ย ค่าใช้จ่าย และการเยี่ยมชมครั้งล่าสุด ควบคู่ไปกับคะแนนความพึงพอใจสำหรับการเยี่ยมชมร้านอาหารนั้นของแต่ละบุคคล คุณสามารถฝึกอบรมแผนผังการตัดสินใจเกี่ยวกับข้อมูลนี้เพื่อคาดการณ์คะแนนความพึงพอใจที่น่าจะเป็นไปได้สำหรับร้านอาหารแห่งใหม่

คำนวณความน่าจะเป็นเกี่ยวกับพฤติกรรมของลูกค้า

ระบบสนับสนุนลูกค้าอาจใช้แผนผังการตัดสินใจเพื่อคาดการณ์หรือจำแนกความพึงพอใจของลูกค้า คุณสามารถฝึกแผนผังการตัดสินใจเพื่อคาดการณ์ความพึงพอใจของลูกค้าตามปัจจัยต่างๆ เช่น ลูกค้าติดต่อฝ่ายสนับสนุนหรือทำการซื้อซ้ำ หรือตามการกระทำที่ดำเนินการภายในแอป นอกจากนี้ยังสามารถรวมผลลัพธ์จากการสำรวจความพึงพอใจหรือผลตอบรับของลูกค้าอื่นๆ ได้ด้วย

ช่วยแจ้งการตัดสินใจทางธุรกิจ

สำหรับการตัดสินใจทางธุรกิจบางอย่างซึ่งมีข้อมูลในอดีตมากมาย แผนผังการตัดสินใจสามารถให้ค่าประมาณหรือการคาดการณ์สำหรับขั้นตอนต่อไปได้ ตัวอย่างเช่น ธุรกิจที่รวบรวมข้อมูลประชากรและภูมิศาสตร์เกี่ยวกับลูกค้าสามารถฝึกอบรมโครงสร้างการตัดสินใจเพื่อประเมินสถานที่ตั้งทางภูมิศาสตร์ใหม่แห่งใดที่น่าจะทำกำไรหรือควรหลีกเลี่ยง โครงสร้างการตัดสินใจยังช่วยกำหนดขอบเขตการจำแนกประเภทที่ดีที่สุดสำหรับข้อมูลประชากรที่มีอยู่ เช่น การระบุช่วงอายุที่ต้องพิจารณาแยกกันเมื่อจัดกลุ่มลูกค้า

การเลือกคุณสมบัติสำหรับ ML ขั้นสูงและกรณีการใช้งานอื่นๆ

โครงสร้างแผนผังการตัดสินใจเป็นสิ่งที่มนุษย์สามารถอ่านและเข้าใจได้ เมื่อสร้างแผนผังแล้ว คุณจะสามารถระบุได้ว่าคุณลักษณะใดที่เกี่ยวข้องกับชุดข้อมูลมากที่สุดและอยู่ในลำดับใด ข้อมูลนี้สามารถเป็นแนวทางในการพัฒนาระบบ ML หรืออัลกอริธึมการตัดสินใจที่ซับซ้อนมากขึ้น ตัวอย่างเช่น หากธุรกิจเรียนรู้จากแผนผังการตัดสินใจว่าลูกค้าจัดลำดับความสำคัญของต้นทุนของผลิตภัณฑ์เหนือสิ่งอื่นใด ธุรกิจก็สามารถมุ่งเน้นระบบ ML ที่ซับซ้อนมากขึ้นไปที่ข้อมูลเชิงลึกนี้ หรือเพิกเฉยต่อต้นทุนเมื่อสำรวจคุณลักษณะที่เหมาะสมยิ่งขึ้น

ข้อดีของแผนผังการตัดสินใจใน ML

แผนผังการตัดสินใจมีข้อได้เปรียบที่สำคัญหลายประการ ซึ่งทำให้เป็นตัวเลือกยอดนิยมในแอปพลิเคชัน ML ต่อไปนี้เป็นประโยชน์ที่สำคัญบางประการ:

รวดเร็วและง่ายต่อการสร้าง

แผนผังการตัดสินใจเป็นหนึ่งในอัลกอริธึม ML ที่เติบโตและเป็นที่เข้าใจกันมากที่สุด พวกเขาไม่ได้ขึ้นอยู่กับการคำนวณที่ซับซ้อนเป็นพิเศษ และสามารถสร้างได้อย่างรวดเร็วและง่ายดาย ตราบใดที่ข้อมูลที่ต้องการพร้อมใช้งาน แผนผังการตัดสินใจก็เป็นขั้นตอนแรกง่ายๆ ที่จะดำเนินการเมื่อพิจารณาวิธีแก้ไขปัญหา ML

ง่ายสำหรับมนุษย์ที่จะเข้าใจ

ผลลัพธ์จากแผนผังการตัดสินใจนั้นง่ายต่อการอ่านและตีความ การแสดงแผนภูมิการตัดสินใจแบบกราฟิกไม่ได้ขึ้นอยู่กับความเข้าใจขั้นสูงเกี่ยวกับสถิติ ด้วยเหตุนี้ แผนผังการตัดสินใจและการเป็นตัวแทนจึงสามารถใช้เพื่อตีความ อธิบาย และสนับสนุนผลลัพธ์ของการวิเคราะห์ที่ซับซ้อนมากขึ้น แผนผังการตัดสินใจเป็นเลิศในการค้นหาและเน้นคุณสมบัติระดับสูงบางอย่างของชุดข้อมูลที่กำหนด

ต้องการการประมวลผลข้อมูลน้อยที่สุด

แผนผังการตัดสินใจสามารถสร้างขึ้นได้อย่างง่ายดายเช่นเดียวกับข้อมูลที่ไม่สมบูรณ์หรือข้อมูลที่รวมค่าผิดปกติไว้ด้วย เมื่อข้อมูลที่ตกแต่งด้วยคุณสมบัติที่น่าสนใจ อัลกอริธึมแผนผังการตัดสินใจมักจะไม่ได้รับผลกระทบมากเท่ากับอัลกอริธึม ML อื่นๆ หากข้อมูลเหล่านั้นถูกป้อนข้อมูลที่ไม่ได้รับการประมวลผลล่วงหน้า

ข้อเสียของแผนผังการตัดสินใจใน ML

แม้ว่าแผนผังการตัดสินใจจะมีประโยชน์มากมาย แต่ก็มีข้อเสียหลายประการเช่นกัน:

ไวต่อการติดตั้งมากเกินไป

แผนผังการตัดสินใจมีแนวโน้มที่จะมีการติดตั้งมากเกินไป ซึ่งเกิดขึ้นเมื่อแบบจำลองเรียนรู้สิ่งรบกวนและรายละเอียดในข้อมูลการฝึก ส่งผลให้ประสิทธิภาพของข้อมูลใหม่ลดลง ตัวอย่างเช่น หากข้อมูลการฝึกอบรมไม่สมบูรณ์หรือกระจัดกระจาย การเปลี่ยนแปลงข้อมูลเล็กน้อยสามารถสร้างโครงสร้างต้นไม้ที่แตกต่างกันอย่างมีนัยสำคัญ เทคนิคขั้นสูง เช่น การตัดแต่งกิ่งหรือการตั้งค่าความลึกสูงสุดสามารถปรับปรุงพฤติกรรมของต้นไม้ได้ ในทางปฏิบัติ แผนผังการตัดสินใจมักจำเป็นต้องอัปเดตข้อมูลใหม่ ซึ่งสามารถเปลี่ยนแปลงโครงสร้างได้อย่างมาก

ความสามารถในการขยายขนาดไม่ดี

นอกจากแนวโน้มที่จะพอดีมากเกินไปแล้ว ต้นไม้การตัดสินใจยังต้องต่อสู้กับปัญหาขั้นสูงที่ต้องใช้ข้อมูลมากขึ้นอีกด้วย เมื่อเปรียบเทียบกับอัลกอริธึมอื่นๆ เวลาการฝึกอบรมสำหรับแผนผังการตัดสินใจจะเพิ่มขึ้นอย่างรวดเร็วเมื่อปริมาณข้อมูลเพิ่มขึ้น สำหรับชุดข้อมูลขนาดใหญ่ที่อาจมีคุณสมบัติระดับสูงที่สำคัญให้ตรวจจับ แผนผังการตัดสินใจไม่เหมาะอย่างยิ่ง

ไม่มีประสิทธิภาพสำหรับการถดถอยหรือกรณีการใช้งานต่อเนื่อง

แผนผังการตัดสินใจไม่ได้เรียนรู้การกระจายข้อมูลที่ซับซ้อนเป็นอย่างดี พวกเขาแบ่งพื้นที่ฟีเจอร์ตามเส้นที่เข้าใจง่ายแต่เรียบง่ายทางคณิตศาสตร์ สำหรับปัญหาที่ซับซ้อนซึ่งค่าผิดปกติมีความเกี่ยวข้อง การถดถอย และกรณีการใช้งานต่อเนื่อง สิ่งนี้มักจะแปลเป็นประสิทธิภาพที่แย่กว่าโมเดลและเทคนิค ML อื่นๆ มาก