การถดถอยเชิงเส้นในการเรียนรู้ของเครื่องคืออะไร?
เผยแพร่แล้ว: 2024-09-06การถดถอยเชิงเส้นเป็นเทคนิคพื้นฐานในการวิเคราะห์ข้อมูลและการเรียนรู้ของเครื่อง (ML) คู่มือนี้จะช่วยให้คุณเข้าใจการถดถอยเชิงเส้น วิธีสร้างมัน และประเภท การใช้งาน คุณประโยชน์ และข้อเสีย
สารบัญ
- การถดถอยเชิงเส้นคืออะไร?
- ประเภทของการถดถอยเชิงเส้น
- การถดถอยเชิงเส้นเทียบกับการถดถอยโลจิสติก
- การถดถอยเชิงเส้นทำงานอย่างไร
- การประยุกต์การถดถอยเชิงเส้น
- ข้อดีของการถดถอยเชิงเส้นใน ML
- ข้อเสียของการถดถอยเชิงเส้นใน ML
การถดถอยเชิงเส้นคืออะไร?
การถดถอยเชิงเส้นเป็นวิธีการทางสถิติที่ใช้ในการเรียนรู้ของเครื่องเพื่อสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระหนึ่งตัวขึ้นไป โดยจำลองความสัมพันธ์โดยปรับสมการเชิงเส้นให้เข้ากับข้อมูลที่สังเกตได้ ซึ่งมักจะทำหน้าที่เป็นจุดเริ่มต้นสำหรับอัลกอริทึมที่ซับซ้อนกว่า และมีการใช้กันอย่างแพร่หลายในการวิเคราะห์เชิงคาดการณ์
โดยพื้นฐานแล้ว การถดถอยเชิงเส้นจะจำลองความสัมพันธ์ระหว่างตัวแปรตาม (ผลลัพธ์ที่คุณต้องการคาดการณ์) และตัวแปรอิสระหนึ่งตัวขึ้นไป (คุณลักษณะอินพุตที่คุณใช้ในการทำนาย) โดยการค้นหาเส้นตรงที่เหมาะสมที่สุดผ่านชุดจุดข้อมูล เส้นนี้เรียกว่าเส้นการถดถอยแสดงถึงความสัมพันธ์ระหว่างตัวแปรตาม (ผลลัพธ์ที่เราต้องการทำนาย) และตัวแปรอิสระ (คุณลักษณะอินพุตที่เราใช้ในการทำนาย) สมการสำหรับเส้นการถดถอยเชิงเส้นอย่างง่ายถูกกำหนดเป็น:
y = mx + ค
โดยที่ y คือตัวแปรตาม x คือตัวแปรอิสระ m คือความชันของเส้นตรง และ c คือค่าตัดแกน y สมการนี้ให้แบบจำลองทางคณิตศาสตร์สำหรับการจับคู่อินพุตกับเอาต์พุตที่คาดการณ์ โดยมีเป้าหมายในการลดความแตกต่างระหว่างค่าที่คาดการณ์กับค่าที่สังเกตได้ ซึ่งเรียกว่าค่าคงเหลือ ด้วยการลดสิ่งตกค้างเหล่านี้ การถดถอยเชิงเส้นจะสร้างแบบจำลองที่แสดงถึงข้อมูลได้ดีที่สุด
ตามแนวคิดแล้ว การถดถอยเชิงเส้นสามารถแสดงเป็นภาพโดยการวาดเส้นตรงผ่านจุดต่างๆ บนกราฟเพื่อพิจารณาว่ามีความสัมพันธ์ระหว่างจุดข้อมูลเหล่านั้นหรือไม่ แบบจำลองการถดถอยเชิงเส้นในอุดมคติสำหรับชุดจุดข้อมูลคือเส้นที่ประมาณค่าของทุกจุดในชุดข้อมูลได้ดีที่สุด
ประเภทของการถดถอยเชิงเส้น
การถดถอยเชิงเส้นมีสองประเภทหลัก:การถดถอยเชิงเส้นอย่างง่ายและการถดถอยเชิงเส้นพหุคูณ
การถดถอยเชิงเส้นอย่างง่าย
การถดถอยเชิงเส้นอย่างง่ายจำลองความสัมพันธ์ระหว่างตัวแปรอิสระตัวเดียวและตัวแปรตามโดยใช้เส้นตรง สมการสำหรับการถดถอยเชิงเส้นอย่างง่ายคือ:
y = mx + ค
โดยที่ y คือตัวแปรตาม x คือตัวแปรอิสระ m คือความชันของเส้นตรง และ c คือค่าตัดแกน y
วิธีนี้เป็นวิธีที่ตรงไปตรงมาในการรับข้อมูลเชิงลึกที่ชัดเจนเมื่อต้องรับมือกับสถานการณ์ที่มีตัวแปรเดียว ลองไปพบแพทย์เพื่อทำความเข้าใจว่าส่วนสูงของผู้ป่วยส่งผลต่อน้ำหนักอย่างไร ด้วยการวางแผนตัวแปรแต่ละตัวบนกราฟและค้นหาเส้นที่เหมาะสมที่สุดโดยใช้การถดถอยเชิงเส้นอย่างง่าย แพทย์สามารถทำนายน้ำหนักของผู้ป่วยตามส่วนสูงเพียงอย่างเดียวได้
การถดถอยเชิงเส้นพหุคูณ
การถดถอยเชิงเส้นพหุคูณขยายแนวคิดของการถดถอยเชิงเส้นอย่างง่ายเพื่อรองรับตัวแปรมากกว่าหนึ่งตัว ช่วยให้วิเคราะห์ได้ว่าปัจจัยหลายประการส่งผลต่อตัวแปรตามอย่างไร สมการสำหรับการถดถอยเชิงเส้นพหุคูณคือ:
y = ข 0 + ข 1 x 1 + ข 2 x 2 + … + ข n x n
โดยที่ y คือตัวแปรตาม x 1 , x 2 , …, xn คือตัวแปรอิสระ และ b 1 , b 2 , …, bn คือสัมประสิทธิ์ที่อธิบายความสัมพันธ์ระหว่างตัวแปรอิสระแต่ละตัวและตัวแปรตาม
ตัวอย่างเช่น พิจารณาตัวแทนอสังหาริมทรัพย์ที่ต้องการประมาณราคาบ้าน เจ้าหน้าที่สามารถใช้การถดถอยเชิงเส้นอย่างง่ายโดยอิงตามตัวแปรตัวเดียว เช่น ขนาดของบ้านหรือรหัสไปรษณีย์ แต่แบบจำลองนี้จะง่ายเกินไป เนื่องจากราคาที่อยู่อาศัยมักถูกขับเคลื่อนโดยปัจจัยหลายอย่างที่ซับซ้อนซึ่งมีอิทธิพลซึ่งกันและกัน การถดถอยเชิงเส้นพหุคูณที่รวมตัวแปรต่างๆ เช่น ขนาดของบ้าน บริเวณใกล้เคียง และจำนวนห้องนอน เข้าด้วยกัน น่าจะให้แบบจำลองการทำนายที่แม่นยำยิ่งขึ้น
การถดถอยเชิงเส้นเทียบกับการถดถอยโลจิสติก
การถดถอยเชิงเส้นมักสับสนกับการถดถอยโลจิสติก แม้ว่าการถดถอยเชิงเส้นจะทำนายผลลัพธ์ของตัวแปร ต่อเนื่องการถดถอยแบบโลจิสติกจะใช้เมื่อตัวแปรตามเป็นแบบหมวดหมู่ซึ่งมักเป็นแบบไบนารี (ใช่หรือไม่ใช่) ตัวแปรหมวดหมู่จะกำหนดกลุ่มที่ไม่ใช่ตัวเลขโดยมีจำนวนหมวดหมู่จำกัด เช่น กลุ่มอายุหรือวิธีการชำระเงิน ในทางกลับกัน ตัวแปรต่อเนื่องสามารถรับค่าตัวเลขใดๆ ก็ได้และสามารถวัดได้ ตัวอย่างของตัวแปรต่อเนื่อง ได้แก่ น้ำหนัก ราคา และอุณหภูมิรายวัน
ต่างจากฟังก์ชันเชิงเส้นที่ใช้ในการถดถอยเชิงเส้น การถดถอยโลจิสติกจำลองความน่าจะเป็นของผลลัพธ์ที่เป็นหมวดหมู่โดยใช้เส้นโค้งรูปตัว S ที่เรียกว่าฟังก์ชันลอจิสติก ในตัวอย่างการจำแนกประเภทไบนารี จุดข้อมูลที่อยู่ในหมวดหมู่ "ใช่" จะอยู่ที่ด้านหนึ่งของรูป S ในขณะที่จุดข้อมูลในหมวดหมู่ "ไม่" จะอยู่ที่อีกด้านหนึ่ง ในทางปฏิบัติแล้ว การถดถอยโลจิสติกสามารถใช้เพื่อจำแนกว่าอีเมลเป็นสแปมหรือไม่ หรือคาดการณ์ว่าลูกค้าจะซื้อผลิตภัณฑ์หรือไม่ โดยพื้นฐานแล้ว การถดถอยเชิงเส้นจะใช้สำหรับการทำนายค่าเชิงปริมาณ ในขณะที่การถดถอยโลจิสติกใช้สำหรับงานการจำแนกประเภท
การถดถอยเชิงเส้นทำงานอย่างไร
การถดถอยเชิงเส้นทำงานโดยการค้นหาเส้นที่เหมาะสมที่สุดผ่านชุดจุดข้อมูล กระบวนการนี้เกี่ยวข้องกับ:
1 การเลือกแบบจำลอง:ในขั้นตอนแรก จะมีการเลือกสมการเชิงเส้นที่เหมาะสมเพื่ออธิบายความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ
2 การปรับแบบจำลองให้เหมาะสม:ต่อไป จะใช้เทคนิคที่เรียกว่า กำลังสองน้อยที่สุดสามัญ (OLS) เพื่อลดผลรวมของความแตกต่างกำลังสองระหว่างค่าที่สังเกตได้และค่าที่ทำนายโดยแบบจำลองให้เหลือน้อยที่สุด ซึ่งทำได้โดยการปรับความชันและจุดตัดของเส้นเพื่อหาขนาดที่พอดีที่สุด วัตถุประสงค์ของวิธีนี้คือเพื่อลดข้อผิดพลาดหรือความแตกต่างระหว่างค่าที่คาดการณ์ไว้กับค่าจริงให้เหลือน้อยที่สุด กระบวนการปรับแต่งนี้เป็นส่วนหลักของการเรียนรู้ของเครื่องภายใต้การดูแล ซึ่งโมเดลจะเรียนรู้จากข้อมูลการฝึก
3 การประเมินแบบจำลอง:ในขั้นตอนสุดท้าย คุณภาพของความพอดีจะถูกประเมินโดยใช้หน่วยเมตริก เช่น R-squared ซึ่งวัดสัดส่วนของความแปรปรวนในตัวแปรตามที่สามารถคาดการณ์ได้จากตัวแปรอิสระ กล่าวอีกนัยหนึ่ง R-squared จะวัดว่าข้อมูลเหมาะสมกับแบบจำลองการถดถอยเพียงใด
กระบวนการนี้สร้างโมเดลการเรียนรู้ของเครื่องที่สามารถใช้เพื่อคาดการณ์ตามข้อมูลใหม่ได้
การประยุกต์การถดถอยเชิงเส้นใน ML
ในแมชชีนเลิร์นนิง การถดถอยเชิงเส้นเป็นเครื่องมือที่ใช้กันทั่วไปในการทำนายผลลัพธ์และทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรในสาขาต่างๆ นี่คือตัวอย่างการใช้งานที่โดดเด่นบางส่วน:
การพยากรณ์การใช้จ่ายของผู้บริโภค
ระดับรายได้สามารถใช้ในแบบจำลองการถดถอยเชิงเส้นเพื่อคาดการณ์การใช้จ่ายของผู้บริโภค โดยเฉพาะอย่างยิ่ง การถดถอยเชิงเส้นพหุคูณสามารถรวมปัจจัยต่างๆ เช่น รายได้ในอดีต อายุ และสถานะการจ้างงาน เพื่อให้การวิเคราะห์ที่ครอบคลุม สิ่งนี้สามารถช่วยนักเศรษฐศาสตร์ในการพัฒนานโยบายเศรษฐกิจที่ขับเคลื่อนด้วยข้อมูล และช่วยให้ธุรกิจเข้าใจรูปแบบพฤติกรรมผู้บริโภคได้ดีขึ้น
การวิเคราะห์ผลกระทบทางการตลาด
นักการตลาดสามารถใช้การถดถอยเชิงเส้นเพื่อทำความเข้าใจว่าการใช้จ่ายด้านการโฆษณาส่งผลต่อรายได้จากการขายอย่างไร ด้วยการใช้แบบจำลองการถดถอยเชิงเส้นกับข้อมูลในอดีต จึงสามารถคาดการณ์รายได้จากการขายในอนาคตได้ ช่วยให้นักการตลาดเพิ่มประสิทธิภาพงบประมาณและกลยุทธ์การโฆษณาเพื่อให้เกิดผลกระทบสูงสุด
ทำนายราคาหุ้น
ในโลกการเงิน การถดถอยเชิงเส้นเป็นหนึ่งในหลายวิธีที่ใช้ในการทำนายราคาหุ้น การใช้ข้อมูลหุ้นในอดีตและตัวชี้วัดทางเศรษฐกิจต่างๆ นักวิเคราะห์และนักลงทุนสามารถสร้างแบบจำลองการถดถอยเชิงเส้นหลายแบบที่ช่วยให้พวกเขาตัดสินใจลงทุนได้อย่างชาญฉลาดยิ่งขึ้น
การพยากรณ์สภาพแวดล้อม
ในสาขาวิทยาศาสตร์สิ่งแวดล้อม การถดถอยเชิงเส้นสามารถใช้เพื่อพยากรณ์สภาพแวดล้อมได้ ตัวอย่างเช่น ปัจจัยต่างๆ เช่น ปริมาณการจราจร สภาพอากาศ และความหนาแน่นของประชากร สามารถช่วยคาดการณ์ระดับมลพิษได้ โมเดลแมชชีนเลิร์นนิงเหล่านี้สามารถนำมาใช้โดยผู้กำหนดนโยบาย นักวิทยาศาสตร์ และผู้มีส่วนได้ส่วนเสียอื่นๆ เพื่อทำความเข้าใจและลดผลกระทบของการกระทำต่างๆ ต่อสิ่งแวดล้อม
ข้อดีของการถดถอยเชิงเส้นใน ML
การถดถอยเชิงเส้นมีข้อดีหลายประการที่ทำให้เป็นเทคนิคสำคัญในการเรียนรู้ของเครื่อง
ง่ายต่อการใช้และปฏิบัติ
เมื่อเปรียบเทียบกับเครื่องมือและแบบจำลองทางคณิตศาสตร์ส่วนใหญ่ การถดถอยเชิงเส้นนั้นง่ายต่อการเข้าใจและนำไปใช้ ถือเป็นจุดเริ่มต้นที่ยอดเยี่ยมสำหรับผู้ปฏิบัติงานด้านแมชชีนเลิร์นนิงหน้าใหม่ โดยให้ข้อมูลเชิงลึกและประสบการณ์อันทรงคุณค่าเพื่อเป็นรากฐานสำหรับอัลกอริทึมขั้นสูงยิ่งขึ้น
มีประสิทธิภาพในการคำนวณ
โมเดลการเรียนรู้ของเครื่องอาจต้องใช้ทรัพยากรมาก การถดถอยเชิงเส้นต้องใช้พลังในการคำนวณค่อนข้างต่ำเมื่อเทียบกับอัลกอริธึมหลายๆ ตัว และยังคงสามารถให้ข้อมูลเชิงลึกเชิงคาดการณ์ที่มีความหมายได้
ผลลัพธ์ที่ตีความได้
แบบจำลองทางสถิติขั้นสูง แม้จะทรงพลัง แต่ก็มักจะตีความได้ยาก ด้วยแบบจำลองง่ายๆ เช่น การถดถอยเชิงเส้น ความสัมพันธ์ระหว่างตัวแปรจึงเข้าใจได้ง่าย และผลกระทบของตัวแปรแต่ละตัวจะถูกระบุอย่างชัดเจนด้วยค่าสัมประสิทธิ์
รากฐานสำหรับเทคนิคขั้นสูง
การทำความเข้าใจและการนำการถดถอยเชิงเส้นไปใช้ถือเป็นรากฐานที่มั่นคงสำหรับการสำรวจวิธีการเรียนรู้ของเครื่องขั้นสูงยิ่งขึ้น ตัวอย่างเช่น การถดถอยพหุนามสร้างขึ้นจากการถดถอยเชิงเส้นเพื่ออธิบายความสัมพันธ์ที่ไม่เป็นเชิงเส้นที่ซับซ้อนมากขึ้นระหว่างตัวแปร
ข้อเสียของการถดถอยเชิงเส้นใน ML
แม้ว่าการถดถอยเชิงเส้นเป็นเครื่องมือที่มีค่าในการเรียนรู้ของเครื่อง แต่ก็มีข้อจำกัดที่น่าสังเกตหลายประการ การทำความเข้าใจข้อเสียเหล่านี้เป็นสิ่งสำคัญในการเลือกเครื่องมือแมชชีนเลิร์นนิงที่เหมาะสม
สมมติว่ามีความสัมพันธ์เชิงเส้น
แบบจำลองการถดถอยเชิงเส้นสันนิษฐานว่าความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระนั้นเป็นเชิงเส้น ในสถานการณ์จริงที่ซับซ้อน อาจไม่เป็นเช่นนั้นเสมอไป ตัวอย่างเช่น ความสูงของบุคคลตลอดชีวิตไม่เป็นเชิงเส้น โดยการเติบโตอย่างรวดเร็วที่เกิดขึ้นในวัยเด็กจะช้าลงและหยุดลงเมื่อเข้าสู่วัยผู้ใหญ่ ดังนั้นการคาดการณ์ความสูงโดยใช้การถดถอยเชิงเส้นอาจทำให้การคาดการณ์ไม่ถูกต้อง
ความไวต่อค่าผิดปกติ
ค่าผิดปกติคือจุดข้อมูลที่เบี่ยงเบนไปจากการสังเกตส่วนใหญ่ในชุดข้อมูลอย่างมีนัยสำคัญ หากไม่ได้รับการจัดการอย่างถูกต้อง จุดค่าสูงสุดเหล่านี้อาจทำให้ผลลัพธ์บิดเบือน ส่งผลให้เกิดข้อสรุปที่ไม่ถูกต้อง ในแมชชีนเลิร์นนิง ความไวนี้หมายความว่าค่าผิดปกติอาจส่งผลกระทบอย่างไม่เป็นสัดส่วนต่อความแม่นยำและความน่าเชื่อถือในการทำนายของโมเดล
ความเป็นหลายเส้นตรง
ในแบบจำลองการถดถอยเชิงเส้นหลายตัว ตัวแปรอิสระที่มีความสัมพันธ์กันสูงสามารถบิดเบือนผลลัพธ์ได้ ซึ่งเป็นปรากฏการณ์ที่เรียกว่าmulticollinearityตัวอย่างเช่น จำนวนห้องนอนในบ้านและขนาดของบ้านอาจมีความสัมพันธ์กันสูง เนื่องจากบ้านหลังใหญ่มักจะมีห้องนอนมากกว่า สิ่งนี้อาจทำให้ยากต่อการพิจารณาผลกระทบส่วนบุคคลของตัวแปรแต่ละตัวต่อราคาที่อยู่อาศัย ซึ่งนำไปสู่ผลลัพธ์ที่ไม่น่าเชื่อถือ
สมมติว่ามีการแพร่กระจายข้อผิดพลาดอย่างต่อเนื่อง
การถดถอยเชิงเส้นถือว่าความแตกต่างระหว่างค่าที่สังเกตและค่าที่คาดการณ์ (การแพร่กระจายของข้อผิดพลาด) จะเหมือนกันสำหรับตัวแปรอิสระทั้งหมด หากสิ่งนี้ไม่เป็นความจริง การคาดการณ์ที่สร้างโดยแบบจำลองอาจไม่น่าเชื่อถือ ในแมชชีนเลิร์นนิงภายใต้การดูแล การไม่แก้ไขการแพร่กระจายของข้อผิดพลาดอาจทำให้โมเดลสร้างการประมาณค่าที่ไม่เอนเอียงและไม่มีประสิทธิภาพ ส่งผลให้ประสิทธิภาพโดยรวมลดลง