การถ่ายโอนการเรียนรู้: ทางลัดสู่การพัฒนา AI ที่เร็วขึ้นเร็วขึ้น

เผยแพร่แล้ว: 2025-02-04

นำกลับมาใช้ใหม่และปรับโมเดล AI ที่ผ่านการฝึกอบรมมาก่อนกำลังเปลี่ยนวิธีการเรียนรู้ของเครื่อง (ML) การเรียนรู้การถ่ายโอนเป็นวิธีที่มีประสิทธิภาพและคุ้มค่าในการปรับระบบ AI ขนาดใหญ่และซับซ้อนให้เข้ากับโดเมนและปัญหาใหม่ ในคู่มือนี้เราจะสำรวจประเด็นสำคัญของการเรียนรู้การถ่ายโอน: วิธีการทำงานประเภทและแอพพลิเคชั่นต่าง ๆ และข้อดีและความท้าทายของมัน

สารบัญ

  • การเรียนรู้การถ่ายโอนคืออะไร?
  • การถ่ายโอนการเรียนรู้ทำงานอย่างไร?
  • ถ่ายโอนการเรียนรู้กับการปรับแต่ง
  • ประเภทของการเรียนรู้การถ่ายโอน
  • ประโยชน์ของการเรียนรู้การถ่ายโอน
  • ความท้าทายของการเรียนรู้การถ่ายโอน
  • แอปพลิเคชันของการเรียนรู้การถ่ายโอน

การเรียนรู้การถ่ายโอนคืออะไร?

การเรียนรู้การถ่ายโอนเป็นเทคนิคการเรียนรู้ของเครื่องจักรที่ทรงพลังซึ่งใช้ประโยชน์จากรูปแบบที่ผ่านการฝึกอบรมมาก่อนสำหรับงานที่แตกต่างกัน แต่เกี่ยวข้อง มันใช้ความรู้ทั่วไปที่บันทึกไว้ในรูปแบบที่มีอยู่เป็นรากฐานในการเรียนรู้วิธีแก้ปัญหาในโดเมนที่เฉพาะเจาะจงมากขึ้น

การถ่ายโอนการเรียนรู้มีข้อได้เปรียบหลายประการ: มันเร่งการพัฒนาและการปรับใช้แอพพลิเคชั่นปัญญาประดิษฐ์ที่กำหนดเอง (AI) แอพพลิเคชั่นลดต้นทุนทรัพยากรและมักจะให้ประสิทธิภาพที่ดีกว่าการสร้างแบบจำลองตั้งแต่เริ่มต้น เป็นผลให้การเรียนรู้การถ่ายโอนมีคุณค่าอย่างยิ่งสำหรับองค์กรที่มีเป้าหมายเพื่อพัฒนาโซลูชั่น AI พิเศษโดยไม่ต้องใช้ข้อมูลจำนวนมหาศาลหรือพลังงานการคำนวณที่จำเป็นในการฝึกอบรมแบบจำลองตั้งแต่เริ่มต้น

ทำงานอย่างชาญฉลาดด้วยไวยากรณ์
พันธมิตรการเขียน AI สำหรับทุกคนที่ทำงานที่ต้องทำ

ตัวอย่างการเรียนรู้การถ่ายโอน

พิจารณาตัวอย่างของผู้ผลิตที่ต้องการสร้างระบบ AI เพื่อตรวจจับข้อบกพร่องของผลิตภัณฑ์ ตัวเลือกหนึ่งคือการจ้างผู้ปฏิบัติงาน ML เฉพาะรวบรวมและดูแลภาพผลิตภัณฑ์ที่เกี่ยวข้องหลายล้านภาพและจัดสรรเวลาและทรัพยากรการคำนวณที่จำเป็นในการฝึกอบรมแบบจำลองตั้งแต่เริ่มต้น Transfer Learning นำเสนอตัวเลือกที่ดีกว่ามาก: ผู้ผลิตสามารถเริ่มต้นด้วยโมเดลที่เสร็จสิ้นการฝึกอบรมที่มีราคาแพงและใช้เวลานานในชุดข้อมูลภาพขนาดใหญ่ที่ได้มาตรฐานเช่น ImageNet จากนั้นผู้ผลิตสามารถใช้การเรียนรู้การถ่ายโอนอย่างรวดเร็วและมีประสิทธิภาพเพื่อปรับรูปแบบเพื่อตรวจจับข้อบกพร่องในภาพผลิตภัณฑ์เฉพาะ

การถ่ายโอนการเรียนรู้ทำงานอย่างไร?

การถ่ายโอนการเรียนรู้ปรับความรู้ทั่วไปของโมเดลที่ผ่านการฝึกอบรมล่วงหน้าให้เข้ากับงานใหม่ที่เกี่ยวข้อง โดยทั่วไปกระบวนการเกี่ยวข้องกับสามขั้นตอนสำคัญ:

  • การเลือกรูปแบบที่ได้รับการฝึกอบรมล่วงหน้าที่เหมาะสม
  • อัปเดตสถาปัตยกรรมของโมเดล
  • การฝึกอบรมแบบจำลองข้อมูลใหม่

1. เลือกรุ่นที่ผ่านการฝึกอบรมมาก่อน

ขั้นตอนแรกคือการเลือกแบบจำลองที่ได้รับการฝึกฝนในชุดข้อมูลในโดเมนที่เกี่ยวข้องกับงานเป้าหมาย รูปแบบที่ผ่านการฝึกอบรมมาก่อนควรได้เรียนรู้คุณสมบัติทั่วไปและระดับสูงที่เกี่ยวข้องกับแอปพลิเคชันใหม่

  • ตัวอย่างในการดูแลสุขภาพ:องค์กรด้านการดูแลสุขภาพอาจเริ่มต้นด้วยแบบจำลองที่ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับชุดข้อมูล NIH (สถาบันสุขภาพแห่งชาติ) ชุดหัวขนามซึ่งมีชุดภาพทางการแพทย์ที่มีป้ายกำกับมากมาย แบบจำลองจะได้เรียนรู้คุณสมบัติทั่วไปเช่นวิธีการจัดโครงสร้างภาพรังสีเอกซ์และคุณสมบัติทางชีวภาพที่สัมพันธ์กับส่วนประกอบของภาพ รุ่นนี้สามารถใช้เป็นรากฐานสำหรับการพัฒนาเครื่องมือวินิจฉัยสำหรับเงื่อนไขเฉพาะที่ตั้งอยู่ในบริเวณหน้าอกและมองเห็นได้ในภาพ X-ray เช่นโรคปอดบวมหรือมะเร็งปอด
  • ตัวอย่างในการเงิน:องค์กรการเงินอาจใช้ Finbert ซึ่งเป็นแบบจำลองที่ผ่านการฝึกอบรมมาแล้วเกี่ยวกับเอกสารทางการเงินการโทรหารายได้และการยื่นเอกสาร แบบจำลองนี้จะได้เรียนรู้คุณสมบัติทั่วไปเช่นโครงสร้างของภาษาทางการเงินและข้อกำหนดเฉพาะที่แสดงถึงความเชื่อมั่นของตลาดและประสิทธิภาพทางธุรกิจ โมเดล Finbert สามารถทำหน้าที่เป็นรากฐานสำหรับฟังก์ชั่นเฉพาะทางมากขึ้นเช่นการตั้งค่าสถานะโดยอัตโนมัติเกี่ยวกับงบในรายงานรายได้

การเลือกโมเดลที่ได้รับการฝึกฝนไว้ล่วงหน้านั้นเกี่ยวข้องกับการสร้างความมั่นใจว่าการฝึกอบรมดั้งเดิมนั้นสอดคล้องกับแอปพลิเคชันที่ตั้งใจไว้เนื่องจากจะเพิ่มโอกาสในการปรับตัวที่ประสบความสำเร็จ

2. การปรับเปลี่ยนสถาปัตยกรรมแบบจำลอง

เมื่อเลือกรูปแบบที่ได้รับการฝึกอบรมมาก่อนที่เหมาะสมสถาปัตยกรรมของมันจะถูกปรับให้เหมาะกับงานใหม่ ขั้นตอนนี้โดยทั่วไปรวมถึง:

  • การเปลี่ยนเลเยอร์เอาต์พุต:เลเยอร์สุดท้ายของโมเดลที่ผ่านการฝึกอบรมมาก่อนซึ่งออกแบบมาสำหรับงานดั้งเดิมจะถูกลบออกและแทนที่ด้วยเลเยอร์เฉพาะงานใหม่ (เช่นเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์สำหรับการจำแนกประเภท)
  • การรักษาคุณสมบัติทั่วไป:ชั้นในซึ่งจับรูปแบบทั่วไปเช่นขอบในภาพหรือความสัมพันธ์ทางภาษาในข้อความมักถูกเก็บรักษาไว้ คุณสมบัติเหล่านี้สามารถถ่ายโอนได้อย่างมีประสิทธิภาพไปยังงานที่เกี่ยวข้อง

ขอบเขตของการปรับเปลี่ยนสถาปัตยกรรมขึ้นอยู่กับกรณีการใช้งานเฉพาะและระดับของความคล้ายคลึงกันระหว่างแหล่งที่มาและงานเป้าหมาย

3. การฝึกอบรมแบบจำลองข้อมูลใหม่

ในขั้นตอนสุดท้ายโมเดลที่แก้ไขจะได้รับการฝึกฝนในชุดข้อมูลที่เหมาะกับงานใหม่ ขั้นตอนนี้สามารถเข้าหาได้สองวิธีหลักขึ้นอยู่กับขนาดชุดข้อมูลและความคล้ายคลึงกันระหว่างงาน:

  • การแยกคุณสมบัติ:
    • เฉพาะเลเยอร์ที่เพิ่มขึ้นใหม่เท่านั้นที่ได้รับการฝึกฝนในขณะที่เลเยอร์ดั้งเดิมยังคงไม่เปลี่ยนแปลง
    • วิธีนี้เหมาะอย่างยิ่งเมื่องานใหม่เกี่ยวข้องอย่างใกล้ชิดกับงานต้นฉบับหรือเมื่อชุดข้อมูลเป้าหมายมีขนาดเล็ก
  • ปรับแต่ง:
    • โมเดลทั้งหมดได้รับการฝึกอบรมใหม่ แต่มีชุดข้อมูลขนาดเล็กและอัตราการเรียนรู้เพื่อหลีกเลี่ยงการสูญเสียคุณสมบัติที่มีค่าที่เรียนรู้ในช่วงก่อนการฝึกอบรม
    • วิธีการนี้เหมาะกว่าสำหรับชุดข้อมูลขนาดใหญ่หรือเมื่องานใหม่แตกต่างจากงานดั้งเดิมอย่างมีนัยสำคัญ

โดยไม่คำนึงถึงวิธีการเป้าหมายคือการเปิดเผยรูปแบบให้กับข้อมูลที่เกี่ยวข้องเพียงพอทำให้สามารถเรียนรู้และพูดคุยสำหรับแอปพลิเคชันใหม่ได้อย่างมีประสิทธิภาพ

ถ่ายโอนการเรียนรู้กับการปรับแต่ง

การเรียนรู้การถ่ายโอนมักจะสับสนกับการปรับแต่ง ในขณะที่แนวคิดมีความสัมพันธ์อย่างใกล้ชิดมีความแตกต่างที่น่าสังเกต สิ่งสำคัญที่สุดคือการเรียนรู้การถ่ายโอนเป็นกระบวนการโดยรวมของการปรับรูปแบบที่ผ่านการฝึกอบรมมาก่อนเพื่อวัตถุประสงค์ใหม่และอาจหรือไม่เกี่ยวข้องกับการปรับแต่ง ในทางกลับกันการปรับจูนเป็นหนึ่งในหลาย ๆ เทคนิคที่ใช้ในการฝึกพารามิเตอร์บางส่วนหรือทั้งหมดของโมเดลซึ่งเป็นส่วนหนึ่งของกระบวนการเรียนรู้การถ่ายโอนโดยรวม การปรับแต่งไม่ได้เป็นเพียงส่วนย่อยของการเรียนรู้การถ่ายโอน มันมีแอพพลิเคชั่นในบริบทอื่น ๆ ใน ML นอกการเรียนรู้การถ่ายโอนเช่นการปรับปรุงประสิทธิภาพของโมเดลในกลุ่มย่อยเฉพาะของข้อมูลหรือปรับรูปแบบเพื่อเปลี่ยนการกระจายข้อมูล

นอกจากนี้การเรียนรู้การถ่ายโอนมักจะต้องมีการเปลี่ยนแปลงจริงกับสถาปัตยกรรมของโมเดลเช่นการลบและแทนที่เลเยอร์ที่มีอยู่หรือปรับโครงสร้างการเชื่อมต่อระหว่างเลเยอร์ ในทางตรงกันข้ามการปรับแต่งโดยทั่วไปเกี่ยวข้องกับการปรับพารามิเตอร์ขนาดเล็กที่แม่นยำโดยไม่มีการเปลี่ยนแปลงอย่างมีนัยสำคัญกับสถาปัตยกรรม

คิดว่าการถ่ายโอนการเรียนรู้เป็นการปรับปรุงอาคารที่ออกแบบมาเพื่อจุดประสงค์หนึ่งเพื่อให้สามารถใช้กับอีกแห่งหนึ่งเช่นการแปลงโรงรถเป็นอพาร์ทเมนต์ สิ่งนี้น่าจะเกี่ยวข้องกับการอัปเดตโครงสร้างเช่นการติดตั้ง Windows และฉนวนกันความร้อนหรือแม้แต่เพิ่มห้องพักใหม่และการเชื่อมต่อยูทิลิตี้ ในทางกลับกันการปรับจูนเป็นเหมือนการใช้โรงรถเป็นพื้นที่ทำงานพิเศษโดยไม่ต้องทำการเปลี่ยนแปลงที่สำคัญกับโครงสร้าง ตัวอย่างเช่นไฟอาจถูกแทนที่และอาจเพิ่มชั้นวางใหม่ แต่โครงสร้างโดยรวมและสถาปัตยกรรมของโรงรถยังคงไม่เปลี่ยนแปลง

ประเภทของการเรียนรู้การถ่ายโอน

การเรียนรู้การถ่ายโอนสามารถมีหลายรูปแบบแต่ละสถานการณ์ที่เหมาะสมกับสถานการณ์ที่เฉพาะเจาะจง ประเภทที่เหมาะสมขึ้นอยู่กับปัจจัยต่าง ๆ เช่นความพร้อมใช้งานของข้อมูลที่ติดฉลากในโดเมนเป้าหมายความคล้ายคลึงกันระหว่างแหล่งข่าวและงานเป้าหมายและข้อกำหนดทางธุรกิจเฉพาะ ประเภทหลักของการเรียนรู้การถ่ายโอนคือ การเรียนรู้การถ่ายโอนอุปนัยการเรียนรู้การถ่ายโอน transductive และการเรียนรู้การถ่ายโอนที่ไม่ได้รับการดูแลนอกจากนี้วิธีการที่ทันสมัยเช่นการเรียนรู้แบบไม่กี่ครั้งและการเรียนรู้แบบไม่มีการถ่ายภาพมักใช้เทคนิคการเรียนรู้การถ่ายโอน

การเรียนรู้การถ่ายโอนอุปนัย

การเรียนรู้การถ่ายโอนแบบอุปนัยเป็นประเภทของการเรียนรู้การถ่ายโอนที่พบบ่อยที่สุดและใช้เมื่องานเป้าหมายและแหล่งข้อมูลเกี่ยวข้องอย่างใกล้ชิดและแตกต่างกันมาก

ตัวอย่าง:องค์กรด้านการดูแลสุขภาพอาจใช้การเรียนรู้การถ่ายโอนเพื่อปรับรูปแบบที่ผ่านการฝึกอบรมเพื่อจำแนกภาพ MRI ทั่วไปเพื่อตรวจจับสภาพสมองที่เฉพาะเจาะจง

ในสถานการณ์นี้จำเป็นต้องมีความสามารถในการจดจำภาพทั่วไปของโมเดลแหล่งที่มาถ่ายโอนไปยังงานเป้าหมายได้ดี แต่จำเป็นต้องมีข้อมูลที่มีป้ายกำกับในโดเมนเป้าหมาย การเรียนรู้การถ่ายโอนนั้นมีประสิทธิภาพโดยเฉพาะอย่างยิ่งสำหรับงานที่มีฉลากใหม่ แต่งานนั้นแตกต่างจากแหล่งที่มา (และมักจะเป็นรุ่นพิเศษ) แหล่งที่มา

การเรียนรู้การถ่ายโอน transductive

ในการเรียนรู้การถ่ายโอน transductive งานแหล่งที่มาและเป้าหมายจะเหมือนกัน แต่โดเมนปัญหานั้นแตกต่างกัน

ตัวอย่าง:ตัวกรองสแปมที่ผ่านการฝึกอบรมเกี่ยวกับอีเมลภาษาอังกฤษสามารถปรับให้เข้ากับการจำแนกอีเมลภาษาฝรั่งเศส ในสถานการณ์นี้การจดจำรูปแบบข้อความของโมเดลต้นฉบับและความเข้าใจในการถ่ายโอนโครงสร้างอีเมลไปยังงานเป้าหมายได้ดีแม้ว่ารูปแบบคำศัพท์และภาษาจะแตกต่างกัน งาน (การจำแนกอีเมล) ยังคงไม่เปลี่ยนแปลง แต่ข้อมูล (ภาษา) แตกต่างกันไป วิธีการนี้มีประโยชน์เมื่อโดเมนต้นทางมีข้อมูลที่มีป้ายกำกับมากมายและโดเมนเป้าหมายมีน้อยหรือไม่มีเลย

การเรียนรู้การถ่ายโอนที่ไม่ได้รับการดูแล

การเรียนรู้การถ่ายโอนที่ไม่ได้รับการดูแลจะถูกใช้เมื่อไม่สามารถใช้ข้อมูลที่ติดฉลากในโดเมนเป้าหมาย โดยทั่วไปการเรียนรู้การถ่ายโอนประเภทนี้ใช้ในการฝึกอบรมแบบจำลองเพื่อดำเนินงานที่ไม่ได้รับการดูแลเช่นการจัดกลุ่มหรือการลดมิติ

ตัวอย่าง:องค์กรไอทีอาจใช้การเรียนรู้การถ่ายโอนที่ไม่ได้รับการดูแลเพื่อช่วยระบบตรวจจับภัยคุกคามที่ขับเคลื่อนด้วย AI ระบุประเภทภัยคุกคามใหม่โดยไม่มีตัวอย่างที่มีป้ายกำกับ

ในกรณีนี้แบบจำลองสามารถถ่ายโอนความเข้าใจทั่วไปของรูปแบบปกติเมื่อเทียบกับภัยคุกคามที่อาจเกิดขึ้นกับประเภทภัยคุกคามใหม่ที่ไม่รู้จักก่อนหน้านี้

การเรียนรู้ไม่กี่ครั้ง

การเรียนรู้ไม่กี่ครั้ง (FSL) เป็นเทคนิค ML ที่ใช้การเรียนรู้การถ่ายโอนเพื่อช่วยให้แบบจำลองเรียนรู้จากข้อมูลที่ จำกัด มาก ใน FSL โมเดลเรียนรู้ที่จะทำงานใหม่หรือการจำแนกประเภทโดยใช้ตัวอย่างเพียงเล็กน้อย

ตัวอย่าง:รูปแบบการจดจำใบหน้าสามารถระบุบุคคลใหม่โดยใช้รูปภาพเพียงหนึ่งหรือสองภาพ

การเรียนรู้แบบไม่มีการยิง

Zero-Shot Learning (ZSL) เป็นเทคนิค ML ที่ช่วยให้แบบจำลองเรียนรู้ชั้นเรียนใหม่ที่ไม่เห็นในการฝึกอบรม ZSL มักจะใช้แนวคิดการเรียนรู้การถ่ายโอน แต่อาศัยความสัมพันธ์เชิงความหมายและข้อมูลเสริมเพื่อสรุปความรู้ที่เรียนรู้กับหมวดหมู่ใหม่

ตัวอย่าง:แบบจำลองอาจเรียนรู้ที่จะรับรู้ปลานิลตามความเข้าใจของปลาชนิดอื่นและความรู้ว่าปลานิลเป็นปลาชนิดหนึ่งแม้จะไม่เคยเห็นปลานิลระหว่างการฝึกซ้อม

ประโยชน์ของการเรียนรู้การถ่ายโอน

การถ่ายโอนการเรียนรู้ให้ข้อได้เปรียบหลายประการสำหรับองค์กรที่ต้องการพัฒนาโซลูชั่น AI ที่ปรับแต่งได้ สิ่งเหล่านี้รวมถึงการพัฒนาที่ลดลงและข้อกำหนดของทรัพยากรประสิทธิภาพที่ดีพร้อมข้อมูลที่ จำกัด และความทนทานของโมเดลที่ได้รับการปรับปรุง

ลดความต้องการด้านการพัฒนาและทรัพยากร

การเรียนรู้การถ่ายโอนเป็นวิธีที่ยอดเยี่ยมในการย่อวงจรการพัฒนาและลดความต้องการทรัพยากรสำหรับแอปพลิเคชัน AI พร้อมกัน การสร้างแบบจำลองตั้งแต่เริ่มต้นเกี่ยวข้องกับการรวบรวมการทำความสะอาดและการติดฉลากข้อมูล - และนั่นคือก่อนที่การฝึกอบรมจะสามารถเริ่มต้นได้ ด้วยการเรียนรู้การถ่ายโอนการพัฒนาและการปรับใช้กลายเป็นเรื่องของสัปดาห์หรือวันแทนที่จะเป็นเดือน การฝึกอบรมแบบจำลองตั้งแต่เริ่มต้นมักต้องใช้เวลาและพลังงานในการคำนวณที่สำคัญในขณะที่การเรียนรู้การถ่ายโอนไม่ได้ ซึ่งหมายความว่าองค์กรสามารถนำโซลูชั่น AI ของพวกเขาไปสู่ตลาดได้เร็วขึ้นและมีค่าใช้จ่ายน้อยลง

ประสิทธิภาพที่ดีพร้อมข้อมูลที่ จำกัด

การถ่ายโอนการเรียนรู้ช่วยให้แบบจำลองสามารถทำงานได้ดีแม้จะมีชุดข้อมูลการฝึกอบรมที่ จำกัด สิ่งนี้มีประโยชน์อย่างยิ่งสำหรับองค์กรในสาขาเฉพาะเช่นการผลิตหรือการดูแลสุขภาพที่ข้อมูลที่มีป้ายกำกับนั้นหายากหรือมีราคาแพงในการจัดหา ตัวอย่างเช่นองค์กรด้านการดูแลสุขภาพอาจมีตัวอย่างเพียงไม่กี่ร้อยตัวอย่างของเงื่อนไขทางการแพทย์เฉพาะ แต่สามารถใช้การเรียนรู้การถ่ายโอนเพื่อสร้างระบบตรวจจับที่มีประสิทธิภาพโดยไม่คำนึงถึง

ปรับปรุงความทนทานและความน่าเชื่อถือของโมเดลที่ดีขึ้น

ในขณะที่มันอาจดูไม่ได้ใช้งานง่ายแบบจำลองที่ได้รับการฝึกฝนผ่านการเรียนรู้การถ่ายโอนมักจะพูดคุยกันได้ดีกว่าแบบจำลองที่ได้รับการฝึกฝนตั้งแต่เริ่มต้นจากข้อมูลที่ จำกัด นี่เป็นเพราะชุดข้อมูลขนาดใหญ่ที่ใช้สำหรับการฝึกอบรมล่วงหน้าให้รูปแบบและคุณสมบัติที่หลากหลายซึ่งสามารถสรุปได้โดยทั่วไปสำหรับโดเมนและงานที่เฉพาะเจาะจงมากขึ้น นอกจากนี้การเริ่มต้นด้วยแบบจำลองที่ได้รับการทดสอบแล้วจะช่วยลดความเสี่ยงของความล้มเหลวของแบบจำลองและเพิ่มความน่าเชื่อถือ การลดความเสี่ยงที่ลดลงนี้มีความสำคัญในอุตสาหกรรมที่มีการควบคุมเช่นการดูแลสุขภาพและการเงิน

ความท้าทายของการเรียนรู้การถ่ายโอน

แม้จะมีประโยชน์มากมาย แต่การเรียนรู้การถ่ายโอนก็มีความท้าทายและข้อ จำกัด หลายประการ องค์กรต้องเข้าใจความท้าทายเหล่านี้เพื่อให้พวกเขาสามารถออกแบบกลยุทธ์การใช้งานที่เหมาะสมและมีความคาดหวังที่เป็นจริง ความท้าทายเหล่านี้รวมถึงการถ่ายโอนเชิงลบความไม่ตรงกันของโดเมนและการเลือกแบบจำลอง

การถ่ายโอนเชิงลบ

ในการถ่ายโอนเชิงลบความรู้จากโดเมนแหล่งที่มาขัดขวางการเรียนรู้งานเป้าหมายและนำไปสู่รูปแบบที่ผ่านการฝึกอบรมมาก่อนซึ่งทำงานได้แย่กว่าหนึ่งที่ได้รับการฝึกฝนมาตั้งแต่เริ่มต้น นี่เป็นหนึ่งในความท้าทายที่พบบ่อยที่สุดในการเรียนรู้การถ่ายโอนและโดยทั่วไปจะเกิดขึ้นเมื่อเป้าหมายและโดเมนต้นทางแตกต่างกันเกินไป ตัวอย่างเช่นรูปแบบการมองเห็นคอมพิวเตอร์ที่ได้รับการฝึกฝนให้จำแนกสายพันธุ์สุนัขในภาพมีแนวโน้มที่จะทำงานได้ไม่ดีหากปรับให้เข้ากับการวิเคราะห์ภาพทางการแพทย์เนื่องจากคุณสมบัติที่เรียนรู้ไม่เกี่ยวข้องกับงานใหม่ คุณสมบัติที่ช่วยแยกแยะสายพันธุ์สุนัขเช่นพื้นผิวขนยาวความยาวหางและรูปร่างหูไม่มีการใช้งานที่มีความหมายเมื่อพยายามจัดหมวดหมู่การสแกนทางการแพทย์ องค์กรควรเปรียบเทียบโดเมนต้นทางและเป้าหมายอย่างรอบคอบเพื่อหลีกเลี่ยงการถ่ายโอนเชิงลบ

โดเมนไม่ตรงกัน

ความไม่ตรงกันของโดเมนเกิดขึ้นเมื่อความแตกต่างระหว่างข้อมูลที่มีสำหรับแหล่งที่มาและโดเมนเป้าหมายลดประสิทธิภาพของโมเดล ความแตกต่างเหล่านี้อาจรวมถึงการเปลี่ยนแปลงของคุณภาพข้อมูลหรือการกระจาย ซึ่งแตกต่างจากการถ่ายโอนเชิงลบรูปแบบที่ทุกข์ทรมานจากความไม่ตรงกันของโดเมนอาจยังคงทำงานได้ดีกว่าหนึ่งที่ผ่านการฝึกอบรมตั้งแต่เริ่มต้น ตัวอย่างเช่นแบบจำลองที่ได้รับการฝึกฝนในชุดข้อมูลขนาดใหญ่ที่หลากหลายของภาพแมวจะไม่สามารถระบุสุนัขได้ดี อย่างไรก็ตามแบบจำลองจะยังคงดีกว่าโดยทั่วไปมากกว่ารุ่นที่ได้รับการฝึกฝนในชุดสุนัขขนาดเล็ก

การเลือกแบบจำลองและการดัดแปลง

การเลือกโมเดลที่ได้รับการฝึกฝนมาล่วงหน้าที่เหมาะสมและหาวิธีแก้ไขมันอาจซับซ้อนและใช้เวลานาน องค์กรจำเป็นต้องพิจารณาปัจจัยทุกประเภทรวมถึงการจัดตำแหน่งระหว่างแหล่งที่มาและโดเมนเป้าหมายโครงสร้างพื้นฐานที่มีอยู่และทรัพยากรบุคลากรขนาดและคุณภาพของชุดข้อมูลการฝึกอบรมและสถาปัตยกรรมแบบจำลอง นอกจากนี้โมเดลที่ผ่านการฝึกอบรมมาก่อนมักจะถูกสร้างขึ้นด้วยสมมติฐานและการพึ่งพาในใจซึ่งอาจไม่ชัดเจนในทันที การเลือกรูปแบบที่เหมาะสมและการปรับเปลี่ยนที่เหมาะสมต้องใช้ความเชี่ยวชาญเวลาสำหรับการทดลองและโครงสร้างพื้นฐานที่ไม่ใช่ทุกองค์กรที่สามารถเข้าถึงได้

แอปพลิเคชันของการเรียนรู้การถ่ายโอน

การถ่ายโอนการเรียนรู้เป็นวิธีที่ง่ายและเชื่อถือได้มากขึ้นในการสร้างระบบ AI สำหรับงานหรือโดเมนที่เฉพาะเจาะจงมากกว่าการสร้างโมเดลใหม่ ต่อจากนั้นเทคนิคได้พบว่ามีการยอมรับอย่างกว้างขวางและมีแอพพลิเคชั่นมากมายรวมถึงการมองเห็นคอมพิวเตอร์การประมวลผลภาษาธรรมชาติ (NLP) และการรู้จำเสียงพูดและการสร้าง

วิสัยทัศน์คอมพิวเตอร์

การเรียนรู้การถ่ายโอนประสบความสำเร็จอย่างมากในการมองเห็นคอมพิวเตอร์ องค์กรสามารถสร้างแอพพลิเคชั่นวิสัยทัศน์ที่กำหนดเองได้อย่างง่ายดายโดยใช้แบบจำลองการมองเห็นที่ผ่านการฝึกอบรมมาก่อนซึ่งได้เรียนรู้คุณสมบัติทั่วไปจากภาพหลายล้านภาพ ตัวอย่างเช่น บริษัท รักษาความปลอดภัยสามารถปรับรูปแบบการมองเห็นคอมพิวเตอร์ที่ผ่านการฝึกอบรมมาก่อนเพื่อตรวจจับพฤติกรรมที่น่าสงสัยในการเฝ้าระวังฟีดหรือระบุวัตถุที่น่าสนใจโดยเฉพาะทั้งหมดที่ไม่มีข้อมูลการฝึกอบรมจำนวนมากหรือการพัฒนาแบบจำลองพิเศษ

การประมวลผลภาษาธรรมชาติ (NLP)

แอปพลิเคชั่นที่สำคัญของการเรียนรู้การถ่ายโอนคือการฝึกอบรมแบบจำลองเพื่อจัดการงาน NLP ที่เฉพาะเจาะจง ตัวอย่างเช่น บริษัท กฎหมายสามารถเลือกรูปแบบ NLP ที่ผ่านการฝึกอบรมมาแล้วเป็นพื้นฐานสำหรับเครื่องมือวิเคราะห์เอกสารแล้วสอนรูปแบบเพื่อจัดการโดเมนทางกฎหมายเฉพาะโดยใช้การเรียนรู้การถ่ายโอน

การรู้จำเสียงพูดและรุ่น

การเรียนรู้การถ่ายโอนยังใช้ในการฝึกอบรมแบบจำลองสำหรับแอพพลิเคชั่นการพูดเฉพาะ ตัวอย่างเช่นศูนย์บริการสามารถปรับรูปแบบการพูดทั่วไปเพื่อทำความเข้าใจคำศัพท์เฉพาะอุตสาหกรรมและสร้างระบบบริการลูกค้าอัตโนมัติที่ปรับแต่งได้มากขึ้น อีกตัวอย่างหนึ่งคือการใช้การถ่ายโอนการเรียนรู้เพื่อปรับรูปแบบคำสั่งเสียงที่ได้รับการฝึกฝนสำหรับงานภาษาทั่วไปเพื่อจัดการภาษาและภาษาที่เฉพาะเจาะจง