คำอธิบายการเรียนรู้แบบ Few-Shot: การแปลง AI ด้วยข้อมูลที่น้อยที่สุด
เผยแพร่แล้ว: 2025-01-13การเรียนรู้แบบ Few-shot Learning (FSL) กำลังพลิกโฉมการเรียนรู้ของเครื่อง (ML) โดยทำให้โมเดลสามารถเรียนรู้และสร้างผลลัพธ์ที่แม่นยำจากตัวอย่างเพียงไม่กี่ตัวอย่าง ซึ่งแตกต่างจากวิธีการแบบดั้งเดิมที่ต้องใช้ชุดข้อมูลจำนวนมาก คู่มือนี้จะสำรวจวิธีการทำงานของ FSL แอปพลิเคชัน การเปรียบเทียบกับการเรียนรู้แบบ Zero-shot Learning (ZSL) ตลอดจนความท้าทายและศักยภาพ
สารบัญ
- การเรียนรู้แบบไม่กี่ช็อตคืออะไร?
- การเรียนรู้แบบไม่กี่ช็อตกับการกระตุ้นเตือนแบบไม่กี่ช็อต: อะไรคือความแตกต่าง?
- การเรียนรู้แบบไม่กี่ช็อตทำงานอย่างไร
- การเรียนรู้แบบไม่กี่ช็อตกับการเรียนรู้แบบไม่มีช็อต
- แอพพลิเคชั่นสำหรับการเรียนรู้แบบไม่กี่ช็อต
- ประโยชน์ของการเรียนรู้แบบไม่กี่ช็อต
- ความท้าทายของการเรียนรู้แบบไม่กี่ช็อต
การเรียนรู้แบบไม่กี่ช็อต (FSL) คืออะไร?
การเรียนรู้แบบ Few-shot (FSL) หมายถึงกลุ่มเทคนิค ML ที่ออกแบบมาเพื่อสร้างแบบจำลองที่ปรับเปลี่ยนได้ ซึ่งสามารถสร้างผลลัพธ์ที่แม่นยำ หลังจากได้รับการฝึกอบรมในตัวอย่างที่มีป้ายกำกับเพียงไม่กี่ตัวอย่างต่อหมวดหมู่ เมื่อมีตัวอย่างที่มีป้ายกำกับเพียงตัวอย่างเดียวต่อหมวดหมู่ จะเรียกว่าการเรียนรู้แบบช็อตเดียว ตัวอย่างเช่น สมาร์ทโฟนสมัยใหม่ใช้ประโยชน์จาก FSL ในการจดจำใบหน้าของผู้ใช้ด้วยภาพถ่ายเพียงไม่กี่ภาพ หรือแม้แต่ภาพถ่ายเดียว
FSL มีคุณค่าอย่างยิ่งเนื่องจากช่วยให้โมเดล ML สามารถแก้ไขปัญหาที่มีข้อมูลไม่เพียงพอได้ ดังที่มักเกิดขึ้นในโลกจริง โมเดล FSL ยังสามารถจัดการงานได้หลากหลายกว่าโมเดลการเรียนรู้แบบมีผู้สอนแบบดั้งเดิม เนื่องจากโมเดลเรียนรู้ที่จะสรุป วิธีนี้ช่วยประหยัดทรัพยากรเนื่องจากการปรับโมเดล FSL เข้ากับงานใหม่มักจะถูกกว่าและเร็วกว่าการฝึกโมเดลใหม่ทั้งหมดตั้งแต่เริ่มต้น FSL มักถูกอธิบายว่าเป็นการสอนโมเดล ML ให้ "คิด" เหมือนมนุษย์มากขึ้นโดยการเรียนรู้ที่จะเป็นนามธรรมจากตัวอย่างเพียงไม่กี่ตัวอย่าง
FSL มักใช้สำหรับแอปพลิเคชันคอมพิวเตอร์วิทัศน์ แต่ยังนำไปใช้ในวิทยาการหุ่นยนต์และการประมวลผลภาษาธรรมชาติ (NLP) อีกด้วย ตัวอย่างเช่น FSL ถูกนำมาใช้ในการแปลข้อความของชาวสุเมเรียนโบราณ ซึ่งเป็นงานที่เป็นประโยชน์เนื่องจากผู้เชี่ยวชาญด้านภาษาสุเมเรียนมีไม่เพียงพอ โมเดล FSL ของนักแปลชาวสุเมเรียนได้เรียนรู้วิธีการแปลจากตัวอย่างแท็บเล็ตคูนิฟอร์มคุณภาพสูงชุดเล็กๆ จากนั้นพวกเขาก็แปลข้อความที่ไม่คุ้นเคยจำนวนมากอย่างแม่นยำเพื่อให้นักวิชาการวิเคราะห์
การเรียนรู้แบบไม่กี่ช็อตกับการกระตุ้นเตือนแบบไม่กี่ช็อต: อะไรคือความแตกต่าง?
FSL และการแจ้งเตือนแบบไม่กี่ช็อตเป็นแนวคิดที่เกี่ยวข้องกันใน ML และ NLP แต่มีจุดประสงค์ที่แตกต่างกัน
การเรียนรู้แบบไม่กี่ช็อต
FSL เป็นเทคนิคการฝึกอบรมโมเดลที่สอนโมเดลในการจำแนกข้อมูลที่มองไม่เห็น ทำงานโดยการปรับพารามิเตอร์โมเดลเพื่อปรับให้เข้ากับงานจำแนกประเภทใหม่ๆ โดยอาศัยความรู้เดิม FSL เกี่ยวข้องกับการเรียนรู้แบบมีผู้สอน แต่ข้อแตกต่างก็คือโมเดล FSL ได้รับการฝึกฝนบนชุดข้อมูลที่จำกัดกว่ามาก
การกระตุ้นเตือนไม่กี่นัด
Few-shot prompting เป็นวิธีการทำงานกับโมเดลภาษาขนาดใหญ่ (LLM) ใช้การเรียนรู้ในบริบท ซึ่งเป็นการเรียนรู้ประเภทหนึ่งที่โมเดลใช้ข้อมูลจากพรอมต์ เช่น รูปแบบและความรู้สึก เพื่อคาดการณ์ผลลัพธ์ แตกต่างจาก FSL และการเรียนรู้แบบมีผู้สอนแบบดั้งเดิม การแจ้งเตือนแบบไม่กี่ช็อตไม่เกี่ยวข้องกับการเปลี่ยนแปลงพารามิเตอร์ของ LLM เมื่อคุณใช้การเตือนแบบไม่กี่ช็อต คุณจะจัดเตรียมตัวอย่างหลายประเภทของประเภทคำตอบที่คุณต้องการให้กับ LLM เช่นเดียวกับ FSL การแจ้งเตือนแบบไม่กี่ช็อตคือการช่วยให้แบบจำลองสามารถสรุปได้โดยการเปิดเผยตัวอย่างบางส่วนของงานที่คล้ายกัน
การเรียนรู้แบบไม่กี่ช็อตทำงานอย่างไร
การเรียนรู้ไม่กี่ครั้งเกี่ยวข้องกับสองขั้นตอน ขั้นแรก โมเดลจะได้รับการฝึกอบรมล่วงหน้าบนชุดข้อมูลทั่วไปเพื่อเรียนรู้เกี่ยวกับโลก จากนั้นพวกเขาจะได้รับการปรับเปลี่ยนงาน โดยที่แบบจำลองจะเรียนรู้วิธีสรุปจากตัวอย่างข้อมูลขนาดเล็ก
การฝึกอบรมล่วงหน้า
ขั้นตอนแรกสำหรับโมเดล FSL ส่วนใหญ่เริ่มต้นด้วยการฝึกอบรมล่วงหน้าบนชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับ เช่นเดียวกับการเรียนรู้ภายใต้การดูแล โมเดลดำเนินการแยกคุณลักษณะบนชุดข้อมูลนี้ และเรียนรู้ที่จะจำแนกตัวอย่างโดยการพัฒนาฐานความรู้เกี่ยวกับรูปแบบและความสัมพันธ์ในข้อมูล
การปรับงาน
หลังจากการฝึกอบรมล่วงหน้า ขั้นตอนต่อไปของ FSL คือการฝึกอบรมแบบจำลองเพื่อสรุปงานการจำแนกประเภทใหม่ สิ่งนี้เรียกว่าการปรับงานและเกิดขึ้นในตอนการฝึกอบรมหลายตอน
ในแต่ละตอน จะมีชุดสนับสนุนตัวอย่างสองถึงห้าตัวอย่างสำหรับโมเดลในการศึกษา และชุดแบบสอบถามที่มีเป้าหมายที่มองไม่เห็นเพื่อให้โมเดลพยายามจัดประเภท กรอบการทำงานนี้เรียกว่าการจำแนกประเภท K-shot แบบ N-way โดยที่Nหมายถึงจำนวนหมวดหมู่ (เรียกว่าคลาส) และKหมายถึงจำนวนตัวอย่างที่มีป้ายกำกับ (ช็อต) ของแต่ละหมวดหมู่
FSL ทุกรุ่นได้รับการออกแบบเพื่อให้สามารถปรับงานได้ ภายในชุดเทคนิค FSL หนึ่งในสาขาการวิจัยที่สำคัญและน่าตื่นเต้นที่สุดก็คือเมตาเลิร์นนิง
แนวทางเมตาเลิร์นนิง
เมตาเลิร์นนิงเกี่ยวข้องกับการเปิดเผยแบบจำลองให้กับงานที่คล้ายกันหรือเกี่ยวข้องกับงานการจัดหมวดหมู่ที่แบบจำลองได้รับการฝึกฝนให้แก้ไขในตอนแรก มันได้รับตัวอย่างเล็กๆ น้อยๆ ของงานใหม่แต่ละงาน แต่จากงานเหล่านี้ มันเรียนรู้ที่จะสรุปโดยการพัฒนากรอบเมตาสำหรับสิ่งที่ต้องทำเมื่อได้รับงานที่ไม่คุ้นเคย
โดยทั่วไปแล้ว เมตาเลิร์นนิงมีแนวทางสามประเภท:
- การเรียนรู้ที่เน้นการเพิ่มประสิทธิภาพ:ซึ่งรวมถึงแนวทางที่ฝึกโมเดลเพื่อปรับปรุงพารามิเตอร์อย่างรวดเร็ว บางคนใช้กระบวนการสองขั้นตอนโดยที่ผู้เรียนได้รับการฝึกอบรมในงานที่เฉพาะเจาะจง จากนั้นผู้เรียนเมตาใช้ฟังก์ชันการสูญเสียจากขั้นตอนผู้เรียนเพื่อปรับปรุงพารามิเตอร์ของแบบจำลองสำหรับงานถัดไป
- การเรียนรู้ระดับหน่วยวัด:ส่วนใหญ่ใช้สำหรับงานคอมพิวเตอร์วิทัศน์ การเรียนรู้หน่วยเมตริกทำงานโดยการแมปจุดสนใจที่แยกออกมาในพื้นที่ฝัง และใช้ระยะห่างระหว่างจุดสนใจบนแผนที่เพื่อแสดงความน่าจะเป็นที่ภาพสองภาพจะคล้ายกัน
- การเรียนรู้เมตาที่ไม่เชื่อเรื่องโมเดล (MAML):ใน MAML เป้าหมายของกระบวนการฝึกอบรมคือการลดจำนวนขั้นตอนการไล่ระดับสีที่จำเป็นในการปรับพารามิเตอร์ของโมเดลให้เหมาะสม โดยไม่คำนึงถึงงาน MAML วิเคราะห์กระบวนการเรียนรู้สำหรับงาน อนุมานรูปแบบวิธีการทำงานของกระบวนการ และพัฒนาแบบจำลองที่ทำหน้าที่เป็นทางลัด เร่งกระบวนการเรียนรู้ด้วยงานใหม่แต่ละงานที่เห็น
รายชื่อสถาปัตยกรรมโมเดลที่ใช้เทคนิคเมตาเลิร์นนิงมีการเติบโตอยู่ตลอดเวลา ในขณะที่นักวิจัยคิดค้นวิธีใหม่ๆ เพื่อช่วยให้โมเดลสามารถปรับเปลี่ยนได้

แนวทางที่ไม่ใช่เมตาเลิร์นนิง
นอกจากนี้ยังมีวิธี FSL และ FSL-adjacent ที่ไม่ใช้เมตาเลิร์นนิง บางครั้งมีการใช้ FSL ควบคู่ไปกับเทคนิคเหล่านี้เพื่อสร้างแนวทางแบบไฮบริด:
- ถ่ายโอนการเรียนรู้:วิธีการนี้เกี่ยวข้องกับการใช้แบบจำลองที่ได้รับการฝึกอบรมมาล่วงหน้าและปรับแต่งชั้นนอกของโครงข่ายประสาทเทียมอย่างละเอียด การเรียนรู้แบบถ่ายโอนมีประโยชน์มากกว่าในสถานการณ์ที่งานที่คุณต้องการให้แบบจำลองดำเนินการนั้นใกล้เคียงกับงานที่ได้รับการฝึกไปแล้ว
- การเพิ่มข้อมูล:FSL สามารถเสริมความแข็งแกร่งด้วยการเพิ่มข้อมูล ซึ่งเกี่ยวข้องกับการใช้ข้อมูลที่จำกัดของคุณเป็นฐานในการสร้างข้อมูลสังเคราะห์โดยใช้ generative adversarial network (GAN) หรือตัวเข้ารหัสอัตโนมัติแบบแปรผัน เพื่อเพิ่มจำนวนตัวอย่างสำหรับชุดการฝึกของคุณ
การเรียนรู้แบบไม่กี่ช็อตกับการเรียนรู้แบบไม่มีช็อต
การเรียนรู้แบบไม่กี่ช็อต (หรือการเรียนรู้แบบช็อตเดียว) มักใช้ในสถานการณ์ที่มีข้อมูลจำกัดแต่มีคุณภาพสูงในการฝึกโมเดล แต่ถ้าคุณไม่มีข้อมูลคุณภาพสูงเลยล่ะ? ในการเรียนรู้แบบ Zero-shot (ZSL) คุณไม่ต้องยกตัวอย่างให้กับโมเดลของคุณ แต่ขอให้โมเดลใช้ความรู้เดิมและความหมายฝังตัวที่โมเดลสามารถนำมาใช้เพื่อจัดการกับงานที่ไม่คุ้นเคยแทนได้
ZSL นำเสนอโซลูชันที่รวดเร็วและยืดหยุ่นสำหรับการจัดการสถานการณ์ที่มีข้อมูลน้อยมาก อย่างไรก็ตาม โมเดล ZSL อาจประสบปัญหากับการย้ายโดเมน ซึ่งหมายความว่าอาจประสบปัญหาหากประเภทข้อมูลที่พวกเขาเห็นแตกต่างจากฐานความรู้มากเกินไป และอาจเป็นเรื่องยากที่จะประเมินว่าโมเดลทำงานได้ดีเพียงใด
แอพพลิเคชั่นสำหรับการเรียนรู้แบบไม่กี่ช็อต
แอปพลิเคชันสำหรับ FSL นั้นมีความหลากหลายและมีการพัฒนาอย่างต่อเนื่อง แต่มีศักยภาพมหาศาลที่จะเป็นประโยชน์ในพื้นที่ที่คุณมีตัวอย่างค่อนข้างน้อย การวิจัยล่าสุดบางส่วนสำหรับกรณีการใช้งาน ได้แก่:
- การวินิจฉัยทางการแพทย์:FSL สามารถช่วยในการจำแนกเนื้องอกตามภาพ ซึ่งมีข้อมูลที่ติดป้ายกำกับไม่เพียงพอสำหรับโมเดลการเรียนรู้ภายใต้การดูแลแบบดั้งเดิมที่จะเป็นประโยชน์
- การสำรวจระยะไกล:FSL สามารถเร่งงานการสำรวจระยะไกล เช่น การใช้ฟุตเทจ UAV เพื่อประเมินผลกระทบของภัยพิบัติด้านสิ่งแวดล้อม
- การสร้างต้นแบบรถแข่ง F1:โมเดล FSL ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับพลศาสตร์ของไหลและแอโรไดนามิก และข้อมูลอื่นๆ สำหรับรถยนต์หลายร้อยคันจากการแข่งขันนับพันครั้ง จากนั้นพวกเขาใช้ FSL เพื่อคาดการณ์อากาศพลศาสตร์และการเสื่อมสภาพของชิ้นส่วนสำหรับรถต้นแบบใหม่ โดยอิงจากการทดสอบวิ่งที่มีราคาแพงจำนวนไม่มาก
- การแปลด้วยเครื่อง:FSL ช่วยสร้างเครื่องแปลที่มีประสิทธิภาพมากขึ้น ซึ่งใช้ข้อมูลเพียงเล็กน้อยและสามารถบันทึกความแตกต่างในภาษาถิ่นและภูมิภาคได้อย่างแม่นยำอย่างที่ไม่เคยมีมาก่อน
- วิทยาการหุ่นยนต์:FSL ถูกใช้เพื่อสอนหุ่นยนต์ให้เรียนรู้ที่จะจับวัตถุโดยการดูการสาธิตของมนุษย์
- การวิเคราะห์ความรู้สึก:โมเดล FSL ที่ได้รับการฝึกมาแต่เดิมเกี่ยวกับการรีวิวโรงแรม สามารถนำมาใช้ในการจำแนกประเภทรีวิวร้านอาหารได้
FSL ยังเป็นส่วนหนึ่งของภารกิจในการสร้างปัญญาประดิษฐ์ทั่วไป เนื่องจาก FSL เลียนแบบวิธีที่มนุษย์เข้าถึงการแก้ปัญหาได้อย่างใกล้ชิดยิ่งขึ้น
ประโยชน์ของการเรียนรู้แบบไม่กี่ช็อต
ประโยชน์หลักของโมเดล FSL คือสามารถจัดการกับปัญหาที่มีข้อมูลจำกัด และสามารถช่วยลดทรัพยากรด้านการคำนวณและการเงินที่จำเป็นในการฝึกโมเดลใหม่
การสรุปข้อมูลทั่วไปด้วยข้อมูลที่จำกัด
โมเดล FSL สามารถทำได้เนื่องจากไม่ได้จดจำรูปภาพ เสียง หรือภาษาผ่านการวนซ้ำหลายครั้ง แต่พวกเขาเรียนรู้ที่จะวิเคราะห์ความเหมือนและความแตกต่างอย่างรวดเร็ว แม้ว่าโมเดลแบบดั้งเดิมจะเก่งในงานที่เฉพาะเจาะจงมาก เช่น การระบุชนิดของนกหรือการจับคู่ลายนิ้วมือ แต่จะล้มเหลวทันทีที่คุณขอให้พวกเขาทำงานอื่นให้เสร็จสิ้น
ใช้ทรัพยากรน้อยลง
เทคนิคอย่าง MAML เป็นวิธีใช้ทรัพยากรการฝึกโมเดลที่มีประสิทธิภาพมากกว่ามาก ช่วยให้โมเดลขนาดใหญ่ที่มีราคาแพงมากสามารถปรับให้เข้ากับกรณีการใช้งานเฉพาะได้อย่างรวดเร็วและมีประสิทธิภาพ โดยไม่ต้องมีขั้นตอนการฝึกอบรมซ้ำที่มีราคาแพง หนึ่งในความท้าทายที่ยิ่งใหญ่ในการเรียนรู้ของเครื่องคือต้องใช้ข้อมูลจำนวนเท่าใดในการฝึกโมเดลเพื่อสร้างผลลัพธ์ที่เป็นประโยชน์ ทั้งในแง่ของการรวบรวมชุดข้อมูลขนาดใหญ่คุณภาพสูง และต้องใช้เวลาและการคำนวณนานเท่าใด FSL สัญญาว่าจะแก้ไขปัญหาในโลกแห่งความเป็นจริงมากมายที่ข้อมูลมีน้อยหรือข้ามโดเมน
ความท้าทายของการเรียนรู้แบบไม่กี่ช็อต
แม้จะมีคำสัญญาไว้ แต่ FSL ก็มีความท้าทายที่สามารถขัดขวางประสิทธิภาพของโมเดลได้
ฟิตเกิน
การใช้ชุดข้อมูลที่จำกัดอาจทำให้เกิดการฟิตติ้งมากเกินไป โดยที่โมเดลจัดชิดกับข้อมูลในชุดการฝึกมากเกินไปและมีปัญหาในการสรุป นี่เป็นปัญหาที่คุ้นเคยใน ML ซึ่งเกิดขึ้นกับ FSL บ่อยกว่าวิธี ML อื่นๆ โมเดล FSL ที่พอดีเกินไปจะทำงานได้ดีกับข้อมูลทดสอบ แต่จะไม่ระบุหมวดหมู่ใหม่เมื่อนำเสนอด้วยตัวอย่างในโลกแห่งความเป็นจริง เพื่อป้องกันสิ่งนี้ สิ่งสำคัญคือต้องมีความหลากหลายในตัวอย่างที่จำกัดซึ่งใช้สำหรับการฝึกแบบไม่กี่ช็อต การเพิ่มข้อมูลที่กล่าวถึงข้างต้น พยายามบรรเทาปัญหาการติดตั้งมากเกินไปโดยการสังเคราะห์ตัวอย่างเพิ่มเติมสำหรับการฝึกอบรม
คุณภาพของข้อมูล
ข้อมูลคุณภาพสูงทั้งในขั้นตอนก่อนการฝึกอบรมและขั้นตอนการเรียนรู้ไม่กี่ช็อตเป็นสิ่งสำคัญ โมเดล FSL จะถูกขัดขวางได้ง่ายขึ้นจากข้อมูลที่มีสัญญาณรบกวนและมีป้ายกำกับไม่ดี นอกจากนี้ยังทำได้ไม่ดีนักเมื่อข้อมูลมีประเภทหนึ่งมากเกินไปและไม่ใช่ประเภทอื่น หรือมีคุณลักษณะมากเกินไปสำหรับแบบจำลองที่จะวิเคราะห์ ในกรณีเหล่านี้ มีแนวโน้มที่จะซับซ้อนเกินไป บางครั้งนักวิจัยสามารถรับมือกับปัญหาเหล่านี้ได้โดยใช้เทคนิคการทำให้เป็นมาตรฐาน ซึ่งเป็นวิธีในการทำให้ข้อมูลราบรื่นขึ้น เพื่อช่วยให้แบบจำลองทราบว่าสิ่งใดที่ควรใส่ใจและสิ่งที่ควรเพิกเฉย