ข้อมูลเบื้องต้นเกี่ยวกับโมเดล Transformer: คืออะไรและทำงานอย่างไร
เผยแพร่แล้ว: 2024-08-07Transformers ถือเป็นความก้าวหน้าครั้งสำคัญของ AI โดยเฉพาะการประมวลผลภาษาธรรมชาติ (NLP) มีชื่อเสียงในด้านประสิทธิภาพและความสามารถในการปรับขยายได้ โดยมีความสำคัญในแอปพลิเคชันต่างๆ เช่น การแปลภาษาและ AI การสนทนา บทความนี้จะสำรวจโครงสร้าง การเปรียบเทียบกับโครงข่ายประสาทเทียมอื่นๆ และข้อดีและข้อเสีย
สารบัญ
- หม้อแปลงไฟฟ้ารุ่นคืออะไร?
- Transformers กับ CNN และ RNN
- แบบจำลองหม้อแปลงทำงานอย่างไร
- ตัวอย่างโมเดลหม้อแปลงไฟฟ้า
- ข้อดี
- ข้อเสีย
หม้อแปลงไฟฟ้ารุ่นคืออะไร?
หม้อแปลงไฟฟ้าเป็นรูปแบบการเรียนรู้เชิงลึกประเภทหนึ่งที่ใช้กันอย่างแพร่หลายใน NLP เนื่องจากประสิทธิภาพการทำงานและความสามารถในการปรับขนาด โมเดลดังกล่าวจึงเป็นแกนหลักของโมเดลต่างๆ เช่น ซีรีส์ GPT (สร้างโดย OpenAI), Claude (สร้างโดย Anthropic) และ Gemini (สร้างโดย Google) และมีการใช้งานอย่างกว้างขวางทั่วทั้งอุตสาหกรรม
โมเดลการเรียนรู้เชิงลึกประกอบด้วยองค์ประกอบหลัก 3 ส่วน ได้แก่ สถาปัตยกรรมโมเดล ข้อมูลการฝึกอบรม และวิธีการฝึกอบรม ภายในกรอบงานนี้ หม้อแปลงไฟฟ้าแสดงถึงสถาปัตยกรรมแบบจำลองประเภทหนึ่ง มันกำหนดโครงสร้างของโครงข่ายประสาทเทียมและการโต้ตอบ นวัตกรรมสำคัญที่ทำให้หม้อแปลงแตกต่างจากโมเดลการเรียนรู้ของเครื่อง (ML) อื่นๆ คือการใช้ "ความสนใจ"
ความสนใจเป็นกลไกในหม้อแปลงที่ช่วยให้สามารถประมวลผลข้อมูลเข้าได้อย่างมีประสิทธิภาพและรักษาข้อมูลไว้เป็นลำดับยาวๆ (เช่น เรียงความทั้งหมด)
นี่คือตัวอย่างที่จะแสดง “แมวนั่งอยู่บนฝั่งริมแม่น้ำ แล้วมันก็ย้ายไปที่กิ่งก้านของต้นไม้ใกล้เคียง” คุณสามารถรับรู้ว่า "ธนาคาร" ในที่นี้ไม่ใช่ธนาคารที่คุณฝากเงิน คุณอาจใช้คำใบ้บริบทของ "แม่น้ำ" เพื่อหาคำตอบ ความสนใจทำงานในลักษณะเดียวกัน ใช้คำอื่นเพื่อกำหนดความหมายของแต่ละคำ “มัน” หมายถึงอะไรในตัวอย่าง? แบบจำลองจะพิจารณาคำว่า "ย้าย" และ "ต้นไม้" เพื่อเป็นเบาะแสในการรู้ว่าคำตอบคือ "แมว"
คำถามสำคัญที่ยังไม่มีคำตอบคือแบบจำลองจะรู้ได้อย่างไรว่าควรพิจารณาคำใด เราจะพูดถึงเรื่องนี้ในภายหลัง แต่ตอนนี้เราได้กำหนดโมเดลหม้อแปลงแล้ว เราจะอธิบายเพิ่มเติมว่าทำไมจึงมีการใช้งานหนักมาก
Transformers กับ CNN และ RNN
โครงข่ายประสาทเทียมที่เกิดซ้ำ (RNN) และโครงข่ายประสาทเทียมแบบหมุนวน (CNN) เป็นอีกสองโมเดลการเรียนรู้เชิงลึกทั่วไป แม้ว่า RNN และ CNN จะมีประโยชน์ แต่หม้อแปลงก็ถูกนำมาใช้กันอย่างแพร่หลายมากขึ้น เนื่องจากสามารถรองรับอินพุตที่ยาวได้ดีกว่ามาก
Transformers กับ RNN
โครงข่ายประสาทเทียมที่เกิดซ้ำเป็นแบบจำลองตามลำดับ การเปรียบเทียบที่เหมาะสมคือมนุษย์อ่านหนังสือ เมื่อพวกเขาอ่านทีละคำ ความทรงจำและความเข้าใจในหนังสือเล่มนี้ก็พัฒนาขึ้น สำหรับผู้อ่านที่ชาญฉลาด พวกเขาอาจทำนายสิ่งที่จะเกิดขึ้นต่อไปโดยพิจารณาจากสิ่งที่เกิดขึ้นก่อนหน้านี้ RNN ทำงานในลักษณะเดียวกัน โดยจะอ่านคำต่อคำ อัปเดตหน่วยความจำ (เรียกว่าสถานะที่ซ่อนอยู่) จากนั้นจึงสามารถคาดเดาได้ (เช่น คำถัดไปในประโยคหรือความรู้สึกของข้อความบางส่วน) ข้อเสียคือสถานะที่ซ่อนอยู่ไม่สามารถเก็บข้อมูลได้มากนัก หากคุณป้อนหนังสือทั้งเล่มลงใน RNN มันจะจำรายละเอียดมากมายเกี่ยวกับบทนำไม่ได้ เนื่องจากมีพื้นที่ที่ซ่อนอยู่ในสถานะที่ซ่อนอยู่เท่านั้น บทต่อมา โดยอาศัยอำนาจในการเพิ่มเข้าไปในสถานะที่ซ่อนไว้เมื่อเร็ว ๆ นี้ จะได้รับความสำคัญ
Transformers ไม่ประสบปัญหาหน่วยความจำแบบเดียวกัน พวกเขาเปรียบเทียบทุกคำกับคำอื่นๆ ในอินพุต (ซึ่งเป็นส่วนหนึ่งของกลไกความสนใจ) ดังนั้นพวกเขาจึงไม่จำเป็นต้องใช้สถานะที่ซ่อนอยู่หรือ "จดจำ" สิ่งที่เกิดขึ้นก่อนหน้านี้ การใช้การเปรียบเทียบในหนังสือเล่มเดียวกัน Transformer ก็เปรียบเสมือนมนุษย์อ่านคำถัดไปในหนังสือแล้วดูคำก่อนหน้าทุกคำในหนังสือเพื่อทำความเข้าใจคำศัพท์ใหม่อย่างถูกต้อง หากประโยคแรกของหนังสือมีวลี “เขาเกิดในฝรั่งเศส” และประโยคสุดท้ายของหนังสือมีวลี “ภาษาแม่ของเขา” หม้อแปลงไฟฟ้าจะสามารถอนุมานได้ว่าภาษาแม่ของเขาคือภาษาฝรั่งเศส RNN อาจไม่สามารถทำได้ เนื่องจากสถานะที่ซ่อนอยู่ไม่รับประกันว่าจะเก็บข้อมูลนั้นไว้ นอกจากนี้ RNN จำเป็นต้องอ่านแต่ละคำทีละคำ จากนั้นอัปเดตสถานะที่ซ่อนอยู่ หม้อแปลงไฟฟ้าสามารถให้ความสนใจไปพร้อมๆ กัน
Transformers กับ CNN
โครงข่ายประสาทเทียมแบบหมุนวนใช้บริบทโดยรอบของแต่ละรายการตามลำดับเพื่อกำหนดความหมาย สำหรับคำบนหน้าเว็บ CNN จะพิจารณาคำที่อยู่รอบๆ ทันทีเพื่อค้นหาความหมายของคำนั้น มันจะไม่สามารถเชื่อมโยงหน้าสุดท้ายและหน้าแรกของหนังสือได้ CNN มักใช้กับรูปภาพเป็นส่วนใหญ่ เนื่องจากพิกเซลมักเกี่ยวข้องกับเพื่อนบ้านมากกว่าคำพูด ที่กล่าวว่า CNN สามารถใช้สำหรับ NLP ได้เช่นกัน
Transformers แตกต่างจาก CNN ตรงที่พวกเขามองมากกว่าแค่เพื่อนบ้านของรายการ พวกเขาใช้กลไกความสนใจเพื่อเปรียบเทียบแต่ละคำกับคำอื่นๆ ในอินพุต ทำให้เข้าใจบริบทได้กว้างและครอบคลุมมากขึ้น
โมเดลหม้อแปลงทำงานอย่างไร
หม้อแปลงไฟฟ้ามีชั้นของบล็อกความสนใจ โครงข่ายประสาทเทียมที่ป้อนไปข้างหน้า และการฝัง โมเดลรับอินพุตแบบข้อความและส่งกลับข้อความเอาต์พุต โดยทำตามขั้นตอนเหล่านี้:
- Tokenization:เปลี่ยนข้อความเป็นโทเค็น (คล้ายกับการแยกประโยคออกเป็นคำแต่ละคำ)
- การฝัง:แปลงโทเค็นเป็นเวกเตอร์ โดยผสมผสานการฝังตำแหน่งเพื่อให้โมเดลเข้าใจตำแหน่งของโทเค็นในอินพุต
- กลไกการเตือน:ประมวลผลโทเค็นโดยใช้การเอาใจใส่ตนเอง (สำหรับโทเค็นอินพุต) หรือความสนใจข้าม (ระหว่างโทเค็นอินพุตและโทเค็นที่สร้างขึ้น) กลไกนี้ช่วยให้โมเดลชั่งน้ำหนักความสำคัญของโทเค็นต่างๆ เมื่อสร้างเอาต์พุต
- โครงข่ายประสาทเทียมแบบฟีดฟอร์เวิร์ด:ส่งผ่านผลลัพธ์ผ่านโครงข่ายประสาทเทียมแบบฟีดฟอร์เวิร์ด ซึ่งช่วยให้โมเดลจับรูปแบบที่ซับซ้อนโดยแนะนำความไม่เชิงเส้น
- การทำซ้ำ:ขั้นตอนที่ 3–4 ทำซ้ำหลายครั้งผ่านหลายเลเยอร์เพื่อปรับแต่งผลลัพธ์
- การกระจายเอาต์พุต:สร้างการกระจายความน่าจะเป็นของโทเค็นที่เป็นไปได้ทั้งหมด
- การเลือกโทเค็น:เลือกโทเค็นที่มีความน่าจะเป็นสูงสุด
กระบวนการนี้ประกอบขึ้นเป็นหนึ่งการส่งต่อผ่านโมเดลหม้อแปลงไฟฟ้า โมเดลทำเช่นนี้ซ้ำๆ จนกระทั่งข้อความเอาท์พุตเสร็จสิ้น ภายในแต่ละรอบ กระบวนการฝังสามารถดำเนินการแบบคู่ขนานได้ เช่นเดียวกับกลไกความสนใจและระยะฟีดไปข้างหน้า โดยพื้นฐานแล้ว หม้อแปลงไฟฟ้าไม่จำเป็นต้องทำโทเค็นทีละอัน สามารถเรียกความสนใจไปยังโทเค็นทั้งหมดได้ในเวลาเดียวกัน
ตอนนี้เราสามารถหันไปใช้คำถามก่อนหน้านี้: โมเดลรู้ได้อย่างไรว่าโทเค็นใดที่ต้องเข้าร่วม? คำตอบก็คือเพียงดูข้อมูลการฝึกอบรมจำนวนมาก ในตอนแรก โมเดลจะดูแลโทเค็นที่ไม่ถูกต้อง และจะสร้างเอาต์พุตที่ไม่ถูกต้องเช่นกัน การใช้เอาท์พุตที่ถูกต้องซึ่งมาพร้อมกับข้อมูลการฝึก กลไกความสนใจสามารถปรับเปลี่ยนเพื่อเอาท์พุตคำตอบที่ถูกต้องได้ในครั้งต่อไป ตัวอย่างมากกว่าพันล้าน (และแม้กระทั่งล้านล้าน) กลไกความสนใจสามารถเลือกโทเค็นที่เหมาะสมได้เกือบตลอดเวลา
ตัวอย่างโมเดลหม้อแปลงไฟฟ้า
Transformers มีทุกที่ แม้ว่าจะได้รับการออกแบบมาเพื่อการแปลเป็นครั้งแรก แต่ Transformers ก็สามารถปรับขนาดได้ดีกับงานด้านภาษา การมองเห็น และแม้กระทั่งงานด้านเสียงเกือบทั้งหมด
โมเดลภาษาขนาดใหญ่
สถาปัตยกรรมหม้อแปลงไฟฟ้าขับเคลื่อนโมเดลภาษาขนาดใหญ่ (LLM) เกือบทั้งหมด: GPT, Claude, Gemini, Llama และโมเดลโอเพ่นซอร์สขนาดเล็กอีกหลายรุ่น LLM สามารถจัดการงานข้อความต่างๆ (และที่เพิ่มขึ้นเรื่อยๆ เช่น รูปภาพและเสียง) เช่น การตอบคำถาม การจัดหมวดหมู่ และการสร้างรูปแบบอิสระ
ซึ่งสามารถทำได้โดยการฝึกโมเดล Transformer กับตัวอย่างข้อความนับพันล้านตัวอย่าง (โดยปกติจะคัดลอกมาจากอินเทอร์เน็ต) จากนั้น บริษัทต่างๆ จะปรับแต่งแบบจำลองในตัวอย่างการจำแนกประเภทเพื่อสอนแบบจำลองวิธีการจำแนกประเภทอย่างถูกต้อง กล่าวโดยสรุป โมเดลจะเรียนรู้ฐานความรู้ที่กว้างขวาง จากนั้นจึง "สอน" ทักษะผ่านการปรับแต่งอย่างละเอียด
วิสัยทัศน์หม้อแปลง
วิชั่นทรานส์ฟอร์มเมอร์เป็นหม้อแปลงมาตรฐานที่ดัดแปลงมาเพื่อทำงานกับภาพ ข้อแตกต่างที่สำคัญคือกระบวนการโทเค็นต้องทำงานกับรูปภาพแทนข้อความ เมื่ออินพุตถูกเปลี่ยนเป็นโทเค็น การคำนวณของหม้อแปลงตามปกติจะเกิดขึ้น และสุดท้าย โทเค็นเอาท์พุตจะถูกใช้เพื่อจำแนกรูปภาพ (เช่น รูปภาพของแมว) Vision Transformer มักถูกรวมเข้ากับ LLM แบบข้อความเพื่อสร้าง LLM แบบต่อเนื่องหลายรูปแบบ โมเดลต่อเนื่องหลายรูปแบบเหล่านี้สามารถนำรูปภาพและเหตุผลมาประกอบได้ เช่น การยอมรับภาพร่างอินเทอร์เฟซผู้ใช้ และรับโค้ดที่จำเป็นในการสร้างกลับคืน
นอกจากนี้ CNN ยังได้รับความนิยมสำหรับงานเกี่ยวกับรูปภาพ แต่หม้อแปลงไฟฟ้าอนุญาตให้โมเดลใช้พิกเซลทั้งหมดในรูปภาพ แทนที่จะใช้เพียงพิกเซลใกล้เคียง ตัวอย่างเช่น หากรูปภาพมีป้ายหยุดที่ด้านซ้ายสุดและมีรถอยู่ทางด้านขวาสุด แบบจำลองสามารถระบุได้ว่ารถจำเป็นต้องหยุด CNN อาจไม่สามารถเชื่อมต่อจุดข้อมูลทั้งสองจุดได้เนื่องจากอยู่ห่างจากกันในภาพ
หม้อแปลงเสียง
หม้อแปลงเสียง เช่นเดียวกับ Vision Transformer คือหม้อแปลงมาตรฐานที่มีรูปแบบโทเค็นที่เป็นเอกลักษณ์ซึ่งปรับแต่งมาสำหรับข้อมูลเสียงโดยเฉพาะ โมเดลเหล่านี้สามารถประมวลผลทั้งข้อความและเสียงดิบเป็นอินพุต และเอาต์พุตข้อความหรือเสียงก็ได้ ตัวอย่างนี้คือ Whisper ซึ่งเป็นโมเดลคำพูดเป็นข้อความที่แปลงเสียงดิบเป็นข้อความถอดเสียง ซึ่งทำได้สำเร็จโดยการแบ่งส่วนเสียงออกเป็นชิ้นๆ เปลี่ยนชิ้นเหล่านี้เป็นสเปกโตรแกรม และเข้ารหัสสเปกโตรแกรมเป็นการฝัง การฝังเหล่านี้จะถูกประมวลผลโดยหม้อแปลงไฟฟ้า ซึ่งจะสร้างโทเค็นการถอดเสียงขั้นสุดท้าย
นอกเหนือจากแอปพลิเคชันแปลงคำพูดเป็นข้อความแล้ว ตัวแปลงเสียงยังมีกรณีการใช้งานอื่นๆ มากมาย รวมถึงการสร้างเพลง คำบรรยายอัตโนมัติ และการแปลงเสียง นอกจากนี้ บริษัทต่างๆ กำลังรวมหม้อแปลงเสียงเข้ากับ LLM เพื่อเปิดใช้งานการโต้ตอบด้วยเสียง ทำให้ผู้ใช้สามารถถามคำถามและรับคำตอบผ่านคำสั่งเสียงได้
ข้อดีของหม้อแปลงรุ่น
Transformers แพร่หลายในด้านการเรียนรู้ของเครื่องเนื่องจากความสามารถในการปรับขนาดและประสิทธิภาพที่โดดเด่นในงานต่างๆ มากมาย ความสำเร็จของพวกเขามาจากปัจจัยสำคัญหลายประการ:
บริบทยาว
กลไกความสนใจสามารถเปรียบเทียบโทเค็นทั้งหมดในลำดับอินพุตระหว่างกันได้ ดังนั้นข้อมูลตลอดอินพุตทั้งหมดจะถูกจดจำและใช้เพื่อสร้างเอาต์พุต ในทางตรงกันข้าม RNN จะลืมข้อมูลเก่าๆ และ CNN สามารถใช้ได้เฉพาะข้อมูลที่อยู่ใกล้กับแต่ละโทเค็นเท่านั้น นี่คือเหตุผลที่คุณสามารถอัปโหลดเพจหลายร้อยเพจไปยังแชทบอท LLM ถามคำถามเกี่ยวกับเพจใดก็ได้ และรับคำตอบที่แม่นยำ การขาดบริบทที่ยาวใน RNN และ CNN เป็นเหตุผลที่ดีที่สุดว่าทำไมหม้อแปลงจึงเอาชนะพวกเขาในการทำงาน
ความสามารถในการขนาน
กลไกความสนใจในหม้อแปลงสามารถดำเนินการแบบขนานกับโทเค็นทั้งหมดในลำดับอินพุต สิ่งนี้แตกต่างกับ RNN ซึ่งประมวลผลโทเค็นตามลำดับ ส่งผลให้สามารถฝึกอบรมและใช้งานหม้อแปลงได้รวดเร็วยิ่งขึ้น และให้การตอบสนองต่อผู้ใช้ที่รวดเร็วยิ่งขึ้น ความสามารถในการประมวลผลแบบขนานนี้ช่วยเพิ่มประสิทธิภาพของหม้อแปลงได้อย่างมากเมื่อเทียบกับ RNN
ความสามารถในการขยายขนาด
นักวิจัยได้เพิ่มขนาดของหม้อแปลงและปริมาณข้อมูลที่ใช้ในการฝึกอบรมอย่างต่อเนื่อง พวกเขายังไม่เห็นขีดจำกัดของจำนวนหม้อแปลงที่สามารถเรียนรู้ได้ ยิ่งโมเดลหม้อแปลงมีขนาดใหญ่เท่าใด ข้อความที่เข้าใจและสร้างได้ก็จะยิ่งซับซ้อนและเหมาะสมยิ่งขึ้น (GPT-3 มีพารามิเตอร์ 175 พันล้านพารามิเตอร์ ในขณะที่ GPT-4 มีมากกว่า 1 ล้านล้าน) เป็นเรื่องน่าทึ่งที่การขยายขนาดโมเดลหม้อแปลง เช่น การสร้างโมเดล 1 หมื่นล้านพารามิเตอร์ เทียบกับโมเดล 1 พันล้านพารามิเตอร์ ไม่จำเป็นต้องใช้เวลามากขึ้นมากนัก ความสามารถในการปรับขนาดนี้ทำให้เครื่องมืออันทรงพลังของหม้อแปลงสำหรับการใช้งานขั้นสูงต่างๆ
ข้อเสียของหม้อแปลงรุ่น
ข้อเสียของโมเดลหม้อแปลงไฟฟ้าคือต้องใช้ทรัพยากรในการคำนวณจำนวนมาก กลไกความสนใจเป็นแบบกำลังสอง: ทุกโทเค็นในอินพุตจะถูกเปรียบเทียบกับโทเค็นอื่นๆ โทเค็นสองอันจะมีการเปรียบเทียบ 4 รายการ โทเค็นสามรายการจะมี 9 รายการ โทเค็นสี่รายการจะมี 16 รายการ และอื่นๆ โดยพื้นฐานแล้ว ค่าใช้จ่ายในการคำนวณคือกำลังสองของจำนวนโทเค็น ต้นทุนกำลังสองนี้มีผลกระทบบางประการ:
ฮาร์ดแวร์เฉพาะทาง
LLM ไม่สามารถรันบนคอมพิวเตอร์ทั่วไปได้อย่างง่ายดาย เนื่องจากขนาดของมัน จึงมักจะต้องใช้ RAM หลายสิบกิกะไบต์ในการโหลดพารามิเตอร์โมเดล นอกจากนี้ CPU แบบดั้งเดิมยังไม่ได้รับการปรับให้เหมาะสมสำหรับการคำนวณแบบขนาน จำเป็นต้องใช้ GPU แทน LLM ที่ทำงานบน CPU อาจใช้เวลาไม่กี่นาทีในการสร้างโทเค็นเดียว น่าเสียดายที่ GPU ไม่ใช่ฮาร์ดแวร์ที่ถูกที่สุดหรือเข้าถึงได้มากที่สุด
ความยาวอินพุตจำกัด
Transformers มีจำนวนข้อความที่จำกัดที่สามารถประมวลผลได้ (เรียกว่าความยาวบริบท) เดิม GPT-3 สามารถประมวลผลโทเค็นได้เพียง 2,048 รายการเท่านั้น ความก้าวหน้าในการใช้งานความสนใจทำให้เกิดโมเดลที่มีความยาวบริบทสูงถึง 1 ล้านโทเค็น ถึงกระนั้นก็ยังจำเป็นต้องมีการวิจัยจำนวนมากเพื่อค้นหาโทเค็นเพิ่มเติมของความยาวบริบท ในทางตรงกันข้าม RNN ไม่ได้มีความยาวบริบทสูงสุด ความแม่นยำของมันจะลดลงอย่างมากเมื่ออินพุตเพิ่มขึ้น แต่คุณสามารถป้อนอินพุตยาว 2 ล้านโทเค็นเป็นหนึ่งเดียวได้ในตอนนี้
ค่าพลังงาน
ศูนย์ข้อมูลที่จ่ายไฟให้กับการคำนวณหม้อแปลงไฟฟ้าต้องใช้พลังงานในการขับเคลื่อนและใช้น้ำเพื่อทำให้เย็นลง จากการประมาณการครั้งหนึ่ง GPT-3 ต้องใช้ไฟฟ้า 1,300 เมกะวัตต์-ชั่วโมงในการฝึกอบรม ซึ่งเทียบเท่ากับการจ่ายไฟให้กับบ้าน 130 หลังในสหรัฐอเมริกาตลอดทั้งปี เมื่อแบบจำลองมีขนาดใหญ่ขึ้น ปริมาณพลังงานที่ต้องการก็จะเพิ่มขึ้น ภายในปี 2570 อุตสาหกรรม AI อาจต้องใช้ไฟฟ้าทุกปีเท่ากับเนเธอร์แลนด์ มีความพยายามอย่างมากเพื่อลดความต้องการหม้อแปลงพลังงาน แต่ปัญหานี้ยังไม่ได้รับการแก้ไข