ข้อมูลเบื้องต้นเกี่ยวกับโมเดล Transformer: คืออะไรและทำงานอย่างไร

เผยแพร่แล้ว: 2024-08-07

Transformers ถือเป็นความก้าวหน้าครั้งสำคัญของ AI โดยเฉพาะการประมวลผลภาษาธรรมชาติ (NLP) มีชื่อเสียงในด้านประสิทธิภาพและความสามารถในการปรับขยายได้ โดยมีความสำคัญในแอปพลิเคชันต่างๆ เช่น การแปลภาษาและ AI การสนทนา บทความนี้จะสำรวจโครงสร้าง การเปรียบเทียบกับโครงข่ายประสาทเทียมอื่นๆ และข้อดีและข้อเสีย

สารบัญ

  • หม้อแปลงไฟฟ้ารุ่นคืออะไร?
  • Transformers กับ CNN และ RNN
  • แบบจำลองหม้อแปลงทำงานอย่างไร
  • ตัวอย่างโมเดลหม้อแปลงไฟฟ้า
  • ข้อดี
  • ข้อเสีย

หม้อแปลงไฟฟ้ารุ่นคืออะไร?

หม้อแปลงไฟฟ้าเป็นรูปแบบการเรียนรู้เชิงลึกประเภทหนึ่งที่ใช้กันอย่างแพร่หลายใน NLP เนื่องจากประสิทธิภาพการทำงานและความสามารถในการปรับขนาด โมเดลดังกล่าวจึงเป็นแกนหลักของโมเดลต่างๆ เช่น ซีรีส์ GPT (สร้างโดย OpenAI), Claude (สร้างโดย Anthropic) และ Gemini (สร้างโดย Google) และมีการใช้งานอย่างกว้างขวางทั่วทั้งอุตสาหกรรม

โมเดลการเรียนรู้เชิงลึกประกอบด้วยองค์ประกอบหลัก 3 ส่วน ได้แก่ สถาปัตยกรรมโมเดล ข้อมูลการฝึกอบรม และวิธีการฝึกอบรม ภายในกรอบงานนี้ หม้อแปลงไฟฟ้าแสดงถึงสถาปัตยกรรมแบบจำลองประเภทหนึ่ง มันกำหนดโครงสร้างของโครงข่ายประสาทเทียมและการโต้ตอบ นวัตกรรมสำคัญที่ทำให้หม้อแปลงแตกต่างจากโมเดลการเรียนรู้ของเครื่อง (ML) อื่นๆ คือการใช้ "ความสนใจ"

ความสนใจเป็นกลไกในหม้อแปลงที่ช่วยให้สามารถประมวลผลข้อมูลเข้าได้อย่างมีประสิทธิภาพและรักษาข้อมูลไว้เป็นลำดับยาวๆ (เช่น เรียงความทั้งหมด)

นี่คือตัวอย่างที่จะแสดง “แมวนั่งอยู่บนฝั่งริมแม่น้ำ แล้วมันก็ย้ายไปที่กิ่งก้านของต้นไม้ใกล้เคียง” คุณสามารถรับรู้ว่า "ธนาคาร" ในที่นี้ไม่ใช่ธนาคารที่คุณฝากเงิน คุณอาจใช้คำใบ้บริบทของ "แม่น้ำ" เพื่อหาคำตอบ ความสนใจทำงานในลักษณะเดียวกัน ใช้คำอื่นเพื่อกำหนดความหมายของแต่ละคำ “มัน” หมายถึงอะไรในตัวอย่าง? แบบจำลองจะพิจารณาคำว่า "ย้าย" และ "ต้นไม้" เพื่อเป็นเบาะแสในการรู้ว่าคำตอบคือ "แมว"

คำถามสำคัญที่ยังไม่มีคำตอบคือแบบจำลองจะรู้ได้อย่างไรว่าควรพิจารณาคำใด เราจะพูดถึงเรื่องนี้ในภายหลัง แต่ตอนนี้เราได้กำหนดโมเดลหม้อแปลงแล้ว เราจะอธิบายเพิ่มเติมว่าทำไมจึงมีการใช้งานหนักมาก

ทำงานอย่างชาญฉลาดยิ่งขึ้นด้วย Grammarly
คู่หูการเขียน AI สำหรับใครก็ตามที่มีงานทำ

Transformers กับ CNN และ RNN

โครงข่ายประสาทเทียมที่เกิดซ้ำ (RNN) และโครงข่ายประสาทเทียมแบบหมุนวน (CNN) เป็นอีกสองโมเดลการเรียนรู้เชิงลึกทั่วไป แม้ว่า RNN และ CNN จะมีประโยชน์ แต่หม้อแปลงก็ถูกนำมาใช้กันอย่างแพร่หลายมากขึ้น เนื่องจากสามารถรองรับอินพุตที่ยาวได้ดีกว่ามาก

Transformers กับ RNN

โครงข่ายประสาทเทียมที่เกิดซ้ำเป็นแบบจำลองตามลำดับ การเปรียบเทียบที่เหมาะสมคือมนุษย์อ่านหนังสือ เมื่อพวกเขาอ่านทีละคำ ความทรงจำและความเข้าใจในหนังสือเล่มนี้ก็พัฒนาขึ้น สำหรับผู้อ่านที่ชาญฉลาด พวกเขาอาจทำนายสิ่งที่จะเกิดขึ้นต่อไปโดยพิจารณาจากสิ่งที่เกิดขึ้นก่อนหน้านี้ RNN ทำงานในลักษณะเดียวกัน โดยจะอ่านคำต่อคำ อัปเดตหน่วยความจำ (เรียกว่าสถานะที่ซ่อนอยู่) จากนั้นจึงสามารถคาดเดาได้ (เช่น คำถัดไปในประโยคหรือความรู้สึกของข้อความบางส่วน) ข้อเสียคือสถานะที่ซ่อนอยู่ไม่สามารถเก็บข้อมูลได้มากนัก หากคุณป้อนหนังสือทั้งเล่มลงใน RNN มันจะจำรายละเอียดมากมายเกี่ยวกับบทนำไม่ได้ เนื่องจากมีพื้นที่ที่ซ่อนอยู่ในสถานะที่ซ่อนอยู่เท่านั้น บทต่อมา โดยอาศัยอำนาจในการเพิ่มเข้าไปในสถานะที่ซ่อนไว้เมื่อเร็ว ๆ นี้ จะได้รับความสำคัญ

Transformers ไม่ประสบปัญหาหน่วยความจำแบบเดียวกัน พวกเขาเปรียบเทียบทุกคำกับคำอื่นๆ ในอินพุต (ซึ่งเป็นส่วนหนึ่งของกลไกความสนใจ) ดังนั้นพวกเขาจึงไม่จำเป็นต้องใช้สถานะที่ซ่อนอยู่หรือ "จดจำ" สิ่งที่เกิดขึ้นก่อนหน้านี้ การใช้การเปรียบเทียบในหนังสือเล่มเดียวกัน Transformer ก็เปรียบเสมือนมนุษย์อ่านคำถัดไปในหนังสือแล้วดูคำก่อนหน้าทุกคำในหนังสือเพื่อทำความเข้าใจคำศัพท์ใหม่อย่างถูกต้อง หากประโยคแรกของหนังสือมีวลี “เขาเกิดในฝรั่งเศส” และประโยคสุดท้ายของหนังสือมีวลี “ภาษาแม่ของเขา” หม้อแปลงไฟฟ้าจะสามารถอนุมานได้ว่าภาษาแม่ของเขาคือภาษาฝรั่งเศส RNN อาจไม่สามารถทำได้ เนื่องจากสถานะที่ซ่อนอยู่ไม่รับประกันว่าจะเก็บข้อมูลนั้นไว้ นอกจากนี้ RNN จำเป็นต้องอ่านแต่ละคำทีละคำ จากนั้นอัปเดตสถานะที่ซ่อนอยู่ หม้อแปลงไฟฟ้าสามารถให้ความสนใจไปพร้อมๆ กัน

Transformers กับ CNN

โครงข่ายประสาทเทียมแบบหมุนวนใช้บริบทโดยรอบของแต่ละรายการตามลำดับเพื่อกำหนดความหมาย สำหรับคำบนหน้าเว็บ CNN จะพิจารณาคำที่อยู่รอบๆ ทันทีเพื่อค้นหาความหมายของคำนั้น มันจะไม่สามารถเชื่อมโยงหน้าสุดท้ายและหน้าแรกของหนังสือได้ CNN มักใช้กับรูปภาพเป็นส่วนใหญ่ เนื่องจากพิกเซลมักเกี่ยวข้องกับเพื่อนบ้านมากกว่าคำพูด ที่กล่าวว่า CNN สามารถใช้สำหรับ NLP ได้เช่นกัน

Transformers แตกต่างจาก CNN ตรงที่พวกเขามองมากกว่าแค่เพื่อนบ้านของรายการ พวกเขาใช้กลไกความสนใจเพื่อเปรียบเทียบแต่ละคำกับคำอื่นๆ ในอินพุต ทำให้เข้าใจบริบทได้กว้างและครอบคลุมมากขึ้น

โมเดลหม้อแปลงทำงานอย่างไร

หม้อแปลงไฟฟ้ามีชั้นของบล็อกความสนใจ โครงข่ายประสาทเทียมที่ป้อนไปข้างหน้า และการฝัง โมเดลรับอินพุตแบบข้อความและส่งกลับข้อความเอาต์พุต โดยทำตามขั้นตอนเหล่านี้:

  1. Tokenization:เปลี่ยนข้อความเป็นโทเค็น (คล้ายกับการแยกประโยคออกเป็นคำแต่ละคำ)
  2. การฝัง:แปลงโทเค็นเป็นเวกเตอร์ โดยผสมผสานการฝังตำแหน่งเพื่อให้โมเดลเข้าใจตำแหน่งของโทเค็นในอินพุต
  3. กลไกการเตือน:ประมวลผลโทเค็นโดยใช้การเอาใจใส่ตนเอง (สำหรับโทเค็นอินพุต) หรือความสนใจข้าม (ระหว่างโทเค็นอินพุตและโทเค็นที่สร้างขึ้น) กลไกนี้ช่วยให้โมเดลชั่งน้ำหนักความสำคัญของโทเค็นต่างๆ เมื่อสร้างเอาต์พุต
  4. โครงข่ายประสาทเทียมแบบฟีดฟอร์เวิร์ด:ส่งผ่านผลลัพธ์ผ่านโครงข่ายประสาทเทียมแบบฟีดฟอร์เวิร์ด ซึ่งช่วยให้โมเดลจับรูปแบบที่ซับซ้อนโดยแนะนำความไม่เชิงเส้น
  5. การทำซ้ำ:ขั้นตอนที่ 3–4 ทำซ้ำหลายครั้งผ่านหลายเลเยอร์เพื่อปรับแต่งผลลัพธ์
  6. การกระจายเอาต์พุต:สร้างการกระจายความน่าจะเป็นของโทเค็นที่เป็นไปได้ทั้งหมด
  7. การเลือกโทเค็น:เลือกโทเค็นที่มีความน่าจะเป็นสูงสุด

กระบวนการนี้ประกอบขึ้นเป็นหนึ่งการส่งต่อผ่านโมเดลหม้อแปลงไฟฟ้า โมเดลทำเช่นนี้ซ้ำๆ จนกระทั่งข้อความเอาท์พุตเสร็จสิ้น ภายในแต่ละรอบ กระบวนการฝังสามารถดำเนินการแบบคู่ขนานได้ เช่นเดียวกับกลไกความสนใจและระยะฟีดไปข้างหน้า โดยพื้นฐานแล้ว หม้อแปลงไฟฟ้าไม่จำเป็นต้องทำโทเค็นทีละอัน สามารถเรียกความสนใจไปยังโทเค็นทั้งหมดได้ในเวลาเดียวกัน

ตอนนี้เราสามารถหันไปใช้คำถามก่อนหน้านี้: โมเดลรู้ได้อย่างไรว่าโทเค็นใดที่ต้องเข้าร่วม? คำตอบก็คือเพียงดูข้อมูลการฝึกอบรมจำนวนมาก ในตอนแรก โมเดลจะดูแลโทเค็นที่ไม่ถูกต้อง และจะสร้างเอาต์พุตที่ไม่ถูกต้องเช่นกัน การใช้เอาท์พุตที่ถูกต้องซึ่งมาพร้อมกับข้อมูลการฝึก กลไกความสนใจสามารถปรับเปลี่ยนเพื่อเอาท์พุตคำตอบที่ถูกต้องได้ในครั้งต่อไป ตัวอย่างมากกว่าพันล้าน (และแม้กระทั่งล้านล้าน) กลไกความสนใจสามารถเลือกโทเค็นที่เหมาะสมได้เกือบตลอดเวลา

ตัวอย่างโมเดลหม้อแปลงไฟฟ้า

Transformers มีทุกที่ แม้ว่าจะได้รับการออกแบบมาเพื่อการแปลเป็นครั้งแรก แต่ Transformers ก็สามารถปรับขนาดได้ดีกับงานด้านภาษา การมองเห็น และแม้กระทั่งงานด้านเสียงเกือบทั้งหมด

โมเดลภาษาขนาดใหญ่

สถาปัตยกรรมหม้อแปลงไฟฟ้าขับเคลื่อนโมเดลภาษาขนาดใหญ่ (LLM) เกือบทั้งหมด: GPT, Claude, Gemini, Llama และโมเดลโอเพ่นซอร์สขนาดเล็กอีกหลายรุ่น LLM สามารถจัดการงานข้อความต่างๆ (และที่เพิ่มขึ้นเรื่อยๆ เช่น รูปภาพและเสียง) เช่น การตอบคำถาม การจัดหมวดหมู่ และการสร้างรูปแบบอิสระ

ซึ่งสามารถทำได้โดยการฝึกโมเดล Transformer กับตัวอย่างข้อความนับพันล้านตัวอย่าง (โดยปกติจะคัดลอกมาจากอินเทอร์เน็ต) จากนั้น บริษัทต่างๆ จะปรับแต่งแบบจำลองในตัวอย่างการจำแนกประเภทเพื่อสอนแบบจำลองวิธีการจำแนกประเภทอย่างถูกต้อง กล่าวโดยสรุป โมเดลจะเรียนรู้ฐานความรู้ที่กว้างขวาง จากนั้นจึง "สอน" ทักษะผ่านการปรับแต่งอย่างละเอียด

วิสัยทัศน์หม้อแปลง

วิชั่นทรานส์ฟอร์มเมอร์เป็นหม้อแปลงมาตรฐานที่ดัดแปลงมาเพื่อทำงานกับภาพ ข้อแตกต่างที่สำคัญคือกระบวนการโทเค็นต้องทำงานกับรูปภาพแทนข้อความ เมื่ออินพุตถูกเปลี่ยนเป็นโทเค็น การคำนวณของหม้อแปลงตามปกติจะเกิดขึ้น และสุดท้าย โทเค็นเอาท์พุตจะถูกใช้เพื่อจำแนกรูปภาพ (เช่น รูปภาพของแมว) Vision Transformer มักถูกรวมเข้ากับ LLM แบบข้อความเพื่อสร้าง LLM แบบต่อเนื่องหลายรูปแบบ โมเดลต่อเนื่องหลายรูปแบบเหล่านี้สามารถนำรูปภาพและเหตุผลมาประกอบได้ เช่น การยอมรับภาพร่างอินเทอร์เฟซผู้ใช้ และรับโค้ดที่จำเป็นในการสร้างกลับคืน

นอกจากนี้ CNN ยังได้รับความนิยมสำหรับงานเกี่ยวกับรูปภาพ แต่หม้อแปลงไฟฟ้าอนุญาตให้โมเดลใช้พิกเซลทั้งหมดในรูปภาพ แทนที่จะใช้เพียงพิกเซลใกล้เคียง ตัวอย่างเช่น หากรูปภาพมีป้ายหยุดที่ด้านซ้ายสุดและมีรถอยู่ทางด้านขวาสุด แบบจำลองสามารถระบุได้ว่ารถจำเป็นต้องหยุด CNN อาจไม่สามารถเชื่อมต่อจุดข้อมูลทั้งสองจุดได้เนื่องจากอยู่ห่างจากกันในภาพ

หม้อแปลงเสียง

หม้อแปลงเสียง เช่นเดียวกับ Vision Transformer คือหม้อแปลงมาตรฐานที่มีรูปแบบโทเค็นที่เป็นเอกลักษณ์ซึ่งปรับแต่งมาสำหรับข้อมูลเสียงโดยเฉพาะ โมเดลเหล่านี้สามารถประมวลผลทั้งข้อความและเสียงดิบเป็นอินพุต และเอาต์พุตข้อความหรือเสียงก็ได้ ตัวอย่างนี้คือ Whisper ซึ่งเป็นโมเดลคำพูดเป็นข้อความที่แปลงเสียงดิบเป็นข้อความถอดเสียง ซึ่งทำได้สำเร็จโดยการแบ่งส่วนเสียงออกเป็นชิ้นๆ เปลี่ยนชิ้นเหล่านี้เป็นสเปกโตรแกรม และเข้ารหัสสเปกโตรแกรมเป็นการฝัง การฝังเหล่านี้จะถูกประมวลผลโดยหม้อแปลงไฟฟ้า ซึ่งจะสร้างโทเค็นการถอดเสียงขั้นสุดท้าย

นอกเหนือจากแอปพลิเคชันแปลงคำพูดเป็นข้อความแล้ว ตัวแปลงเสียงยังมีกรณีการใช้งานอื่นๆ มากมาย รวมถึงการสร้างเพลง คำบรรยายอัตโนมัติ และการแปลงเสียง นอกจากนี้ บริษัทต่างๆ กำลังรวมหม้อแปลงเสียงเข้ากับ LLM เพื่อเปิดใช้งานการโต้ตอบด้วยเสียง ทำให้ผู้ใช้สามารถถามคำถามและรับคำตอบผ่านคำสั่งเสียงได้

ข้อดีของหม้อแปลงรุ่น

Transformers แพร่หลายในด้านการเรียนรู้ของเครื่องเนื่องจากความสามารถในการปรับขนาดและประสิทธิภาพที่โดดเด่นในงานต่างๆ มากมาย ความสำเร็จของพวกเขามาจากปัจจัยสำคัญหลายประการ:

บริบทยาว

กลไกความสนใจสามารถเปรียบเทียบโทเค็นทั้งหมดในลำดับอินพุตระหว่างกันได้ ดังนั้นข้อมูลตลอดอินพุตทั้งหมดจะถูกจดจำและใช้เพื่อสร้างเอาต์พุต ในทางตรงกันข้าม RNN จะลืมข้อมูลเก่าๆ และ CNN สามารถใช้ได้เฉพาะข้อมูลที่อยู่ใกล้กับแต่ละโทเค็นเท่านั้น นี่คือเหตุผลที่คุณสามารถอัปโหลดเพจหลายร้อยเพจไปยังแชทบอท LLM ถามคำถามเกี่ยวกับเพจใดก็ได้ และรับคำตอบที่แม่นยำ การขาดบริบทที่ยาวใน RNN และ CNN เป็นเหตุผลที่ดีที่สุดว่าทำไมหม้อแปลงจึงเอาชนะพวกเขาในการทำงาน

ความสามารถในการขนาน

กลไกความสนใจในหม้อแปลงสามารถดำเนินการแบบขนานกับโทเค็นทั้งหมดในลำดับอินพุต สิ่งนี้แตกต่างกับ RNN ซึ่งประมวลผลโทเค็นตามลำดับ ส่งผลให้สามารถฝึกอบรมและใช้งานหม้อแปลงได้รวดเร็วยิ่งขึ้น และให้การตอบสนองต่อผู้ใช้ที่รวดเร็วยิ่งขึ้น ความสามารถในการประมวลผลแบบขนานนี้ช่วยเพิ่มประสิทธิภาพของหม้อแปลงได้อย่างมากเมื่อเทียบกับ RNN

ความสามารถในการขยายขนาด

นักวิจัยได้เพิ่มขนาดของหม้อแปลงและปริมาณข้อมูลที่ใช้ในการฝึกอบรมอย่างต่อเนื่อง พวกเขายังไม่เห็นขีดจำกัดของจำนวนหม้อแปลงที่สามารถเรียนรู้ได้ ยิ่งโมเดลหม้อแปลงมีขนาดใหญ่เท่าใด ข้อความที่เข้าใจและสร้างได้ก็จะยิ่งซับซ้อนและเหมาะสมยิ่งขึ้น (GPT-3 มีพารามิเตอร์ 175 พันล้านพารามิเตอร์ ในขณะที่ GPT-4 มีมากกว่า 1 ล้านล้าน) เป็นเรื่องน่าทึ่งที่การขยายขนาดโมเดลหม้อแปลง เช่น การสร้างโมเดล 1 หมื่นล้านพารามิเตอร์ เทียบกับโมเดล 1 พันล้านพารามิเตอร์ ไม่จำเป็นต้องใช้เวลามากขึ้นมากนัก ความสามารถในการปรับขนาดนี้ทำให้เครื่องมืออันทรงพลังของหม้อแปลงสำหรับการใช้งานขั้นสูงต่างๆ

ข้อเสียของหม้อแปลงรุ่น

ข้อเสียของโมเดลหม้อแปลงไฟฟ้าคือต้องใช้ทรัพยากรในการคำนวณจำนวนมาก กลไกความสนใจเป็นแบบกำลังสอง: ทุกโทเค็นในอินพุตจะถูกเปรียบเทียบกับโทเค็นอื่นๆ โทเค็นสองอันจะมีการเปรียบเทียบ 4 รายการ โทเค็นสามรายการจะมี 9 รายการ โทเค็นสี่รายการจะมี 16 รายการ และอื่นๆ โดยพื้นฐานแล้ว ค่าใช้จ่ายในการคำนวณคือกำลังสองของจำนวนโทเค็น ต้นทุนกำลังสองนี้มีผลกระทบบางประการ:

ฮาร์ดแวร์เฉพาะทาง

LLM ไม่สามารถรันบนคอมพิวเตอร์ทั่วไปได้อย่างง่ายดาย เนื่องจากขนาดของมัน จึงมักจะต้องใช้ RAM หลายสิบกิกะไบต์ในการโหลดพารามิเตอร์โมเดล นอกจากนี้ CPU แบบดั้งเดิมยังไม่ได้รับการปรับให้เหมาะสมสำหรับการคำนวณแบบขนาน จำเป็นต้องใช้ GPU แทน LLM ที่ทำงานบน CPU อาจใช้เวลาไม่กี่นาทีในการสร้างโทเค็นเดียว น่าเสียดายที่ GPU ไม่ใช่ฮาร์ดแวร์ที่ถูกที่สุดหรือเข้าถึงได้มากที่สุด

ความยาวอินพุตจำกัด

Transformers มีจำนวนข้อความที่จำกัดที่สามารถประมวลผลได้ (เรียกว่าความยาวบริบท) เดิม GPT-3 สามารถประมวลผลโทเค็นได้เพียง 2,048 รายการเท่านั้น ความก้าวหน้าในการใช้งานความสนใจทำให้เกิดโมเดลที่มีความยาวบริบทสูงถึง 1 ล้านโทเค็น ถึงกระนั้นก็ยังจำเป็นต้องมีการวิจัยจำนวนมากเพื่อค้นหาโทเค็นเพิ่มเติมของความยาวบริบท ในทางตรงกันข้าม RNN ไม่ได้มีความยาวบริบทสูงสุด ความแม่นยำของมันจะลดลงอย่างมากเมื่ออินพุตเพิ่มขึ้น แต่คุณสามารถป้อนอินพุตยาว 2 ล้านโทเค็นเป็นหนึ่งเดียวได้ในตอนนี้

ค่าพลังงาน

ศูนย์ข้อมูลที่จ่ายไฟให้กับการคำนวณหม้อแปลงไฟฟ้าต้องใช้พลังงานในการขับเคลื่อนและใช้น้ำเพื่อทำให้เย็นลง จากการประมาณการครั้งหนึ่ง GPT-3 ต้องใช้ไฟฟ้า 1,300 เมกะวัตต์-ชั่วโมงในการฝึกอบรม ซึ่งเทียบเท่ากับการจ่ายไฟให้กับบ้าน 130 หลังในสหรัฐอเมริกาตลอดทั้งปี เมื่อแบบจำลองมีขนาดใหญ่ขึ้น ปริมาณพลังงานที่ต้องการก็จะเพิ่มขึ้น ภายในปี 2570 อุตสาหกรรม AI อาจต้องใช้ไฟฟ้าทุกปีเท่ากับเนเธอร์แลนด์ มีความพยายามอย่างมากเพื่อลดความต้องการหม้อแปลงพลังงาน แต่ปัญหานี้ยังไม่ได้รับการแก้ไข