อธิบายโมเดล AI เชิงสร้างสรรค์

เผยแพร่แล้ว: 2024-04-15

เมื่อคุณคิดถึงโมเดล AI เชิงสร้างสรรค์ คุณอาจนึกถึงโมเดลภาษาขนาดใหญ่ (LLM) ที่สร้างความฮือฮาในช่วงไม่กี่ปีที่ผ่านมา อย่างไรก็ตาม generative AI นั้นมีอายุย้อนกลับไปหลายทศวรรษ และ LLM เป็นเพียงวิวัฒนาการล่าสุด และนอกเหนือจาก LLM แล้ว โมเดล AI กำเนิดหลายประเภทยังใช้สำหรับเครื่องมือ AI กำเนิดที่แตกต่างกันและกรณีการใช้งาน เช่น โมเดลการแพร่กระจายที่ใช้สำหรับการสร้างภาพ

ในบทความนี้ เราจะอธิบายว่าโมเดล AI เชิงสร้างสรรค์คืออะไร ได้รับการพัฒนาอย่างไร และให้ข้อมูลเชิงลึกเกี่ยวกับโมเดล AI เชิงสร้างสรรค์ที่พบมากที่สุดในปัจจุบันบางส่วน ซึ่งเพียงพอที่จะทำให้คุณเข้าใจแนวคิดของแบบจำลองเหล่านี้ซึ่งจะทำให้คุณประทับใจ เพื่อนและเพื่อนร่วมงาน โดยที่คุณไม่จำเป็นต้องเรียนหลักสูตรวิทยาลัยด้านแมชชีนเลิร์นนิง (ML)

โมเดล AI เชิงสร้างสรรค์คืออะไร?

โมเดล AI เจนเนอเรชั่นเป็นส่วนหนึ่งของระบบปัญญาประดิษฐ์ที่เชี่ยวชาญในการสร้างเนื้อหาต้นฉบับใหม่ๆ ที่สะท้อนลักษณะของข้อมูลการฝึก ด้วยการเรียนรู้จากรูปแบบและความสัมพันธ์ในข้อมูล โมเดลเหล่านี้สามารถสร้างผลลัพธ์ เช่น ข้อความ รูปภาพ เสียง หรือวิดีโอที่มีลักษณะคล้ายกับสไตล์ โทน และความแตกต่างของแหล่งข้อมูล ความสามารถนี้วางตำแหน่ง generative AI ให้เป็นหัวใจของนวัตกรรม ช่วยให้สามารถประยุกต์ใช้ความคิดสร้างสรรค์และไดนามิกในสาขาต่างๆ ด้วยการตีความและแปลงข้อมูลอินพุตให้เป็นผลงานสร้างสรรค์ใหม่ๆ

ทำงานอย่างชาญฉลาดยิ่งขึ้นด้วย Grammarly
คู่หูการเขียน AI สำหรับใครก็ตามที่มีงานทำ

โมเดล AI เชิงสร้างสรรค์ทำงานอย่างไร

โมเดล AI ทั่วไปทำงานโดยใช้ประโยชน์จากรูปแบบที่ซับซ้อนของอัลกอริทึม ML ที่เรียกว่าโครงข่ายประสาทเทียม โครงข่ายประสาทเทียมประกอบด้วยโหนดที่เชื่อมต่อถึงกันหลายชั้น แต่ละชั้นแสดงด้วยโค้ดคอมพิวเตอร์ โหนดเหล่านี้ทำงานเล็กๆ น้อยๆ เป็นรายบุคคล แต่มีส่วนช่วยในการตัดสินใจที่ซับซ้อน สะท้อนการทำงานของเซลล์ประสาทในสมองของมนุษย์

เพื่อเป็นการอธิบาย ให้พิจารณาโครงข่ายประสาทเทียมที่ทำหน้าที่แยกแยะระหว่างรูปภาพพายและเค้ก เครือข่ายจะวิเคราะห์ภาพในระดับละเอียด โดยแบ่งออกเป็นพิกเซล ในระดับพื้นฐาน จะมีโหนดต่างๆ ในเครือข่ายที่ออกแบบมาเพื่อทำความเข้าใจพิกเซลและกลุ่มพิกเซลต่างๆ บางทีบางคนอาจดูว่ามีชั้นในของหวานหรือไม่ ในขณะที่บางคนอาจพิจารณาว่ามีเปลือกน้ำฅาลหรือเปลือกแข็งหรือไม่ แต่ละโหนดจะจัดเก็บข้อมูลเกี่ยวกับลักษณะของพายและเค้ก และเมื่อใดก็ตามที่มีภาพใหม่เกิดขึ้น ภาพนั้นจะถูกประมวลผลผ่านแต่ละโหนดเพื่อคาดการณ์ขั้นสุดท้าย

ในบริบทของ generative AI หลักการนี้ขยายไปไกลกว่าแค่การรับรู้ถึงการสร้างเนื้อหาต้นฉบับใหม่ แทนที่จะระบุเพียงคุณสมบัติเท่านั้น โมเดลกำเนิดใช้โครงข่ายประสาทเทียมเพื่อทำความเข้าใจรูปแบบและโครงสร้างของข้อมูลที่พวกเขาฝึกฝน กระบวนการนี้เกี่ยวข้องกับการโต้ตอบและการปรับเปลี่ยนที่ซับซ้อนภายในโครงข่ายประสาทเทียม ซึ่งได้รับคำแนะนำจากอัลกอริธึมที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพความคิดสร้างสรรค์และความแม่นยำของเอาต์พุตที่สร้างขึ้น

โมเดล AI เชิงสร้างสรรค์ได้รับการพัฒนาอย่างไร

การพัฒนาโมเดล AI เจนเนอเรชั่นเกี่ยวข้องกับขั้นตอนที่ซับซ้อนและเกี่ยวข้องกัน ซึ่งโดยทั่วไปจะดำเนินการโดยทีมนักวิจัยและวิศวกร โมเดลเหล่านี้ เช่น GPT (หม้อแปลงไฟฟ้าที่ได้รับการฝึกอบรมล่วงหน้าทั่วไป) จาก OpenAI และสถาปัตยกรรมอื่นๆ ที่คล้ายคลึงกัน ได้รับการออกแบบเพื่อสร้างเนื้อหาใหม่ที่เลียนแบบการกระจายข้อมูลที่ได้รับการฝึกอบรม

ต่อไปนี้คือรายละเอียดทีละขั้นตอนของกระบวนการดังกล่าว:

1 การรวบรวมข้อมูล

ขั้นแรกนักวิทยาศาสตร์ข้อมูลและวิศวกรจะกำหนดเป้าหมายและข้อกำหนดของโครงการ ซึ่งจะแนะนำให้พวกเขารวบรวมชุดข้อมูลที่กว้างขวางและเหมาะสม พวกเขามักจะใช้ชุดข้อมูลสาธารณะซึ่งมีข้อความหรือรูปภาพจำนวนมากตามความต้องการของพวกเขา ตัวอย่างเช่น การฝึกอบรม ChatGPT (GPT-3.5) เกี่ยวข้องกับการประมวลผลข้อมูล 570GB เทียบเท่ากับ 300 พันล้านคำจากแหล่งอินเทอร์เน็ตสาธารณะ รวมถึงเนื้อหาเกือบทั้งหมดของ Wikipedia

2 การเลือกรุ่น

การเลือกสถาปัตยกรรมโมเดลที่เหมาะสมถือเป็นขั้นตอนสำคัญในการพัฒนาระบบ AI เชิงสร้างสรรค์ การตัดสินใจจะขึ้นอยู่กับลักษณะของงานที่มีอยู่ ประเภทของข้อมูลที่มีอยู่ คุณภาพของผลลัพธ์ที่ต้องการ และข้อจำกัดในการคำนวณ สถาปัตยกรรมเฉพาะ รวมถึง VAE, GAN และโมเดลที่ใช้หม้อแปลงไฟฟ้าและการแพร่กระจาย จะมีการกล่าวถึงในรายละเอียดเพิ่มเติมในบทความนี้ ในขั้นตอนนี้ สิ่งสำคัญคือต้องเข้าใจว่าโมเดลใหม่มักจะเริ่มต้นจากเฟรมเวิร์กสถาปัตยกรรมที่มีอยู่แล้ว แนวทางนี้ใช้ประโยชน์จากโครงสร้างที่ได้รับการพิสูจน์แล้วเป็นรากฐาน ทำให้เกิดการปรับแต่งและนวัตกรรมที่ปรับให้เหมาะกับความต้องการเฉพาะของโครงการที่มีอยู่

3 โมเดลการฝึกอบรม

โมเดลที่เลือกได้รับการฝึกฝนโดยใช้ชุดข้อมูลที่รวบรวมตั้งแต่ขั้นตอนแรก โมเดล AI เชิงสร้างสรรค์มักต้องใช้พลังการประมวลผลจำนวนมาก โดยใช้ฮาร์ดแวร์พิเศษ เช่น GPU (หน่วยประมวลผลกราฟิก) และ TPU (หน่วยประมวลผลเทนเซอร์) แม้ว่าแนวทางการฝึกจะแตกต่างกันไปตามสถาปัตยกรรมของโมเดล แต่โมเดลทั้งหมดจะต้องผ่านกระบวนการที่เรียกว่าการปรับไฮเปอร์พารามิเตอร์ นี่คือจุดที่นักวิทยาศาสตร์ข้อมูลปรับการตั้งค่าประสิทธิภาพบางอย่างเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

4 การประเมินและการปรับแต่ง

สุดท้าย ประสิทธิภาพของโมเดลได้รับการประเมินหรือทดสอบในโลกแห่งความเป็นจริง การประเมินโมเดล AI เชิงสร้างสรรค์นั้นแตกต่างจากการประเมินโมเดล ML แบบดั้งเดิม เนื่องจาก AI เชิงสร้างสรรค์จะสร้างเอาต์พุตใหม่ทั้งหมด และคุณภาพของเอาต์พุตนี้มีแนวโน้มที่จะเป็นแบบอัตนัย หน่วยวัดจะแตกต่างกันไปขึ้นอยู่กับสิ่งที่โมเดลกำลังสร้าง และเทคนิคการประเมินสำหรับ generative AI โดยทั่วไปจะรวมถึงการใช้ผู้ประเมินโดยมนุษย์ และอาจใช้กลยุทธ์ในการให้โมเดล AI กำเนิดประเมินซึ่งกันและกัน โดยทั่วไปการเรียนรู้จากขั้นตอนการประเมินจะถูกนำไปใช้อีกครั้งในการปรับแต่งโมเดลอย่างละเอียด หรือแม้แต่การฝึกอบรมใหม่ หลังจากตรวจสอบประสิทธิภาพของแบบจำลองแล้ว ก็พร้อมสำหรับการผลิต

ประเภทของโมเดล AI เชิงสร้างสรรค์

จากความรู้พื้นฐานของเราเกี่ยวกับโมเดล AI แบบกำเนิดและโครงข่ายประสาทเทียมที่ขับเคลื่อนโมเดลเหล่านี้ ตอนนี้เราพร้อมที่จะเจาะลึกเข้าไปในสถาปัตยกรรมโมเดลประเภทเฉพาะที่เกิดขึ้นตั้งแต่ต้นปี 2010 เราจะสำรวจจุดแข็งและจุดอ่อนที่เป็นเอกลักษณ์ของแต่ละรุ่น ตลอดจนการใช้งานจริง

ต่อไปนี้เป็นภาพรวมโดยย่อของโมเดลที่เราจะพูดถึง:

  • ตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAE)เชี่ยวชาญในการเรียนรู้การกระจายข้อมูลที่ซับซ้อน และมักใช้สำหรับงานต่างๆ เช่น การสร้างและแก้ไขภาพ
  • Generative Adversarial Network (GAN)ขึ้นชื่อในด้านความสามารถในการสร้างภาพที่สมจริงสูงและได้รับความนิยมในการใช้งานเชิงสร้างสรรค์ที่หลากหลาย
  • แบบจำลองการแพร่กระจายเป็นแบบจำลองประเภทใหม่ที่สร้างตัวอย่างคุณภาพสูงผ่านกระบวนการค่อยๆ เพิ่มแล้วจึงกำจัดสัญญาณรบกวนออก
  • โมเดลภาษาเก่งในการทำความเข้าใจและสร้างภาษามนุษย์ ทำให้มีประโยชน์สำหรับแอปพลิเคชัน เช่น แชทบอท และการเติมข้อความ
  • โมเดลที่ใช้หม้อแปลงไฟฟ้าได้รับการออกแบบมาสำหรับงานประมวลผลภาษาธรรมชาติ (NLP) แต่ได้รับการดัดแปลงเพื่อใช้ในโมเดลกำเนิดเนื่องจากความสามารถอันทรงพลังในการจัดการข้อมูลตามลำดับ

มาเจาะลึกแต่ละสถาปัตยกรรมเหล่านี้เพื่อทำความเข้าใจวิธีการทำงานและจุดที่สามารถนำไปใช้ได้ดีที่สุด

ตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAE)

ตัวเข้ารหัสอัตโนมัติแบบต่างๆ ได้รับการคิดค้นโดย Max Welling และ Diederik P. Kingma ในปี 2013 โดยอาศัยข้อเท็จจริงที่ว่าโครงข่ายประสาทเทียมสามารถเข้ารหัสแนวคิดระดับสูงที่โมเดลเรียนรู้ในระหว่างขั้นตอนการฝึกอบรมได้ บางครั้งเรียกว่า "การบีบอัด" หรือ "การฉายภาพ" ของข้อมูลดิบ

ตัวอย่างเช่น หากแบบจำลองดูภาพเค้ก ก็อาจเปลี่ยนให้เป็นการเข้ารหัสที่มีคุณสมบัติทั้งหมดของภาพ เช่น การโรย สีฟรอสติ้ง ชั้นที่เป็นฟอง ฯลฯ การเข้ารหัสนี้ดูเหมือนชุดตัวเลขที่สมเหตุสมผล แบบจำลอง แต่ไม่ใช่สำหรับมนุษย์ มันสามารถถอดรหัสได้โดยโครงข่ายประสาทเทียมอื่นเพื่อพยายามสร้างภาพต้นฉบับขึ้นมาใหม่ แม้ว่าจะมีช่องว่างอยู่บ้างเนื่องจากการเข้ารหัสเป็นการบีบอัด โมเดลประเภทนี้ซึ่งมีตัวเข้ารหัสและตัวถอดรหัสทำงานร่วมกันเรียกว่าตัวเข้ารหัสอัตโนมัติ

ตัวเข้ารหัสอัตโนมัติแบบแปรผันนำแนวคิดตัวเข้ารหัสอัตโนมัติมาใช้เพื่อสร้างเอาต์พุตใหม่ เมื่อสร้างการเข้ารหัส VAE จะใช้ความน่าจะเป็นแทนตัวเลขที่ไม่ต่อเนื่อง ท้ายที่สุดแล้ววิปครีมถือเป็นฟรอสติ้งหรือไม่? บางครั้งก็ใช่; บางครั้งไม่มี

ปรากฎว่าหากคุณฝึกโครงข่ายประสาทเทียมเพื่อสร้างการเข้ารหัสที่น่าจะเป็นเหล่านี้ และฝึกโครงข่ายประสาทเทียมอื่นให้ถอดรหัส คุณจะได้รับผลลัพธ์ที่น่าสนใจทีเดียว ตัวถอดรหัสสามารถสุ่มตัวอย่างจุดใน "พื้นที่" การเข้ารหัสแบบแปรผัน และสร้างเอาต์พุตใหม่ทั้งหมดที่จะยังคงดูสมจริงเนื่องจากยังคงรักษาความสัมพันธ์ที่น่าจะเป็นของข้อมูลการฝึกไว้

ข้อดีและข้อเสีย

ตัวเข้ารหัสอัตโนมัติแบบต่างๆ ใช้การเรียนรู้แบบไม่มีผู้ดูแล ซึ่งหมายความว่าโมเดลจะเรียนรู้ได้ด้วยตัวเองจากข้อมูลดิบ โดยไม่ต้องให้มนุษย์ระบุคุณลักษณะหรือผลลัพธ์ที่แตกต่างกัน โมเดลดังกล่าวประสบความสำเร็จเป็นพิเศษในการสร้างเนื้อหาที่แตกต่างจากต้นฉบับเล็กน้อย เนื่องจากวิธีการทำงานกับการเข้ารหัส พวกเขาจึงสามารถได้รับคำแนะนำเฉพาะตามคุณสมบัติของข้อมูลการฝึกอบรม: “แสดงของหวานที่แสดงถึงจุดกึ่งกลางที่สมบูรณ์แบบระหว่างเค้กกับพาย” ดังที่กล่าวไปแล้ว VAE จะปรับให้เหมาะสมเพื่อผลลัพธ์ที่เป็นไปได้ ดังนั้นจึงไม่น่าเป็นไปได้ที่จะสร้างเนื้อหาที่เป็นต้นฉบับหรือแปลกใหม่ได้ดีเยี่ยม

ข้อร้องเรียนทั่วไปประการหนึ่งเกี่ยวกับ VAE คือสามารถสร้างภาพที่มีสัญญาณรบกวน (เช่น พร่ามัว) เนื่องจากการเข้ารหัสและถอดรหัสเกี่ยวข้องกับการบีบอัด ซึ่งทำให้ข้อมูลสูญหาย

กรณีการใช้งาน

ตัวเข้ารหัสอัตโนมัติแบบต่างๆ ทำงานได้กับข้อมูลทุกประเภท แม้ว่าส่วนใหญ่จะใช้เพื่อสร้างรูปภาพ เสียง และข้อความก็ตาม แอปพลิเคชันที่น่าสนใจอย่างหนึ่งคือการตรวจจับความผิดปกติ: ในชุดข้อมูล VAE สามารถค้นหาจุดข้อมูลที่เบี่ยงเบนไปจากบรรทัดฐานได้มากที่สุด เนื่องจากจุดเหล่านั้นจะมีข้อผิดพลาดในการสร้างใหม่สูงสุด ซึ่งหมายความว่าจุดเหล่านั้นจะอยู่ไกลจากความน่าจะเป็นที่ VAE เข้ารหัสไว้มากที่สุด

เครือข่ายปฏิปักษ์ทั่วไป (GAN)

เครือข่ายปฏิปักษ์ทั่วไปได้รับการพัฒนาโดย Ian Goodfellow ในปี 2014 แม้ว่าโครงข่ายประสาทเทียมจะสามารถสร้างภาพก่อนหน้านั้นได้ แต่ผลลัพธ์ที่ได้มักจะพร่ามัวและไม่น่าเชื่อถือ คำถามหลัก (และข้อมูลเชิงลึก) ที่อยู่เบื้องหลัง GAN คือ: จะเกิดอะไรขึ้นหากคุณเจาะเครือข่ายประสาทสองเครือข่ายเข้าหากัน สิ่งหนึ่งเรียกว่าเครื่องกำเนิด ได้รับการสอนให้สร้างเนื้อหาใหม่ ในขณะที่อีกสิ่งหนึ่งเรียกว่าผู้เลือกปฏิบัติ ได้รับการฝึกฝนให้ทราบความแตกต่างระหว่างเนื้อหาจริงและเนื้อหาปลอม

เครื่องกำเนิดจะสร้างภาพที่ผู้สมัครและแสดงให้ผู้เลือกปฏิบัติเห็น จากคำติชม ตัวสร้างจะอัปเดตการคาดการณ์ตามนั้น และจะดีขึ้นเรื่อยๆ ในการ "หลอก" ผู้เลือกปฏิบัติ เมื่อสามารถหลอกผู้เลือกปฏิบัติได้ 50% ของเวลา (เช่นเดียวกับการโยนเหรียญระหว่างของจริงกับของปลอม) ลูปการฝึกอบรมความคิดเห็นจะหยุดลง ส่วนตัวสร้างของ GAN ก็พร้อมสำหรับการประเมินและการผลิต

ตั้งแต่ปี 2014 เป็นต้นมา GAN หลายร้อยรูปแบบได้รับการพัฒนาสำหรับกรณีการใช้งานที่แตกต่างกัน และเพื่อสร้างสมดุลระหว่างข้อดีและข้อเสียของ GAN

ข้อดีและข้อเสีย

เครือข่ายปฏิปักษ์ทั่วไป พร้อมด้วย VAE ในตอนแรกได้จุดประกายให้เกิดกระแสฮือฮามากมายเกี่ยวกับศักยภาพของ generative AI พวกเขาใช้การเรียนรู้แบบไม่มีผู้ดูแล ดังนั้นโมเดลจะดีขึ้นด้วยตัวเองโดยที่นักวิจัยไม่จำเป็นต้องบอกว่าผลลัพธ์ของมันดีหรือไม่ดี เครือข่ายฝ่ายตรงข้ามที่สร้างสรรค์ยังจัดการเพื่อเรียนรู้ได้อย่างรวดเร็ว เมื่อเปรียบเทียบกับโซลูชันอื่นๆ ที่มีอยู่เมื่อเปิดตัวครั้งแรก โซลูชันเหล่านี้อาจได้รับผลลัพธ์ที่ดีโดยใช้ข้อมูลการฝึกอบรมน้อยกว่ามาก หลายร้อยภาพเมื่อเทียบกับหลายพันภาพ

อย่างไรก็ตาม โดยทั่วไป GAN จะพยายามสร้างเนื้อหาที่ไม่เหมือนกับข้อมูลการฝึกอบรม เนื่องจากพวกเขาเป็นผู้แอบอ้าง ไม่ใช่ผู้สร้าง และบางครั้งพวกเขาสามารถ "ปรับแต่ง" ข้อมูลการฝึกอบรมของตนได้มากเกินไป เช่น เมื่อ GAN สร้างภาพรูปถ่ายแมวที่มีตัวอักษรเนื่องจากมีการแสดงมีมแมวจำนวนมาก

การฝึกอบรม GAN ถือเป็นความท้าทาย จะต้องเล่นกลสองเครือข่ายระหว่างการฝึก ปัญหายังอาจเกิดขึ้นเมื่อผู้เลือกปฏิบัติดีเกินไป ซึ่งนำไปสู่วงจรการฝึกอบรมที่ไม่สิ้นสุด หรือหากผู้เลือกปฏิบัติไม่ดีพอ ซึ่งนำไปสู่ผลลัพธ์ที่ไม่ดี พวกเขายังสามารถทนทุกข์ทรมานจากสิ่งที่เรียกว่าการล่มสลายของโหมด ซึ่งพวกเขาล้มเหลวในการสร้างผลลัพธ์ที่หลากหลาย เนื่องจากตัวสร้างเรียนรู้สองสามวิธีในการหลอกลวงผู้เลือกปฏิบัติ และมุ่งเน้นไปที่กลยุทธ์เหล่านั้นเพื่อแยกผู้อื่น

กรณีการใช้งาน

เครือข่ายปฏิปักษ์ทั่วไปใช้เพื่อสร้างเนื้อหาที่คล้ายกับต้นฉบับเป็นหลัก ตัวอย่างเช่น พวกเขาสามารถผลิตใบหน้ามนุษย์ที่น่าเชื่อหรือภาพถ่ายภายในหรือทิวทัศน์ที่สมจริงเพื่อใช้ในการถ่ายภาพสต็อกหรือวิดีโอเกม พวกเขายังสามารถสร้างภาพที่มีการเปลี่ยนแปลงในทางใดทางหนึ่งได้ เช่น การเปลี่ยนภาพจากสีเป็นขาวดำ หรืออายุใบหน้าในภาพ ที่กล่าวมาไม่ใช่ว่า GAN ทั้งหมดจะสร้างภาพ ตัวอย่างเช่น GAN บางตัวถูกใช้เพื่อสร้างเอาต์พุตข้อความเป็นคำพูด

แบบจำลองการแพร่กระจาย

โมเดลการแพร่กระจายยังเกิดขึ้นในช่วงกลางปี ​​2010 โดยนำเสนอความก้าวหน้าบางประการที่ให้ประสิทธิภาพที่ดีขึ้นภายในต้นปี 2020 ขับเคลื่อนเครื่องมือสร้างภาพ เช่น DALL-E, Stable Diffusion และ Midjourney

แบบจำลองการแพร่กระจายทำงานโดยการแนะนำสัญญาณรบกวนแบบเกาส์เซียนให้กับภาพ โดยบิดเบือนภาพเป็นชุดขั้นตอน จากนั้นฝึกแบบจำลองเพื่อย้อนกลับขั้นตอนเหล่านี้ และแปลงภาพที่ "มีสัญญาณรบกวน" ให้เป็นภาพที่ชัดเจน (“เสียงเกาส์เซียน” เพียงหมายถึงเสียงจะถูกเพิ่มแบบสุ่มโดยใช้เส้นโค้งระฆังของความน่าจะเป็น)

คุณสามารถนึกถึงภาพที่มีเสียงรบกวนเหมือนกับการเข้ารหัส VAE และจริงๆ แล้ว VAE และโมเดลการแพร่กระจายมีความเกี่ยวข้องกัน รูปภาพข้อมูลการฝึกอบรมของพายมะนาวที่สำคัญจะจบลงด้วยเวอร์ชันที่มีเสียงดังคล้ายกัน แต่แม้แต่ภาพที่มีเสียงดังเหมือนกันก็จะไม่ "ถูกปฏิเสธ" ในสิ่งเดียวกันทุกครั้ง เพราะแบบจำลองกำลังทำการคาดเดาอย่างมีการศึกษาไปพร้อมกัน

คุณอาจรู้แล้วว่าส่วนกำเนิดมาจากไหน หากคุณให้แบบจำลองเป็นตัวแทนของภาพในพื้นที่ที่มีเสียงรบกวน มันจะสามารถลดเสียงรบกวนของภาพและสร้างภาพใหม่ที่ชัดเจนทั้งหมดได้ มันเหมือนกับวิธีที่ตัวถอดรหัสสุ่มตัวอย่างจากการเข้ารหัส แต่มีข้อแตกต่างที่สำคัญประการหนึ่ง นั่นคือ ไม่มีการบีบอัดข้อมูลใดๆ เลยในระหว่างนี้ ข้อมูลจึงไม่มีการสูญเสียจริง และภาพที่ได้จะมีคุณภาพสูงขึ้น

เครื่องมือ AI เจนเนอเรชั่นที่เปลี่ยนจากข้อความแจ้งไปจนถึงรูปภาพทำได้โดยใช้โมเดลแยกต่างหากที่เข้าใจว่าบางอย่าง เช่น "เค้กวันเกิดในธีมยูนิคอร์น" อาจจับคู่กับฟีเจอร์รูปภาพต่างๆ ได้อย่างไร จากนั้นฟีเจอร์ในเวอร์ชันที่มีเสียงรบกวนจะถูกกลับด้านเพื่อให้เห็นภาพที่ชัดเจน

ข้อดีและข้อเสีย

โมเดลการแพร่กระจายไม่บีบอัดข้อมูลการฝึก ดังนั้นจึงสามารถสร้างภาพที่สมจริงและมีคุณภาพสูงได้ อย่างไรก็ตาม พวกเขาใช้ทรัพยากรและเวลาในการฝึกฝนมากกว่ารุ่นอื่นๆ อย่างมาก อย่างไรก็ตาม การฝึกอบรมนั้นตรงไปตรงมามากกว่า เนื่องจากไม่เข้าสู่โหมดการล่มสลายของ GAN และข้อเสียอื่นๆ ของเครือข่ายฝ่ายตรงข้าม พวกเขาไม่ประสบกับการสูญเสียข้อมูล (และส่งผลให้ผลลัพธ์คุณภาพต่ำลง) ที่ VAE มี

กรณีการใช้งาน

โมเดลการแพร่กระจายใช้สำหรับการสร้างภาพ เสียง และวิดีโอเป็นหลัก ไม่มีเหตุผลที่แท้จริงที่ทำให้ไม่สามารถใช้เพื่อสร้างข้อความได้เช่นกัน แต่จนถึงขณะนี้ โมเดลที่ใช้หม้อแปลงไฟฟ้ามีประสิทธิภาพมากกว่าสำหรับภาษาธรรมชาติ

โมเดลภาษา

โมเดลภาษาหมายถึงเทคนิค ML ใดๆ ที่สร้างโมเดลความน่าจะเป็นของภาษาธรรมชาติ โมเดลภาษาที่เป็นที่รู้จักมากที่สุดในปัจจุบันคือ LLM ซึ่งได้รับการฝึกฝนเกี่ยวกับข้อมูลดิบจำนวนมหาศาล และใช้สถาปัตยกรรมแบบ Transformer เพื่อสร้างข้อความ (เพิ่มเติมเกี่ยวกับหม้อแปลงไฟฟ้าในหัวข้อถัดไป)

ก่อนโมเดลที่ใช้หม้อแปลง โมเดลภาษาที่ล้ำสมัยส่วนใหญ่ใช้เครือข่ายประสาทที่เกิดซ้ำ (RNN) RNN แนะนำการวนซ้ำเล็กๆ ในการเชื่อมต่อระหว่างโหนดต่างๆ เพื่อให้นอกเหนือจากการเรียนรู้จากสัญญาณปัจจุบัน เช่นเดียวกับในโครงข่ายประสาทเทียมแบบป้อนกลับแบบดั้งเดิม (FNN) แล้ว โหนดยังสามารถเรียนรู้จากอดีตที่ผ่านมาได้อีกด้วย นี่เป็นสิ่งสำคัญสำหรับการประมวลผลหรือการสร้างภาษาที่เป็นธรรมชาติ เช่น สตรีมข้อความหรือการป้อนข้อมูลด้วยเสียง ภาษาต่างจากรูปภาพตรงที่มีบริบทสูง วิธีการตีความจะขึ้นอยู่กับสิ่งที่เกิดขึ้นก่อนหน้านี้

ข้อดีและข้อเสีย

เนื่องจาก "แบบจำลองภาษา" หมายถึงกลุ่มแบบจำลองจำนวนมาก จึงเป็นการยากที่จะสรุปเกี่ยวกับข้อดีและข้อเสียของแบบจำลองเหล่านี้ ความท้าทายของการสร้างแบบจำลองภาษารวมถึงความจริงที่ว่าภาษานั้นมีมิติสูง มีคำที่แตกต่างกันจำนวนมากในภาษาที่กำหนด และชุดค่าผสมบางชุดอาจไม่ปรากฏในข้อมูลการฝึกอบรม

นอกจากนี้ ภาษายังขึ้นอยู่กับบริบทของสิ่งที่เกิดขึ้นก่อนหน้าในลำดับอย่างมาก โดยกำหนดให้เครือข่ายต้องจัดการหรือแสดงบริบทนั้นในทางใดทางหนึ่ง ความสามารถในการตอบสนองความต้องการนี้ได้ทำให้ RNN มีความทรงจำทั้งระยะยาวและระยะสั้น และต่อมาหม้อแปลงไฟฟ้า ซึ่งสามารถประมวลผลประโยคทั้งหมดโดยรวม ให้กลายเป็นสถาปัตยกรรมที่ล้ำสมัยสำหรับโมเดลภาษา

กรณีการใช้งาน

โมเดลภาษาสามารถใช้สำหรับการแปล การสรุป การแก้ไขข้อผิดพลาดทางไวยากรณ์ การรู้จำเสียง และงานอื่นๆ อีกมากมาย ใช้เพื่อสร้างเนื้อหาข้อความสร้างสรรค์ใหม่ๆ ด้วยแอปพลิเคชันจำนวนมาก และได้รับการพิสูจน์แล้วว่าสามารถใช้เหตุผลขั้นสูงได้ เช่น การวิเคราะห์ข้อมูลและการแก้ปริศนาตรรกะ สิ่งที่น่าสนใจคือการวิจัยพบว่าความสามารถที่เกิดขึ้นใหม่ของ LLM คือการรับรู้เชิงพื้นที่และความสามารถในการสร้างภาพวาดพื้นฐาน แม้ว่าจะได้รับการฝึกฝนโดยใช้ข้อความทั้งหมดก็ตาม

โมเดลที่ใช้หม้อแปลงไฟฟ้า

Transformers ซึ่งคิดค้นโดยนักวิจัยที่ Google และมหาวิทยาลัยโตรอนโตในปี 2017 ได้ปฏิวัติสาขาการเรียนรู้เชิงลึก LLM เช่น ChatGPT เป็นโมเดลที่ใช้ Transformer และผลการค้นหาของ Google ก็ขับเคลื่อนโดย Transformer เช่นกัน

โมเดลที่ใช้หม้อแปลงไฟฟ้าใช้ข้อมูลการฝึกเพื่อเรียนรู้ว่าคำต่างๆ เกี่ยวข้องกันอย่างไร ตัวอย่างเช่น อาจเรียนรู้ว่าเค้กและพายมีแนวคิดที่คล้ายคลึงกัน ในขณะที่เค้กและเคปไม่เกี่ยวข้องกันโดยตรง นอกจากนี้ยังอาจเรียนรู้ว่าชิ้นสามารถเชื่อมโยงกับเค้กและพายได้ โดยเฉพาะอย่างยิ่งหากคำเหล่านั้นเกิดขึ้นใกล้เคียงกัน

เมื่อวิเคราะห์ข้อความ แบบจำลองจะใช้ความเข้าใจพื้นฐานนี้เพื่อสร้างสิ่งที่คล้ายกับสเปรดชีตขนาดใหญ่ สามารถค้นหาคำสองคำในข้อความและรับคำตอบว่าคำเหล่านั้นเกี่ยวข้องกันอย่างไร

ด้วยการใช้ประโยชน์จากบริบทเหล่านี้ โมเดลหม้อแปลงสามารถแปลภาษาได้อย่างเชี่ยวชาญและคาดการณ์ความต่อเนื่องที่อาจเกิดขึ้นในการสนทนา ตัวอย่างเช่น หากมีคนพูดถึงเค้กในส่วนหนึ่งแล้วเปลี่ยนไปพูดถึงวันเกิดของพวกเขาในส่วนถัดไป แบบจำลองคาดการณ์ว่าจะมีการกล่าวถึงเทียนหรืองานปาร์ตี้ในที่สุด โดยพิจารณาจากความเชื่อมโยงทางภาษาที่จัดตั้งขึ้น

ข้อดีและข้อเสีย

เมื่อพูดถึงการวิเคราะห์และสร้างภาษา Transformers มีข้อได้เปรียบเหนือ RNNS รุ่นก่อนเล็กน้อย พวกเขาสามารถประมวลผลข้อความแบบขนานทั่วทั้งเครือข่ายแทนที่จะประมวลผลแต่ละคำตามลำดับ ทำให้สามารถฝึกอบรมชุดข้อมูลขนาดใหญ่มากได้เร็วขึ้นและมีประสิทธิภาพมากขึ้น พวกเขายังสามารถเชื่อมโยงระหว่างคำต่างๆ โดยไม่คำนึงว่าจะอยู่ห่างกันแค่ไหน ทำให้พวกเขาสามารถใช้ประโยชน์จากบริบทจากข้อความได้มากขึ้น

อย่างไรก็ตาม หม้อแปลงต้องการข้อมูลจำนวนมากเพื่อให้ทำงานได้ดี และด้วยชุดข้อมูลที่เล็กลง สถาปัตยกรรมโครงข่ายประสาทเทียมแบบเดิมอาจทำงานได้ดีขึ้น

กรณีการใช้งาน

Transformers มีแอปพลิเคชั่น AI มากมาย แม้ว่าโดยทั่วไปแล้วโมเดลที่ใช้หม้อแปลงไฟฟ้าจะใช้ในการสร้างข้อความหรือคำพูด นักวิจัยกำลังสำรวจการใช้โมเดลเหล่านี้ในการสร้างภาพ เนื่องจากมีความเข้มข้นในการคำนวณน้อยกว่าโมเดลการแพร่กระจาย

ที่มีชื่อเสียงที่สุดคือ LLM เป็นโมเดลที่ใช้หม้อแปลงไฟฟ้า โมเดลภาษาใช้เฉพาะส่วนถอดรหัสของสถาปัตยกรรมเท่านั้น พรอมต์จะถูกป้อนเข้าไปในโมเดลเป็นการเข้ารหัส ซึ่งเป็นชุดของค่าตัวเลข ความน่าจะเป็น และข้อมูลความสนใจที่เรากล่าวถึงก่อนหน้านี้ แบบจำลองจะถอดรหัสอินพุตโดยใช้กลไกการสนใจตนเองและโดยการดูคำทั้งหมดในพรอมต์พร้อมกัน เป้าหมายของแบบจำลองคือการทำนายคำถัดไปในประโยค

Transformers มีแอปพลิเคชั่นมากมายนอกเหนือจากการสร้างข้อความในการประมวลผลภาษาธรรมชาติ จริงๆ แล้ว เดิมทีพวกเขาตั้งใจที่จะแปลหรือแปลงข้อความจากภาษาหนึ่งไปอีกภาษาหนึ่ง Grammarly ได้สนับสนุนการวิจัยเกี่ยวกับการใช้หม้อแปลงไฟฟ้าเพื่อแก้ไขข้อผิดพลาดทางไวยากรณ์

ทำงานอย่างชาญฉลาดยิ่งขึ้นด้วย Grammarly
คู่หูการเขียน AI สำหรับใครก็ตามที่มีงานทำ

บทสรุป

โมเดล AI เจนเนอเรชั่นมีการพัฒนาไปไกลในทศวรรษที่ผ่านมา เราหวังว่าตอนนี้คุณคงเข้าใจมากขึ้นอีกหน่อยเกี่ยวกับวิวัฒนาการของโมเดลเหล่านี้ วิธีการทำงาน และวิธีการนำไปใช้กับกรณีการใช้งานต่างๆ อย่างไรก็ตาม บทความนี้เพิ่งเปิดเผยข้อมูลเบื้องต้น และทิ้งรายละเอียดที่สำคัญไว้มากมาย โดยมีจุดประสงค์เพื่อให้ภาพรวมสำหรับผู้อ่านทั่วไป เราขอแนะนำให้คุณเรียนรู้เพิ่มเติมเกี่ยวกับคณิตศาสตร์และวิทยาศาสตร์ที่อยู่เบื้องหลังแบบจำลองเหล่านี้ โดยการศึกษาเอกสารวิจัยที่ใช้แบบจำลองเหล่านี้ และเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการทำงานของแบบจำลองเหล่านี้จากมุมมองของความน่าจะเป็นและสถิติ