مقدمة لنماذج المحولات: ما هي وكيف تعمل
نشرت: 2024-08-07تمثل المحولات طفرة في الذكاء الاصطناعي، وخاصة في معالجة اللغة الطبيعية (NLP). وهي مشهورة بأدائها وقابلية التوسع، وهي حيوية في تطبيقات مثل ترجمة اللغة والذكاء الاصطناعي للمحادثة. تستكشف هذه المقالة بنيتها، ومقارناتها مع الشبكات العصبية الأخرى، وإيجابياتها وسلبياتها.
جدول المحتويات
- ما هو نموذج المحولات؟
- المحولات مقابل شبكات CNN وRNNs
- كيف تعمل نماذج المحولات
- أمثلة على نماذج المحولات
- المزايا
- العيوب
ما هو نموذج المحولات؟
المحول هو نوع من نماذج التعلم العميق يستخدم على نطاق واسع في البرمجة اللغوية العصبية. نظرًا لأداء المهام وقابلية التوسع، فهو جوهر النماذج مثل سلسلة GPT (التي صنعتها OpenAI)، وClaude (التي صنعتها Anthropic)، وGemini (التي صنعتها Google) وتستخدم على نطاق واسع في جميع أنحاء الصناعة.
تتكون نماذج التعلم العميق من ثلاثة مكونات رئيسية: بنية النموذج، وبيانات التدريب، وأساليب التدريب. ضمن هذا الإطار، يمثل المحول نوعًا واحدًا من نماذج الهندسة المعمارية. ويحدد بنية الشبكات العصبية وتفاعلاتها. الابتكار الرئيسي الذي يميز المحولات عن نماذج التعلم الآلي الأخرى (ML) هو استخدام "الانتباه".
الانتباه هو آلية في المحولات تمكنها من معالجة المدخلات بكفاءة والحفاظ على المعلومات عبر تسلسلات طويلة (على سبيل المثال، مقالة كاملة).
وهنا مثال للتوضيح. "جلست القطة على ضفة النهر. ثم انتقل إلى فرع الشجرة القريبة. يمكنك أن تدرك أن "البنك" هنا ليس هو البنك الذي تودع فيه الأموال. من المحتمل أن تستخدم دليل السياق الخاص بـ "النهر" لمعرفة ذلك. الانتباه يعمل بالمثل؛ ويستخدم الكلمات الأخرى لتحديد معنى كل كلمة. ما الذي تشير إليه كلمة "it" في المثال؟ سينظر النموذج إلى كلمتي "متحرك" و"شجرة" كدليل لإدراك أن الإجابة هي "قطة".
السؤال المهم الذي لم تتم الإجابة عليه هو كيف يعرف النموذج الكلمات التي يجب النظر إليها. سوف نصل إلى ذلك في وقت لاحق قليلا. ولكن الآن بعد أن قمنا بتعريف نموذج المحول، دعونا نوضح أكثر لماذا يتم استخدامه بكثرة.
المحولات مقابل شبكات CNN وRNNs
تعد الشبكات العصبية المتكررة (RNNs) والشبكات العصبية التلافيفية (CNNs) نموذجين شائعين آخرين للتعلم العميق. في حين أن شبكات RNN وCNN لها فوائدها، إلا أن المحولات تستخدم على نطاق أوسع لأنها تتعامل مع المدخلات الطويلة بشكل أفضل بكثير.
المحولات مقابل RNNs
RNNs هي نماذج متسلسلة. التشبيه المناسب هو قراءة الإنسان لكتاب. وبينما يقرؤون، كلمة بكلمة، تتطور ذاكرتهم وفهمهم للكتاب. بالنسبة للقراء الأذكياء، قد يتنبأون بما سيحدث بعد ذلك بناءً على ما حدث من قبل. تعمل RNN بنفس الطريقة. يقرأ كلمة بكلمة، ويحدث ذاكرته (تسمى الحالة المخفية)، ويمكنه بعد ذلك التنبؤ (على سبيل المثال، الكلمة التالية في الجملة أو المشاعر في بعض النص). الجانب السلبي هو أن الحالة المخفية لا يمكنها الاحتفاظ بالكثير من المعلومات. إذا قمت بإدخال كتاب كامل في RNN، فلن يتذكر الكثير من التفاصيل حول فصول المقدمة لأنه لا يوجد سوى مساحة كبيرة في حالته المخفية. الفصول اللاحقة، بحكم إضافتها إلى الحالة المخفية مؤخرًا، لها الأسبقية.
لا تعاني المحولات من نفس مشكلة الذاكرة. إنهم يقارنون كل كلمة بكل كلمة أخرى في الإدخال (كجزء من آلية الانتباه) لذلك لا يحتاجون إلى استخدام حالة مخفية أو "تذكر" ما حدث سابقًا. وباستخدام نفس تشبيه الكتاب، فإن المحول يشبه الإنسان الذي يقرأ الكلمة التالية في الكتاب ثم ينظر إلى كل كلمة سابقة في الكتاب لفهم الكلمة الجديدة بشكل صحيح. إذا كانت الجملة الأولى من كتاب تحتوي على عبارة "ولد في فرنسا"، وكانت الجملة الأخيرة من كتاب تحتوي على عبارة "لغته الأم"، فسيكون المحول قادرًا على استنتاج أن لغته الأم هي الفرنسية. قد لا تتمكن شبكة RNN من القيام بذلك، نظرًا لأن الحالة المخفية ليست مضمونة للاحتفاظ بهذه المعلومات. بالإضافة إلى ذلك، تحتاج شبكة RNN إلى قراءة كل كلمة على حدة ثم تحديث حالتها المخفية. يمكن للمحول أن يوجه انتباهه بالتوازي.
المحولات مقابل CNN
تستخدم شبكات CNN السياق المحيط بكل عنصر في تسلسل لتعيين المعنى. بالنسبة للكلمة الموجودة على الصفحة، تنظر شبكة CNN إلى الكلمات المحيطة بها مباشرة لمعرفة معنى الكلمة. لن يتمكن من ربط الصفحة الأخيرة والأولى من الكتاب. تُستخدم شبكات CNN في الغالب مع الصور لأن وحدات البكسل غالبًا ما ترتبط بجيرانها أكثر بكثير من الكلمات. ومع ذلك، يمكن استخدام شبكات CNN في البرمجة اللغوية العصبية أيضًا.
تختلف المحولات عن شبكات CNN من حيث أنها تنظر إلى أكثر من مجرد الجيران المباشرين لعنصر ما. ويستخدمون آلية الانتباه لمقارنة كل كلمة بكل كلمة أخرى في الإدخال، مما يوفر فهمًا أوسع وأكثر شمولاً للسياق.
كيف تعمل نماذج المحولات؟
تحتوي المحولات على طبقات من كتل الانتباه، والشبكات العصبية المغذية (FNNs)، والتضمينات. يأخذ النموذج المدخلات المستندة إلى النص ويعيد النص الناتج. للقيام بذلك، يتم اتباع الخطوات التالية:
1 الرمز المميز:يحول النص إلى رموز مميزة (على غرار تقسيم الجملة إلى كلمات فردية).
2 التضمين:يحول الرموز المميزة إلى متجهات، مع دمج التضمينات الموضعية حتى يفهم النموذج موقع الرمز المميز في الإدخال.
3 آلية الانتباه:تعالج الرموز المميزة باستخدام الانتباه الذاتي (للرموز المميزة للإدخال) أو الانتباه المتبادل (بين الرموز المميزة للإدخال والرموز المميزة التي تم إنشاؤها). تسمح هذه الآلية للنموذج بتقييم أهمية الرموز المميزة عند إنشاء المخرجات.
4 FNNs:يمرر النتيجة من خلال FNN، مما يسمح للنموذج بالتقاط الأنماط المعقدة عن طريق إدخال اللاخطية.
5 التكرار:يتم تكرار الخطوات من 3 إلى 4 عدة مرات عبر عدة طبقات لتحسين الإخراج.
6 توزيع المخرجات:ينتج توزيعًا احتماليًا على جميع الرموز المميزة.
7 اختيار الرمز المميز:يختار الرمز المميز ذو الاحتمالية الأعلى.
تشكل هذه العملية تمريرة أمامية واحدة عبر نموذج المحول. يقوم النموذج بذلك بشكل متكرر حتى يكمل نص الإخراج الخاص به. داخل كل تمريرة، يمكن إجراء عملية التضمين بالتوازي، كما هو الحال مع آلية الانتباه ومرحلة التغذية الأمامية. في الأساس، لا يحتاج المحول إلى القيام بكل رمز مميز على حدة. يمكنه جذب الانتباه عبر جميع الرموز المميزة في نفس الوقت.
يمكننا الآن أن ننتقل إلى السؤال الذي طرحناه سابقًا: كيف يعرف النموذج الرموز المميزة التي يجب الاهتمام بها؟ الجواب ببساطة هو من خلال النظر في الكثير من بيانات التدريب. في البداية، سيهتم النموذج بالرموز الخاطئة وبالتالي سيولد مخرجات خاطئة. باستخدام الإخراج الصحيح الذي يأتي مع بيانات التدريب، يمكن تعديل آلية الانتباه لإخراج الإجابة الصحيحة في المرة القادمة. من خلال مليارات (وحتى تريليونات) من الأمثلة، يمكن لآلية الانتباه اختيار الرموز المميزة طوال الوقت تقريبًا.
أمثلة على نماذج المحولات
المحولات في كل مكان. على الرغم من أنها صُممت في البداية للترجمة، فقد توسعت المحولات بشكل جيد في جميع مهام اللغة والرؤية وحتى الصوت تقريبًا.
نماذج لغوية كبيرة
تعمل بنية المحولات على تشغيل جميع نماذج اللغات الكبيرة تقريبًا (LLMs): GPT، وClaude، وGemini، وLlama، والعديد من النماذج الصغيرة مفتوحة المصدر. يمكن لـ LLMs التعامل مع العديد من المهام النصية (وبصورة متزايدة، الصور والصوت)، مثل الإجابة على الأسئلة، والتصنيف، وإنشاء النماذج الحرة.
يتم تحقيق ذلك من خلال تدريب نموذج المحول على مليارات الأمثلة النصية (عادةً ما يتم استخلاصها من الإنترنت). بعد ذلك، تقوم الشركات بضبط النموذج على أمثلة التصنيف لتعليم النموذج كيفية إجراء التصنيف بشكل صحيح. باختصار، يتعلم النموذج قاعدة معرفية واسعة ثم يتم "تعليمه" المهارات من خلال الضبط الدقيق.
محولات الرؤية
محولات الرؤية هي محولات قياسية مكيفة للعمل على الصور. والفرق الرئيسي هو أن عملية الترميز يجب أن تعمل مع الصور بدلاً من النص. بمجرد تحويل الإدخال إلى رموز مميزة، يحدث حساب المحول العادي، وأخيراً، يتم استخدام رموز الإخراج لتصنيف الصورة (على سبيل المثال، صورة قطة). غالبًا ما يتم دمج محولات الرؤية مع LLMs النصية لتكوين LLMs متعدد الوسائط. يمكن لهذه النماذج متعددة الوسائط التقاط صورة والتفكير فيها، مثل قبول رسم تخطيطي لواجهة المستخدم واستعادة الكود المطلوب لإنشائه.
تعد شبكات CNN شائعة أيضًا في مهام الصور، لكن المحولات تسمح للنموذج باستخدام جميع وحدات البكسل الموجودة في الصورة بدلاً من وحدات البكسل القريبة فقط. على سبيل المثال، إذا كانت الصورة تحتوي على علامة توقف في أقصى الجانب الأيسر وسيارة في أقصى الجانب الأيمن، فيمكن أن يحدد النموذج أن السيارة بحاجة إلى التوقف. قد لا تتمكن شبكة CNN من ربط نقطتي البيانات هاتين لأنهما بعيدتان عن بعضهما البعض في الصورة.
محولات الصوت
محولات الصوت، مثل محولات الرؤية، هي محولات قياسية ذات نظام ترميز فريد مصمم خصيصًا للبيانات الصوتية. يمكن لهذه النماذج معالجة كل من النص والصوت الخام كمدخلات، وإخراج النص أو الصوت. مثال على ذلك هو Whisper، وهو نموذج لتحويل الكلام إلى نص يحول الصوت الخام إلى نص. وهو يحقق ذلك عن طريق تجزئة الصوت إلى أجزاء، وتحويل هذه القطع إلى مخططات طيفية، وترميز المخططات الطيفية إلى تضمينات. تتم بعد ذلك معالجة هذه التضمينات بواسطة المحول، الذي يقوم بإنشاء الرموز المميزة للنص النهائي.
إلى جانب تطبيقات تحويل الكلام إلى نص، تتمتع محولات الصوت بالعديد من حالات الاستخدام الأخرى، بما في ذلك إنشاء الموسيقى والتعليق التلقائي وتحويل الصوت. بالإضافة إلى ذلك، تقوم الشركات بدمج محولات الصوت مع LLMs لتمكين التفاعلات الصوتية، مما يسمح للمستخدمين بطرح الأسئلة وتلقي الإجابات من خلال الأوامر الصوتية.
مزايا نماذج المحولات
أصبحت المحولات منتشرة في كل مكان في مجال التعلم الآلي نظرًا لقابليتها للتوسع وأدائها الاستثنائي عبر مجموعة واسعة من المهام. ويعود نجاحهم إلى عدة عوامل رئيسية:
سياق طويل
يمكن لآلية الانتباه مقارنة جميع الرموز المميزة في تسلسل الإدخال مع بعضها البعض. لذلك، سيتم تذكر المعلومات في جميع أنحاء المدخلات واستخدامها لتوليد المخرجات. في المقابل، تنسى شبكات RNN المعلومات القديمة، ويمكن لشبكات CNN فقط استخدام المعلومات القريبة من كل رمز مميز. ولهذا السبب يمكنك تحميل مئات الصفحات إلى برنامج الدردشة الآلي LLM، وطرح سؤال عليه حول أي من الصفحات، والحصول على إجابة دقيقة. يعد الافتقار إلى السياق الطويل في شبكات RNN وCNN هو السببالأكبروراء تفوق المحولات عليهم في المهام.
التوازي
يمكن تنفيذ آلية الانتباه في المحولات بالتوازي عبر جميع الرموز المميزة في تسلسل الإدخال. وهذا يتناقض مع شبكات RNN، التي تعالج الرموز المميزة بشكل تسلسلي. ونتيجة لذلك، يمكن تدريب المحولات ونشرها بسرعة أكبر، مما يوفر استجابات أسرع للمستخدمين. تعمل قدرة المعالجة المتوازية هذه على تعزيز كفاءة المحولات بشكل كبير مقارنة بشبكات RNN.
قابلية التوسع
لقد عمل الباحثون باستمرار على زيادة حجم المحولات وكمية البيانات المستخدمة لتدريبها. ولم يروا بعد حدًا لمدى قدرة المحولات على التعلم. كلما كان نموذج المحول أكبر، كان النص الذي يمكنه فهمه وتوليده أكثر تعقيدًا ودقة (يحتوي GPT-3 على 175 مليار معلمة بينما يحتوي GPT-4 على أكثر من 1 تريليون). ومن اللافت للنظر أن توسيع نطاق نماذج المحولات، مثل إنشاء نموذج مكون من 10 مليارات معلمة مقارنة بنموذج يحتوي على مليار معلمة، لا يتطلب المزيد من الوقت بشكل ملحوظ. تجعل قابلية التوسع هذه المحولات أدوات قوية لمختلف التطبيقات المتقدمة.
عيوب نماذج المحولات
الجانب السلبي لنماذج المحولات هو أنها تتطلب الكثير من الموارد الحسابية. آلية الاهتمام تربيعية: تتم مقارنة كل رمز مميز في الإدخال بكل رمز مميز آخر. سيكون لرمزين مميزين 4 مقارنات، وثلاثة رموز مميزة سيكون لها 9، وأربعة رموز مميزة سيكون لها 16، وهكذا - بشكل أساسي، التكلفة الحسابية هي مربع عدد الرموز المميزة. هذه التكلفة التربيعية لها بعض الآثار:
الأجهزة المتخصصة
لا يمكن تشغيل LLMs بسهولة على جهاز كمبيوتر عادي. نظرًا لحجمها، فإنها غالبًا ما تتطلب عشرات الجيجابايت من ذاكرة الوصول العشوائي (RAM) لتحميل معلمات النموذج. بالإضافة إلى ذلك، لم يتم تحسين وحدات المعالجة المركزية التقليدية للحساب المتوازي؛ مطلوب GPU بدلا من ذلك. قد يستغرق تشغيل LLM على وحدة المعالجة المركزية دقائق لإنشاء رمز مميز واحد. لسوء الحظ، وحدات معالجة الرسومات ليست بالضبط الأجهزة الأرخص أو الأكثر سهولة في الوصول إليها.
طول الإدخال محدود
تحتوي المحولات على كمية محدودة من النص الذي يمكنها معالجته (المعروف بطول السياق الخاص بها). كان بإمكان GPT-3 في الأصل معالجة 2048 رمزًا فقط. لقد أسفر التقدم في تطبيقات الاهتمام عن نماذج ذات أطوال سياقية تصل إلى مليون رمز مميز. ومع ذلك، هناك حاجة إلى بحث كبير للعثور على كل رمز إضافي لطول السياق. في المقابل، لا تحتوي شبكات RNN على الحد الأقصى لطول السياق. تنخفض دقتها بشكل كبير مع زيادة الإدخال، ولكن يمكنك إدخال 2 مليون رمز طويل في إدخال واحد الآن.
تكلفة الطاقة
تتطلب مراكز البيانات التي تشغل حساب المحولات طاقة لتشغيلها ومياه لتبريدها. ووفقاً لأحد التقديرات، احتاج GPT-3 إلى 1300 ميجاوات/ساعة من الكهرباء للتدريب: أي ما يعادل تزويد 130 منزلاً بالكهرباء في الولايات المتحدة لمدة عام كامل. ومع زيادة حجم النماذج، تزداد كمية الطاقة اللازمة. بحلول عام 2027، قد تحتاج صناعة الذكاء الاصطناعي إلى قدر من الكهرباء كل عام مثل هولندا. وتبذل جهود كبيرة لتقليل حاجة محولات الطاقة، إلا أن هذه المشكلة لم يتم حلها بعد.