شرح نماذج الذكاء الاصطناعي التوليدية

نشرت: 2024-04-15

عندما تفكر في نماذج الذكاء الاصطناعي التوليدية، ربما تفكر في نماذج اللغات الكبيرة (LLMs) التي أحدثت ضجة كبيرة في السنوات الأخيرة. ومع ذلك، فإن الذكاء الاصطناعي التوليدي نفسه يعود تاريخه إلى عقود عديدة، وما هي إلا أحدث التطورات. وإلى جانب ماجستير إدارة الأعمال، يتم استخدام العديد من الأنواع المختلفة من نماذج الذكاء الاصطناعي التوليدي لمختلف أدوات الذكاء الاصطناعي التوليدي وحالات الاستخدام، مثل نماذج الانتشار المستخدمة لتوليد الصور.

في هذه المقالة، سنشرح ماهية نماذج الذكاء الاصطناعي التوليدي، وكيفية تطويرها، ونقدم نظرة أعمق في بعض نماذج الذكاء الاصطناعي التوليدي الأكثر شيوعًا اليوم - وهو ما يكفي لإعطائك فهمًا مفاهيميًا لهذه النماذج التي ستثير إعجابك. الأصدقاء والزملاء، دون الحاجة إلى الالتحاق بدورة جامعية في التعلم الآلي (ML).

ما هو نموذج الذكاء الاصطناعي التوليدي؟

نماذج الذكاء الاصطناعي التوليدية هي مجموعة فرعية من أنظمة الذكاء الاصطناعي المتخصصة في إنشاء محتوى جديد وأصلي يعكس خصائص بيانات التدريب الخاصة بها. من خلال التعلم من الأنماط والعلاقات في البيانات، يمكن لهذه النماذج إنشاء مخرجات مثل النصوص أو الصور أو الأصوات أو مقاطع الفيديو التي تشبه نمط المواد المصدرية ونغمتها والفروق الدقيقة فيها. تضع هذه القدرة الذكاء الاصطناعي التوليدي في قلب الابتكار، مما يسمح بتطبيقات إبداعية وديناميكية عبر مجالات متنوعة من خلال تفسير بيانات الإدخال وتحويلها إلى إبداعات جديدة.

اعمل بشكل أكثر ذكاءً مع Grammarly
شريك الكتابة بالذكاء الاصطناعي لأي شخص لديه عمل للقيام به

كيف تعمل نماذج الذكاء الاصطناعي التوليدية

تعمل نماذج الذكاء الاصطناعي التوليدية من خلال الاستفادة من شكل متطور من خوارزمية التعلم الآلي المعروفة باسم الشبكة العصبية. تتكون الشبكة العصبية من طبقات متعددة من العقد المترابطة، يتم تمثيل كل منها بمقتطف من كود الكمبيوتر. تؤدي هذه العقد مهام فردية بسيطة ولكنها تساهم بشكل جماعي في اتخاذ قرارات معقدة، مما يعكس وظيفة الخلايا العصبية في الدماغ البشري.

للتوضيح، لنأخذ بعين الاعتبار شبكة عصبية مكلفة بالتمييز بين صور الفطائر والكعك. تقوم الشبكة بتحليل الصورة على مستوى حبيبي، وتقسيمها إلى وحدات بكسل. على المستوى الأساسي للغاية، ستكون هناك عقد مختلفة في الشبكة مخصصة لفهم وحدات البكسل المختلفة ومجموعات البكسل. ربما سينظر البعض في ما إذا كانت هناك طبقات في الحلوى، بينما سيحدد البعض الآخر ما إذا كان هناك صقيع أو قشرة. تقوم كل عقدة بتخزين معلومات حول ميزات شكل الفطيرة مقابل الكعكة، وعندما يتم تشغيل صورة جديدة، تتم معالجتها من خلال كل عقدة لإخراج التنبؤ النهائي.

وفي سياق الذكاء الاصطناعي التوليدي، يمتد هذا المبدأ إلى ما هو أبعد من مجرد التعرف إلى إنشاء محتوى جديد وأصلي. بدلاً من مجرد تحديد الميزات، تستخدم النماذج التوليدية الشبكات العصبية لفهم الأنماط والهياكل الأساسية للبيانات التي تم تدريبها عليها. تتضمن هذه العملية تفاعلات وتعديلات معقدة داخل الشبكة العصبية، تسترشد بخوارزميات مصممة لتحسين الإبداع ودقة المخرجات الناتجة.

كيف يتم تطوير نماذج الذكاء الاصطناعي التوليدية؟

يتضمن تطوير نماذج الذكاء الاصطناعي التوليدية سلسلة من الخطوات المعقدة والمترابطة، والتي يتم تنفيذها عادةً بواسطة فرق من الباحثين والمهندسين. تم تصميم هذه النماذج، مثل GPT (المحول التوليدي المدرب مسبقًا) من OpenAI وغيرها من البنى المماثلة، لإنشاء محتوى جديد يحاكي توزيع البيانات التي تم تدريبهم عليها.

وفيما يلي تفصيل خطوة بخطوة لهذه العملية:

1 جمع البيانات

يحدد علماء ومهندسو البيانات أولاً أهداف مشروعهم ومتطلباته، مما يرشدهم إلى جمع مجموعة بيانات واسعة ومناسبة. غالبًا ما يستخدمون مجموعات البيانات العامة، والتي توفر كميات هائلة من النصوص أو الصور لتلبية احتياجاتهم. على سبيل المثال، تضمن تدريب ChatGPT (GPT-3.5) معالجة 570 جيجابايت من البيانات، أي ما يعادل 300 مليار كلمة من مصادر الإنترنت العامة، بما في ذلك كل محتوى ويكيبيديا تقريبًا.

2 اختيار النموذج

يعد اختيار بنية النموذج الصحيحة خطوة حاسمة في تطوير أنظمة الذكاء الاصطناعي التوليدية. ويسترشد القرار بطبيعة المهمة المطروحة، ونوع البيانات المتاحة، والجودة المطلوبة للمخرجات، والقيود الحسابية. ستتم مناقشة البنى المحددة، بما في ذلك VAEs وGANs والنماذج القائمة على المحولات ونماذج الانتشار، بمزيد من التفاصيل لاحقًا في هذه المقالة. في هذه المرحلة، من المهم أن نفهم أن النماذج الجديدة غالبًا ما تبدأ من إطار عمل معماري موجود مسبقًا. ويستفيد هذا النهج من الهياكل التي أثبتت جدواها كأساس، مما يسمح بإجراء تحسينات وابتكارات مصممة خصيصًا لتلبية المتطلبات الفريدة للمشروع المطروح.

3 التدريب النموذجي

يتم تدريب النموذج المختار باستخدام مجموعة البيانات المجمعة من الخطوة الأولى. غالبًا ما يتطلب تدريب نماذج الذكاء الاصطناعي التوليدية قدرًا كبيرًا من قوة الحوسبة، وذلك باستخدام أجهزة خاصة مثل وحدات معالجة الرسومات (وحدات معالجة الرسومات) ووحدات معالجة الموتر (TPU). في حين أن نهج التدريب يختلف بناءً على بنية النموذج، فإن جميع النماذج تمر بعملية تسمى ضبط المعلمة الفائقة. هذا هو المكان الذي يقوم فيه علماء البيانات بضبط إعدادات أداء معينة لتحقيق أفضل النتائج.

4 التقييم والضبط

وأخيرًا، يتم تقييم أداء النموذج أو اختباره في العالم الحقيقي. يختلف تقييم نماذج الذكاء الاصطناعي التوليدي عن تقييم نماذج تعلم الآلة التقليدية، لأن الذكاء الاصطناعي التوليدي يخلق مخرجات جديدة تمامًا، وتميل جودة هذا المخرجات إلى أن تكون ذاتية. تختلف المقاييس بناءً على ما ينشئه النموذج، وعادةً ما تتضمن تقنيات التقييم للذكاء الاصطناعي التوليدي استخدام المُقيّمين البشريين - وقد تستخدم استراتيجية جعل نماذج الذكاء الاصطناعي التوليدية تقوم بتقييم بعضها البعض. عادةً ما يتم تطبيق الدروس المستفادة من مرحلة التقييم مرة أخرى في تحسين النموذج أو حتى إعادة تدريبه. بعد التحقق من صحة أداء النموذج، يصبح جاهزًا للإنتاج.

أنواع نماذج الذكاء الاصطناعي التوليدية

بناءً على معرفتنا الأساسية بنماذج الذكاء الاصطناعي التوليدية والشبكات العصبية التي تشغلها، نحن الآن مستعدون للتعمق في أنواع محددة من بنيات النماذج التي ظهرت منذ أوائل عام 2010. سنستكشف نقاط القوة والضعف الفريدة لكل نموذج، بالإضافة إلى تطبيقاته العملية.

فيما يلي نظرة عامة مختصرة على النماذج التي سنناقشها:

  • تعدأجهزة التشفير التلقائي المتغيرة (VAEs)بارعة في تعلم توزيعات البيانات المعقدة وغالبًا ما تستخدم لمهام مثل إنشاء الصور وتحريرها.
  • تشتهرشبكات الخصومة التوليدية (GANs)بقدرتها على إنشاء صور واقعية للغاية وأصبحت شائعة في مجموعة متنوعة من التطبيقات الإبداعية.
  • نماذج الانتشارهي فئة أحدث من النماذج التي تولد عينات عالية الجودة من خلال عملية إضافة الضوضاء تدريجيًا ثم إزالتها.
  • تتفوقنماذج اللغةفي فهم وتوليد اللغة البشرية، مما يجعلها مفيدة لتطبيقات مثل برامج الدردشة الآلية وإكمال النص.
  • تم تصميمالنماذج القائمة على المحولاتفي البداية لمهام معالجة اللغة الطبيعية (NLP) ولكن تم تكييفها للاستخدام في النماذج التوليدية نظرًا لقدرتها القوية على التعامل مع البيانات المتسلسلة.

دعونا نتعمق أكثر في كل من هذه البنى لفهم كيفية عملها وأين يمكن تطبيقها بشكل أفضل.

أجهزة التشفير التلقائي المتغيرة (VAEs)

تم اختراع أجهزة التشفير التلقائي المتغيرة بواسطة Max Welling وDiederik P. Kingma في عام 2013. ويعتمدون على حقيقة أن الشبكة العصبية يمكنها تشفير المفاهيم عالية المستوى التي يتعلمها النموذج أثناء خطوة التدريب. ويشار إلى هذا أحيانًا باسم "ضغط" أو "إسقاط" للبيانات الأولية.

إذا نظر النموذج إلى صورة كعكة، على سبيل المثال، فقد يحول ذلك إلى تشفير يحتوي على جميع ميزات الصورة - الرشات، ولون الصقيع، والطبقات الإسفنجية، وما إلى ذلك. يبدو هذا التشفير كمجموعة من الأرقام المنطقية النموذج ولكن ليس للبشر. يمكن فك تشفيرها بواسطة شبكة عصبية أخرى لمحاولة إعادة إنشاء الصورة الأصلية، على الرغم من أنها ستحتوي على بعض الفجوات لأن التشفير عبارة عن ضغط. يُسمى هذا النوع من النماذج، الذي تعمل فيه قطع التشفير ووحدة فك التشفير معًا، بجهاز التشفير التلقائي.

تقوم أجهزة التشفير التلقائي المتغيرة بتدوير فكرة أداة التشفير التلقائي لإنشاء مخرجات جديدة. عند إنشاء الترميزات الخاصة به، يستخدم VAE الاحتمالات بدلاً من الأرقام المنفصلة. بعد كل شيء، هل تعتبر الكريمة المخفوقة بمثابة صقيع؟ في بعض الأحيان نعم؛ في بعض الأحيان لا.

اتضح أنه إذا قمت بتدريب شبكة عصبية لإنشاء هذه الترميزات الاحتمالية وقمت بتدريب شبكة عصبية أخرى لفك تشفيرها، فيمكنك الحصول على بعض النتائج المثيرة للاهتمام. يمكن لجهاز فك التشفير أخذ عينات من النقاط في "مساحة" التشفير المتغير وإنشاء مخرجات جديدة تمامًا ستظل تبدو واقعية لأنها حافظت على العلاقات الاحتمالية لبيانات التدريب.

المزايا والعيوب

تستخدم أجهزة التشفير التلقائي المتغيرة التعلم غير الخاضع للإشراف، مما يعني أن النموذج يتعلم من تلقاء نفسه من البيانات الأولية دون مطالبة البشر بتسمية ميزات أو نتائج مختلفة. تنجح هذه النماذج بشكل خاص في إنشاء محتوى ينحرف قليلاً عن الأصل. ونظرًا لكيفية عملهم مع التشفيرات، يمكن أيضًا إعطاؤهم تعليمات محددة بناءً على ميزات بيانات التدريب: "أرني حلوى تمثل النقطة الوسطى المثالية بين الكعكة والفطيرة". ومع ذلك، تعمل VAEs على تحسين النتائج المحتملة، لذلك من غير المرجح أن تتفوق في إنشاء محتوى أصلي أو مبتكر للغاية.

إحدى الشكاوى الشائعة حول VAEs هي أنها يمكن أن تنتج صورًا مزعجة (أي ضبابية) نظرًا لأن التشفير وفك التشفير يتضمنان الضغط، مما يؤدي إلى فقدان المعلومات.

حالات الاستخدام

تعمل أجهزة التشفير التلقائي المتغيرة مع جميع أنواع البيانات، على الرغم من أنها تستخدم بشكل أساسي لإنشاء الصور والصوت والنص. أحد التطبيقات المثيرة للاهتمام هو الكشف عن الحالات الشاذة: في مجموعة البيانات، يمكن لـ VAEs العثور على نقاط البيانات التي تنحرف أكثر عن القاعدة، لأن تلك النقاط سيكون لها أعلى خطأ في إعادة البناء - مما يعني أنها ستكون الأبعد عن الاحتمالات التي قام VAE بتشفيرها.

شبكات الخصومة التوليدية (GANs)

تم تطوير شبكات الخصومة التوليدية بواسطة إيان جودفيلو في عام 2014. وبينما كانت الشبكات العصبية قادرة على توليد الصور قبل ذلك، كانت النتائج ضبابية وغير مقنعة. السؤال الأساسي (والرؤية) وراء شبكات GAN هو: ماذا يحدث إذا قمت بوضع شبكتين عصبيتين ضد بعضهما البعض؟ يتم تدريب أحدهما، ويسمى المولد، على إنشاء محتوى جديد، بينما يتم تدريب الآخر، ويسمى التمييز، لمعرفة الفرق بين المحتوى الحقيقي والمزيف.

يقوم المولد بإنشاء صور مرشحة ويعرضها على المُميِّز. بناءً على ردود الفعل، يقوم المولد بتحديث توقعاته وفقًا لذلك، ويتحسن في "خداع" المُميِّز. بمجرد أن تتمكن من خداع أداة التمييز بنسبة 50% من الوقت (مثل رمي العملة المعدنية بين الحقيقي والمزيف)، تتوقف حلقة التدريب على ردود الفعل. يصبح جزء المولد في GAN جاهزًا للتقييم والإنتاج.

منذ عام 2014، تم تطوير مئات الأشكال المختلفة لشبكات GAN لحالات استخدام مختلفة ولموازنة المزايا والعيوب الكامنة في شبكات GAN.

المزايا والعيوب

أثارت شبكات الخصومة التوليدية، إلى جانب VAEs، في البداية الكثير من الضجيج حول إمكانات الذكاء الاصطناعي التوليدي. إنهم يستخدمون التعلم غير الخاضع للرقابة، وبالتالي فإن النموذج يتحسن من تلقاء نفسه دون أن يحتاج الباحثون إلى إخباره ما إذا كانت مخرجاته جيدة أم سيئة. كما تتمكن شبكات الخصومة التوليدية من التعلم بسرعة كبيرة؛ مقارنةً بالحلول الأخرى الموجودة عند إصدارها لأول مرة، يمكنها الحصول على نتائج جيدة ببيانات تدريب أقل بكثير - مئات الصور مقارنة بالآلاف.

ومع ذلك، تكافح شبكات GAN بشكل عام لإنشاء محتوى لا يشبه بيانات التدريب الخاصة بها - فهي منتحلون وليسوا منشئين. وفي بعض الأحيان يمكنهم "تجاوز" بيانات التدريب الخاصة بهم، كما هو الحال عندما أنشأت شبكات GAN صورًا لصور القطط التي تحتوي على أحرف لأنه تم عرض الكثير من ميمات القطط عليهم.

يمثل تدريب GAN تحديًا. يجب التوفيق بين شبكتين أثناء التدريب. يمكن أن تنشأ المشكلات أيضًا عندما يكون المُميز جيدًا جدًا، مما يؤدي إلى دورات تدريبية لا تنتهي أبدًا - أو إذا لم يكن المُميز جيدًا بما يكفي، مما يؤدي إلى نتائج سيئة. يمكن أن يعانون أيضًا مما يسمى انهيار الوضع، حيث يفشلون في إنتاج مخرجات متنوعة لأن المولد يتعلم عدة طرق لخداع المُميز ويركز على تلك الاستراتيجيات لاستبعاد الآخرين.

حالات الاستخدام

تُستخدم شبكات الخصومة التوليدية في المقام الأول لإنشاء محتوى مشابه جدًا للمحتوى الأصلي. على سبيل المثال، يمكنهم إنتاج وجوه بشرية مقنعة أو صور واقعية للديكورات الداخلية أو المناظر الطبيعية لاستخدامها في الصور الفوتوغرافية المخزنة أو ألعاب الفيديو. يمكنهم أيضًا إنشاء صور تم تغييرها بطريقة ما، مثل تغيير صورة من اللون إلى الأسود والأبيض أو تقادم الوجه في الصورة. ومع ذلك، لا تنتج جميع شبكات GAN صورًا. على سبيل المثال، تم استخدام بعض شبكات GAN لإنتاج مخرجات تحويل النص إلى كلام.

نماذج الانتشار

ظهرت نماذج الانتشار أيضًا في منتصف عام 2010، حيث قدمت بعض الإنجازات التي قدمت أداءً أفضل بحلول أوائل عام 2020. إنها تعمل على تشغيل أدوات إنشاء الصور مثل DALL-E وStable Diffusion وMidjourney.

تعمل نماذج الانتشار عن طريق إدخال تشويش غاوسي إلى الصورة، وتشويهها في سلسلة من الخطوات، ومن ثم تدريب نموذج على عكس هذه الخطوات وتحويل الصورة "المزعجة" إلى صورة واضحة. ("الضوضاء الغوسية" تعني فقط أن الضوضاء تتم إضافتها بشكل عشوائي باستخدام منحنى الجرس للاحتمالات.)

يمكنك التفكير في الصورة المزعجة على أنها تشبه تشفير VAE، وبالفعل ترتبط VAEs ونماذج الانتشار. صور بيانات التدريب، على سبيل المثال، فطيرة الليمون الرئيسية، ستنتهي بإصدارات صاخبة مماثلة إلى حد كبير. ولكن حتى نفس الصورة الصاخبة لن يتم "إحالتها" إلى نفس الشيء في كل مرة، لأن النموذج يقوم بتخمينات مدروسة على طول الطريق.

ربما تكون قد اكتشفت بالفعل أين يأتي الجزء التوليدي. إذا أعطيت النموذج تمثيلاً للصورة في الفضاء الصاخب، فسيكون قادرًا على تقليل التشويش من الصورة والتوصل إلى صورة جديدة تمامًا وواضحة. إنه يشبه إلى حد ما كيفية أخذ عينات وحدة فك التشفير من التشفير. ولكن هناك فرق واحد مهم: لم يكن هناك أي ضغط على طول الطريق. لذلك لم يكن هناك فقدان حقيقي للبيانات، وستكون الصورة الناتجة ذات جودة أعلى.

أدوات الذكاء الاصطناعي التوليدية التي تنتقل من نص موجه إلى صورة تفعل ذلك بمساعدة نموذج منفصل يفهم كيف يمكن لشيء مثل "كعكة عيد ميلاد ذات طابع وحيد القرن" أن يرتبط بميزات صور مختلفة. يتم بعد ذلك عكس النسخة الصاخبة من تلك الميزات للكشف عن صورة واضحة.

المزايا والعيوب

لا تقوم نماذج الانتشار بضغط بيانات التدريب، لذا فهي تتمكن من إنشاء صور واقعية جدًا وعالية الجودة. ومع ذلك، فإنها تتطلب موارد ووقتًا أكبر بكثير للتدريب مقارنة بالنماذج الأخرى. ومع ذلك، فإن التدريب نفسه أكثر وضوحًا لأنه لا يواجه انهيار وضع شبكات GAN والعيوب الأخرى لشبكة الخصومة. كما أنهم لا يعانون من فقدان البيانات (وما ينتج عنه من مخرجات ذات جودة أقل) التي تمتلكها VAEs.

حالات الاستخدام

تُستخدم نماذج الانتشار بشكل أساسي في إنشاء الصور والصوت والفيديو. لا يوجد سبب متأصل لعدم إمكانية استخدامها لإنشاء نص أيضًا، ولكن حتى الآن، كانت النماذج المعتمدة على المحولات أكثر فعالية للغة الطبيعية.

نماذج اللغة

تشير نماذج اللغة إلى أي تقنية تعلم الآلة التي تولد نموذجًا احتماليًا للغة الطبيعية. النوع الأكثر شهرة من نماذج اللغة اليوم هو LLM، الذي يتم تدريبه على كميات هائلة من البيانات الأولية ويستخدم بنية قائمة على المحولات لإنشاء النص. (المزيد عن المحولات في القسم التالي.)

قبل النماذج المعتمدة على المحولات، كانت معظم النماذج اللغوية الحديثة تستخدم الشبكات العصبية المتكررة (RNNs). تقدم شبكات RNN حلقات صغيرة في الترابط بين العقد، بحيث بالإضافة إلى التعلم من الإشارات الحالية، كما هو الحال في الشبكة العصبية التقليدية المغذية (FNN)، يمكن للعقد أيضًا أن تتعلم من الماضي القريب. يعد هذا أمرًا مهمًا لمعالجة أو إنشاء لغة طبيعية، مثل تدفق النص أو الإدخال الصوتي. على عكس الصور، اللغة مرتبطة بالسياق إلى حد كبير، فكيف نفسرها تعتمد على ما حدث من قبل.

المزايا والعيوب

ونظرًا لأن "نماذج اللغة" تشير إلى مجموعة كبيرة من النماذج، فمن الصعب التعميم حول مزاياها وعيوبها. تشمل تحديات نمذجة اللغة حقيقة أن اللغة ذات أبعاد عالية جدًا، حيث يوجد عدد كبير من الكلمات المختلفة في أي لغة معينة، وقد لا تظهر بعض المجموعات أبدًا في بيانات التدريب.

علاوة على ذلك، تعتمد اللغة بشكل كبير على سياق ما جاء قبله في التسلسل، مما يتطلب من الشبكة التعامل مع هذا السياق أو تمثيله بطريقة ما. أدت القدرة على تلبية هذه الحاجة إلى ظهور شبكات RNN ذات الذكريات الطويلة والقصيرة المدى والمحولات اللاحقة، التي يمكنها معالجة الجملة بأكملها ككل، باعتبارها بنية حديثة لنماذج اللغة.

حالات الاستخدام

يمكن استخدام نماذج اللغة للترجمة والتلخيص وتصحيح الأخطاء النحوية والتعرف على الكلام والعديد من المهام الأخرى. يتم استخدامها لإنشاء محتوى نصي إبداعي جديد باستخدام العديد من التطبيقات، كما أثبتت قدرتها على التفكير المنطقي المتقدم، مثل تحليل البيانات وحل الألغاز المنطقية. ومن المثير للاهتمام أن الأبحاث وجدت أن القدرة الناشئة لطلاب ماجستير القانون هي الوعي المكاني والقدرة على إنشاء رسومات أساسية، على الرغم من تدريبهم بالكامل على النص.

النماذج القائمة على المحولات

أحدثت المحولات، التي اخترعها باحثون في جوجل وجامعة تورنتو عام 2017، ثورة في مجال التعلم العميق. إن شهادات LLM مثل ChatGPT هي نماذج تعتمد على المحولات، ويتم تشغيل نتائج بحث Google أيضًا بواسطة المحولات.

يستخدم النموذج القائم على المحولات بيانات التدريب الخاصة به لمعرفة كيفية ارتباط الكلمات المختلفة. على سبيل المثال، قد يتعلم أنالكعكةوالفطيرة متشابهتان من الناحية المفاهيمية، في حين أنالكعكةوالعباءة لا يرتبطان بشكل مباشر. وقد يتعلم أيضًا أنالشريحةيمكن ربطهابالكعكةوالفطيرة ، خاصة إذا كانت هذه الكلمات قريبة جدًا.

عند تحليل النص، يستخدم النموذج هذا الفهم الأساسي لإنشاء ما يشبه جدول بيانات ضخم. يمكنه البحث عن أي كلمتين في النص والحصول على إجابة حول مدى ارتباطهما على الأرجح.

ومن خلال الاستفادة من هذه الإشارات السياقية، يفسر نموذج المحول اللغة ببراعة ويتنبأ بالاستمرارية المحتملة في المحادثة. على سبيل المثال، إذا ذكر شخص ما كعكة في مقطع واحد ثم انتقل لمناقشة تاريخ ميلاده في الجزء التالي، فإن النموذج يتوقع الإشارة النهائية للشموع أو الحفلة، بناءً على الروابط اللغوية القائمة.

المزايا والعيوب

عندما يتعلق الأمر بتحليل وتوليد اللغة، تتمتع المحولات ببعض المزايا مقارنة بأسلافها من RNNS. يمكنهم معالجة النص بالتوازي عبر الشبكة بدلاً من معالجة كل كلمة بالتسلسل. وهذا يجعلها أسرع وأكثر كفاءة للتدريب على مجموعات البيانات الكبيرة جدًا. يمكنهم أيضًا إنشاء روابط بين الكلمات بغض النظر عن مدى تباعدها، مما يسمح لهم بالاستفادة من سياق أكبر من النص.

ومع ذلك، تحتاج المحولات إلى الكثير من البيانات لأداء جيد، ومع مجموعات البيانات الأصغر، قد تعمل معماريات الشبكات العصبية التقليدية بشكل أفضل.

حالات الاستخدام

لدى المحولات العديد من تطبيقات الذكاء الاصطناعي التوليدية. في حين أن النماذج القائمة على المحولات تستخدم عادة لتوليد النص أو الكلام، فإن الباحثين يستكشفون استخدامها لتوليد الصور، لأنها أقل كثافة من الناحية الحسابية من نماذج الانتشار.

والأكثر شهرة هو أن LLMs هي نماذج تعتمد على المحولات. تستخدم نماذج اللغة فقط جزء وحدة فك التشفير من البنية. يتم إدخال الموجه في النموذج كترميز - تلك المجموعة من القيم العددية والاحتمالات وبيانات الانتباه التي ذكرناها سابقًا. يقوم النموذج بفك تشفير المدخلات باستخدام آلية الانتباه الذاتي ومن خلال النظر إلى جميع الكلمات الموجودة في الموجه بالتوازي. هدف النموذج هو إخراج توقع للكلمة التالية في الجملة.

لدى المحولات العديد من التطبيقات خارج نطاق توليد النص في معالجة اللغة الطبيعية. في الواقع، تم تصميمها في الأصل لترجمة النص أو تحويله من لغة إلى أخرى. ساهمت Grammarly في إجراء أبحاث حول استخدام المحولات لتصحيح الأخطاء النحوية.

اعمل بشكل أكثر ذكاءً مع Grammarly
شريك الكتابة بالذكاء الاصطناعي لأي شخص لديه عمل للقيام به

خاتمة

لقد قطعت نماذج الذكاء الاصطناعي التوليدية شوطا طويلا في العقد الماضي. نأمل أن تفهم الآن المزيد عن تطور هذه النماذج، وكيفية عملها، وكيف يمكن تطبيقها على حالات الاستخدام المختلفة. ومع ذلك، فقد خدشت هذه المقالة السطح للتو، وأغفلت العديد من التفاصيل المهمة بهدف تقديم نظرة عامة للقارئ العادي. نحن نشجعك على مواصلة التعلم عن الرياضيات والعلوم وراء هذه النماذج من خلال دراسة الأوراق البحثية التي تستند إليها ومعرفة المزيد حول كيفية عملها من منظور احتمالي وإحصائي.