DALL-E 101: ما هو وكيف يعمل

نشرت: 2024-04-18

DALL-E هي إحدى منصات الذكاء الاصطناعي التوليدية المبتكرة التي تطمس الخطوط الفاصلة بين الإبداع البشري والإبداع الناتج عن الكمبيوتر. فيما يلي نظرة عامة على DALL-E، وكيفية استخدامه، وما يجب أن تعرفه لجعله مناسبًا لك.

جدول المحتويات

ما هو دال-E؟
من أنشأ DALL-E؟
تطور DALL-E
كيف يعمل دال-E
هل DALL-E مجاني؟
كيفية استخدام دال-E
حالات الاستخدام والتطبيقات
فوائد DALL-E
عيوب DALL-E
خاتمة

ما هو دال-E؟

DALL-E عبارة عن منصة ذكاء اصطناعي توليدية تعمل على تحويل المطالبات النصية إلى صور. يمكن لـ DALL-E معالجة اللغة الطبيعية، لذلك لا تحتاج إلى أي قدرات خاصة في التشفير أو تحرير الصور لاستخدامها. يمكنك إدخال المطالبات التي تصف موضوع الصورة المطلوبة ونمطها وإطارها وخصائصها الأخرى، وسيقوم DALL-E بإنتاج تمثيل مرئي يطابق الوصف الخاص بك. ويمكنه أيضًا تحرير الصور الموجودة.

اسم DALL-E مستوحى من مزيج من أسماء شخصيتين معروفتين: الفنان السريالي الإسباني سلفادور دالي وWALL-E، الروبوت في فيلم بيكسار لعام 2008 الذي يحمل نفس الاسم.

اعمل بشكل أكثر ذكاءً مع Grammarly

شريك الكتابة بالذكاء الاصطناعي لأي شخص لديه عمل للقيام به

من أنشأ DALL-E؟

قامت OpenAI، وهي نفس الشركة التي تقف وراء ChatGPT، بإنشاء DALL-E. OpenAI هي شركة أبحاث في مجال الذكاء الاصطناعي تأسست في عام 2015.

أصدرت Open AI DALL-E في يناير 2021. وأصدرت DALL-E 2 في سبتمبر 2022 وDALL-E 3 في أكتوبر 2023.

كيف تطورت DALL-E؟

أعلنت OpenAI عن أول أداة لتوليد الصور في عام 2020، وتطورت DALL-E من هناك. أول غزوة لـ OpenAI في مجال توليد الصور كانت تسمى Image GPT. قدمت Image GPT أول دليل على أن نموذج GPT يمكنه إنشاء صور.

ثم جاء DALL-E. اعتمد التكرار الأول لـ DALL-E على إصدار GPT-3 - نموذج اللغة الكبير (LLM) الذي أطلقته OpenAI في عام 2020 - والذي تم تكييفه لتوليد الصور.

ينشئ DALL-E صورًا قابلة للتصديق وينجز العديد من المهام، والتي تشمل بعضها:

تعديل العديد من خصائص الكائن، مثل لون وملمس الكرة
فهم الإطارات، مثل اللقطات القريبة والزوايا الواسعة
إنشاء صور لنفس الكائن من زوايا متعددة
فهم المعلومات الجغرافية والفترات في التاريخ

ما هو دال-E 2؟

يقوم الإصدار التالي، DALL-E 2، بإنشاء صور بدقة أعلى بأربع مرات من الصور التي تم إنشاؤها بواسطة DALL-E. فهو يتعامل مع التركيب ووضع الكائنات بشكل أكثر فعالية، مما يجعل العناصر مثل الظلال والإضاءة تبدو أكثر واقعية. قدم DALL-E 2 أيضًا ميزتين جديدتين لتعديل الصور الموجودة: الرسم الداخلي والرسم الخارجي.

يتم إجراء الرسم الداخلي عندما تقوم بمسح جزء من الصورة واستخدام الذكاء الاصطناعي لملء المساحة الفارغة بشيء آخر. على سبيل المثال، يمكنك إزالة مبنى من خلفية الصورة واستبداله بشجرة.
يتم إجراء الرسم الخارجي عندما تقوم بتوسيع حدود الصورة باستخدام الذكاء الاصطناعي. على سبيل المثال، إذا كانت لديك صورة مقربة لكلبك في حديقة وتريد توسيعها لإظهار أفق المدينة من مسافة بعيدة، فإن DALL-E 2 يفعل ذلك من خلال الطلاء الخارجي.

ما هو دال-E 3؟

يعد DALL-E 3 تحسنًا كبيرًا عن سابقه بعدة طرق. بالنسبة للمبتدئين، من الأفضل تفسير المطالبات. سوف تتخطى الإصدارات السابقة الكلمات والأوصاف. كان عليك أن تصبح جيدًا في الهندسة السريعة للحصول على الصورة التي تريدها. يفهم DALL-E 3 الفروق الدقيقة والسياق بشكل أفضل ويمكنه اتباع المطالبات الأكثر تعقيدًا. استجاباتها أكثر دقة، وصورها أكثر تماسكا. وفي نهاية المطاف، يتوافق إنتاجها بشكل أفضل مع ما يريده الناس.

يتضمن DALL-E 3 أيضًا إجراءات أمنية أكثر تطوراً. على سبيل المثال، يمنع الصور الصريحة أو العدوانية أو التمييزية. لمنع الأشخاص من إنشاء صور تنتهك حقوق الطبع والنشر وتنتهك الملكية الفكرية، لا يقوم DALL-E 3 بإنشاء صور تشبه الشخصيات العامة الحية أو تحاكي أسلوب الفنانين والعلامات التجارية الشهيرة. يسمح DALL-E 3 أيضًا للمبدعين بإلغاء الاشتراك في استخدام صورهم لتدريب النماذج المستقبلية.

الدمج مع أدوات الذكاء الاصطناعي الموجودة

تم تضمين DALL-E 3 أصلاً مع ChatGPT وMicrosoft Image Creator من Designer (المعروف سابقًا باسم Bing Image Generator).

هذا يعني أنه إذا كان لديك اشتراك ChatGPT مميز، فيمكنك إنشاء صور كجزء من محادثتك مع chatbot. باستخدام هذه الإمكانية، لن تحتاج فقط إلى كتابة مطالبات مباشرة. يمكنك طرح الأسئلة أو إعطاء التوجيهات، ويمكن لـ ChatGPT تسليمها إلى DALL-E لإنشاء صورة.

على سبيل المثال، يمكنك أن تقول: "لقد انتقلت للتو إلى أريزونا، والجميع يتحدثون عن شيء يسمى الحبوب. كيف يبدو ذلك؟" بإمكان ChatGPT معالجة سؤالك وإنشاء مطالبة لـ DALL-E. سيقوم DALL-E بعد ذلك بإنشاء صور للهبوب، وهي عاصفة ترابية تحدث في المناطق الجافة مثل أريزونا.

سوف يقوم ChatGPT أيضًا بتوضيح مطالباتك لتزويد DALL-E بمزيد من التفاصيل. إذا كتبت مطالبة تقول "قم بإنشاء صورة لقطتين تجلسان على كرسي، بأسلوب فوتوغرافي عتيق"، فقد يقوم ChatGPT بتحسين مطالبتك إلى هذا: "إنشاء صورة قديمة بالأبيض والأسود لقطتين تجلسان على كرسي". كرسي أريكة أخضر. قطة واحدة عتابية والأخرى رمادية اللون في كل مكان. القطتان تجلسان جنبًا إلى جنب."

كيف يعمل دال-E

على المستوى الأساسي، يستخدم DALL-E التعلم العميق لفهم العلاقات بين الصور والنص، مما يسمح للنموذج بإخراج صور جديدة لمطالبة نصية. تتطور نماذج الذكاء الاصطناعي التوليدية المحددة وراء DALL-E باستمرار.

دال-E 1

يستخدم DALL-E 1 (يسمى أيضًا DALL-E) إصدارًا من GPT-3، LLM الخاص بـ OpenAI، والذي تم تدريبه لإنشاء صور من أوصاف النص. يعتمد هذا النموذج على بنية المحولات. تمامًا كما يقوم ChatGPT بإنشاء نص عن طريق التنبؤ بكل كلمة واحدة تلو الأخرى، يقوم الإصدار الأصلي من DALL-E بإنشاء الصور عن طريق التنبؤ بكل بكسل.

يقوم DALL-E 1 بإنشاء العديد من المخرجات المرشحة لموجه واحد. يتم استخدام نظام ذكاء اصطناعي ثانٍ، يسمى CLIP (التدريب المسبق للغة والصورة التقابلية)، لاختيار الأفضل. تم تدريب CLIP، تمامًا مثل DALL-E 1، على مجموعة بيانات كبيرة للصور والتسميات التوضيحية. ومع ذلك، فإن هدف CLIP هو فهم مدى الارتباط الوثيق بين صورة معينة والتسمية التوضيحية النصية.

دال-E 2

يقوم DALL-E 2 بإنشاء صور باستخدام نموذج نشر بدلاً من LLM لتحسين جودة الصورة ودقتها.

يقوم هذا الأسلوب بتدريب النموذج على التقاط صور مشوشة، حيث تم تشويه وحدات البكسل بطريقة عشوائية، وإزالة الضوضاء بشكل تدريجي للكشف عن صورة واضحة. بعد ذلك، يمكنك منح النموذج مجموعة من وحدات البكسل بالإضافة إلى الضوضاء - والتي تمثل بعض ميزات الصورة الأساسية، مثل "قطة ترتدي قبعة عالية" - وسيقوم النموذج بإنشاء صورة جديدة من البداية.

يستخدم DALL-E 2 CLIP لفهم النص في موجه المستخدم وتعيينه إلى ميزات الصورة. يتم تمرير هذه المعلومات إلى نموذج الانتشار، مما يسمح له بإنشاء مخرجات تناسب مطالبة المستخدم.

دال-E 3

لا يُعرف سوى القليل عن الاختلافات المعمارية بين DALL-E 2 وDALL-E 3. وذلك لأن OpenAI لم تشارك هذه المعلومات علنًا. ومع ذلك، من المؤكد أن DALL-E 3 يستخدم نموذج نشر، حيث أنه مقبول على نطاق واسع باعتباره أحدث تقنية لتوليد الصور.

هناك تكهنات بأن DALL-E 3 يستخدم تقنيات نشر أكثر تقدمًا وربما يستخدم LLM (بدلاً من نموذج أصغر مثل CLIP) لفهم العلاقات بين الصور والنص.

هل DALL-E مجاني للاستخدام؟

يتوفر DALL-E مع اشتراك ChatGPT مدفوع، والذي يتم تقديمه في عدة مستويات للأفراد والشركات.

يمكنك الوصول إلى DALL-E مجانًا باستخدام Microsoft Image Creator من Designer (المعروف سابقًا باسم Bing Image Generator). يتوفر برنامج Image Creator أيضًا من خلال برنامج Copilot، وهو برنامج الدردشة الآلي الخاص بشركة Microsoft.

نصائح لاستخدام DALL-E

فيما يلي بعض النصائح للحصول على أفضل النتائج باستخدام DALL-E:

كن وصفيًا

كلما كانت مطالبتك أكثر دقة، كلما كان إخراج DALL-E أفضل.

تقديم وصف واضح للموضوع الرئيسي؛ على سبيل المثال، "أريكة زرقاء من الألياف الدقيقة" بدلاً من "أريكة" فقط.
اشرح المكان، مثل "على شاطئ استوائي" أو "في منزل من السبعينيات" أو "داخل صالة الألعاب الرياضية في مدرسة ابتدائية".
قم بتفصيل أي إجراء، مثل "الشمس تغرب"، أو "كلب يغفو"، أو "طائرة ورقية تطير".
قم بوصف تنسيق الصورة، مثل "صورة واقعية" أو "لوحة فنية" أو "رسم بالقلم الرصاص".
أخبر DALL-E بالنمط الذي تريده؛ على سبيل المثال، "أبيض وأسود" أو "تجريدي" أو "آرت ديكو".
قم بتضمين زاوية الكاميرا والمسافة البؤرية، مثل "عرض جوي" أو "لقطة قريبة" أو "زاوية واسعة".
قم بتوفير تفاصيل الإضاءة، مثل "الظلال العميقة" أو "الفلاش" أو "الإضاءة الخلفية".
وصف المزاج؛ على سبيل المثال، "رومانسي" أو "شجاع" أو "حالمة".

كن تجريبيا

لا يوجد كتاب مدرسي أو طريقة مثالية لاستخدام DALL-E. أفضل طريقة للحصول على النتائج التي تريدها هي اتباع منهج تجريبي لاستخدامها.

قم بإجراء تعديلات طفيفة على مطالباتك لمعرفة ما إذا كنت ستحصل على نتائج أفضل. حاول استخدام أشكال مختلفة من نفس الكلمات لمعرفة ما إذا كان ذلك سيغير نتائجك.
العثور على التوازن الصحيح للتفاصيل. إذا كانت مطالباتك مفصلة للغاية، فقد لا يعرف DALL-E أي منها أكثر أهمية. العب مع مدى تعقيد مطالباتك للعثور على مكانك المناسب.
الاستعداد للأخطاء والفشل. DALL-E يمكن أن يخرج عن المسار. اعتبر كل استجابة فاشلة بمثابة فرصة للتعلم. إن اكتشاف ما لا ينجح لا يقل أهمية عن اكتشاف ما ينجح.

حالات وتطبيقات استخدام DALL-E

يستخدم الأشخاص DALL-E للعديد من التطبيقات في الأعمال والإعدادات الشخصية.

التسويق والاتصالات التجارية

إنشاء صور للمدونات ومنشورات وسائل التواصل الاجتماعي ومواقع الويب
- تصميم الإعلانات مثل النشرات والملصقات
تصميم الشعارات وعناصر العلامة التجارية
إنشاء صور فوتوغرافية فريدة من نوعها
تصميم أغلفة المنتجات

التصور

تصميم المنتجات المادية
تقديم النماذج المعمارية
تصور مشاريع إبداعية أخرى، مثل الرسوم المتحركة والقصص المصورة والتصميم الداخلي
اختبار الأفكار الإبداعية بأساليب مختلفة

المحتوى التعليمي

إنشاء وسائل مساعدة بصرية مثل الرسوم البيانية والرسوم البيانية
تصوير الأحداث التاريخية
تصوير العمليات العلمية التي لا يمكن رؤيتها بالعين المجردة، مثل التفاعلات الكيميائية
إنشاء صور مصممة خصيصًا لتلبية الاحتياجات أو الاهتمامات أو أسلوب التعلم الخاص بالطالب

فن و تصميم

إنشاء عمل فني مخصص لديكور منزلك أو حفلتك
تصميم غلاف فني للكتب أو الألبومات أو الأفلام
إنشاء أعمال فنية لبيعها على منتجات مثل القمصان والإشارات المرجعية والمطبوعات
إنشاء صور مرجعية لاستخدامها كمصدر إلهام للوسائط الفنية الأخرى، مثل تصميم الأزياء
تصميم العناصر، مثل أنسجة الخلفية، لدمجها في أشكال أخرى من الأعمال الفنية

تعديل الصور الموجودة

إضافة المزيد من المواضيع إلى الصورة
ضبط الخلفية
تغيير نسبة العرض إلى الارتفاع
التأكيد على كائنات معينة
إزالة كائن واستبداله بشيء آخر

فوائد استخدام DALL-E

تقدم DALL-E العديد من المزايا، بما في ذلك القدرة على الاختيار من بين استجابات متعددة، واستخدام المنصة إلى جانب أدوات الذكاء الاصطناعي الأخرى، وإزالة الحواجز أمام الفن والتصميم.

يولد صور متعددة لكل موجه

يقوم DALL-E بإنشاء أربع صور لكل موجه، حتى تتمكن من اختيار الصورة التي تناسب تفضيلاتك. يقوم بتعديل المطالبة قليلاً لكل صورة ويوسعها لإضافة المزيد من التفاصيل.

على سبيل المثال، إذا قمت بإدخال موجه عام مثل "صورة على شكل كتاب هزلي لزقاق مظلم"، فسيقوم DALL-E بإعادة صياغة موجهك وإضافة تفاصيل مثل نمط المباني في المشهد، أو تأطير الصورة، أو الألوان السائدة. يمكنك رؤية الاختلافات السريعة لـ DALL-E من خلال النقر على كل صورة.

يتكامل مع ChatGPT وMicrosoft Copilot

يمكنك الوصول إلى DALL-E من خلال برامج الدردشة الآلية التي ربما تستخدمها بالفعل. من السهل إنشاء نصوص وصور داخل أداة واحدة. وأيضًا، نظرًا لأن هذه روبوتات الدردشة، يمكن أن تكون الصور التي تنشئها جزءًا من محادثة أطول.

على سبيل المثال، لنفترض أنك تستخدم ChatGPT لإنشاء جدول أعمال لحفل استقبال المولود الجديد. في هذه الحالة، يمكنك أيضًا استخدام DALL-E لإنشاء صور للدعوات. نظرًا لأن كل ذلك جزء من محادثة واحدة، يمكن لـ ChatGPT دمج بعض تفاصيل جدول أعمالك في الدعوة.

يجعل التصميم أكثر سهولة

يمكن أن تكون برامج التصميم ومعدات التصوير الفوتوغرافي باهظة الثمن ويصعب تعلمها. DALL-E يجعل توليد الصور أكثر سهولة بالنسبة للشخص العادي.

يمكن لمالك الأعمال الصغيرة إنشاء أصول مخصصة للعلامة التجارية، مثل الصور وصور المنتجات التي كانت بعيدة المنال في السابق.
يمكن للهواة في مجالات مثل النجارة والنحت صياغة تصورات لمفاهيمهم دون الاستثمار في البرامج المكلفة.
يمكن للأشخاص والمنظمات من المجموعات الممثلة تمثيلاً ناقصًا أو من ذوي الهوايات المتخصصة إنشاء صور تتحدث عن اهتماماتهم.

عيوب DALL-E

على الرغم من قدراته، إلا أن DALL-E لديه بعض القيود.

عدم القدرة على التنبؤ

نظرًا لأن DALL-E ينشئ كل صورة من الصفر، فقد يكون من غير الممكن التنبؤ بها. لنفترض أن لديك متطلبات محددة لوضع العناصر أو معايير العلامة التجارية. وفي هذه الحالة، قد لا يقوم DALL-E دائمًا بدمج تلك المعايير في نتائجه.

بالإضافة إلى ذلك، قد يؤدي تعديل الموجه بشكل طفيف إلى الحصول على مخرجات مختلفة بشكل كبير. يمثل هذا تحديًا خاصًا عند تغيير الصورة التي أنشأها DALL-E بالفعل.

التحيزات

يتعامل كل الذكاء الاصطناعي التوليدي مع التحيزات، ولا يختلف DALL-E عن ذلك. يخضع DALL-E لتوليد استجابات تعكس التحيزات حول العرق والجنس والطبقة وحتى لغات أو بلدان معينة. تم تدريب DALL-E في المقام الأول على بيانات من الولايات المتحدة، لذلك فهو غالبًا ما يعكس الثقافة والقيم والتحيزات الأمريكية.

استخدام بعض الصفات قد يؤدي إلى نتائج نمطية. على سبيل المثال، إذا كانت المطالبة تحتوي على كلمات مثلعاطفيأوحساس، فقد يرتبط الناتج بامرأة. وفي الوقت نفسه، فإن كلمات مثلصعبأوفكريقد تؤدي إلى نتائج تميز الرجال.

يكلف

يأتي DALL-E بتكلفة ما لم تستخدم Microsoft Image Creator، الأمر الذي قد يكون غير مريح، اعتمادًا على تفضيلاتك.

إذا كنت تفضل استخدام ChatGPT على منصات الذكاء الاصطناعي من Microsoft، فسيتعين عليك الدفع للوصول إلى DALL-E.

ما هي الخطوة التالية بالنسبة إلى إنشاء صور DALL-E وAI؟

يمكنك استخدام DALL-E لتحفيز العصف الذهني الإبداعي، أو تبسيط عمليات التصميم، أو مجرد الاستمتاع. إنها إحدى منصات الذكاء الاصطناعي العديدة التي تتيح لك الإبداع بطرق جديدة. ونظرًا لتكامله مع منصات الذكاء الاصطناعي الحالية مثل ChatGPT وMicrosoft Image Creator، يمكنك إنشاء صور وإنشاء نص، كل ذلك من خلال أداة واحدة.

عند استخدام DALL-E، من المهم أن تضع في اعتبارك أن كل الذكاء الاصطناعي التوليدي عرضة لإنتاج استجابات متحيزة. تتيح لك معرفة حدود DALL-E العثور على أفضل الطرق لاستخدامه والحصول على الصور التي تريدها.

تظهر باستمرار إمكانيات وميزات ومنافسين جدد. يجب على أي شخص يرغب في استخدام الذكاء الاصطناعي التوليدي - سواء لأغراض تجارية أو شخصية أو تعليمية - أن يراقب أحدث التطورات. سنستمر في تغطية التغييرات المهمة في الذكاء الاصطناعي التوليدي، لذا تابع مدونة Grammarly للبقاء على اطلاع على آخر المستجدات.