DALL-E 101: 정의 및 작동 방식

게시 됨: 2024-04-18

DALL-E는 인간과 컴퓨터가 생성한 창의성 사이의 경계를 모호하게 만드는 혁신적인 생성 AI 플랫폼 중 하나입니다. 다음은 DALL-E의 개요, 사용 방법, 작동을 위해 알아야 할 사항입니다.

목차

  • DALL-E란 무엇인가요?
  • DALL-E를 만든 사람은 누구인가요?
  • DALL-E의 진화
  • DALL-E 작동 방식
  • DALL-E는 무료인가요?
  • DALL-E 사용 방법
  • 사용 사례 및 애플리케이션
  • DALL-E의 장점
  • DALL-E의 단점
  • 결론

DALL-E란 무엇인가요?

DALL-E는 텍스트 프롬프트를 이미지로 변환하는 생성 AI 플랫폼입니다. DALL-E는 자연어를 처리할 수 있으므로 이를 사용하기 위해 특별한 코딩이나 이미지 편집 능력이 필요하지 않습니다. 원하는 이미지의 주제, 스타일, 프레임 및 기타 특성을 설명하는 프롬프트를 입력하면 DALL-E가 설명과 일치하는 시각적 표현을 생성합니다. 기존 이미지를 편집할 수도 있습니다.

DALL-E라는 이름은 두 명의 유명한 인물, 즉 스페인 초현실주의 예술가 살바도르 달리(Salvador Dali)와 2008년 픽사(Pixar) 영화에 등장하는 동명의 로봇인 WALL-E의 이름을 조합하여 영감을 받았습니다.

Grammarly로 더욱 스마트하게 작업하세요
할 일이 있는 모든 사람을 위한 AI 글쓰기 파트너

DALL-E를 만든 사람은 누구인가요?

ChatGPT와 동일한 회사인 OpenAI가 DALL-E를 만들었습니다. OpenAI는 2015년에 설립된 AI 연구 회사입니다.

Open AI는 2021년 1월 DALL-E를 출시했습니다. 2022년 9월 DALL-E 2, 2023년 10월 DALL-E 3를 출시했습니다.

DALL-E는 어떻게 진화했나요?

OpenAI는 2020년에 첫 번째 이미지 생성 도구를 발표했고 DALL-E는 거기서 발전했습니다. OpenAI의 첫 번째 이미지 생성 진출은 Image GPT라고 불렸습니다. 이미지 GPT는 GPT 모델이 이미지를 생성할 수 있다는 최초의 증거를 제공했습니다.

그런 다음 DALL-E가 나왔습니다. DALL-E의 첫 번째 반복은 OpenAI가 2020년에 출시한 LLM(대형 언어 모델)인 GPT-3 버전을 기반으로 이미지 생성에 적용되었습니다.

DALL-E는 믿을 수 있는 이미지를 생성하고 다음과 같은 여러 작업을 수행합니다.

  • 구의 색상 및 질감과 같은 객체의 여러 특성 수정
  • 클로즈업, 광각 등 프레이밍 이해
  • 여러 각도에서 동일한 개체의 이미지 만들기
  • 지리정보와 역사시대의 이해

DALL-E 2란 무엇인가요?

다음 버전인 DALL-E 2는 DALL-E에서 생성된 이미지보다 4배 더 높은 해상도의 이미지를 생성합니다. 구성과 개체 배치를 보다 효과적으로 처리하여 그림자 및 조명과 같은 요소를 더욱 사실적으로 보이게 만듭니다. DALL-E 2에는 기존 이미지를 수정하기 위한 두 가지 새로운 기능인 인페인팅(inpainting)과 아웃페인팅(outpainting)도 도입되었습니다.

  • 인페인팅은 이미지의 일부를 지우고 AI를 사용해 빈 공간을 다른 것으로 채우는 작업입니다. 예를 들어, 사진 배경에서 건물을 제거하고 나무로 대체할 수 있습니다.
  • 아웃페인팅은 AI로 이미지의 경계를 확장하는 것입니다. 예를 들어, 공원에 있는 강아지의 클로즈업 이미지가 있고 이를 확장하여 멀리 있는 도시 스카이라인을 표시하려는 경우 DALL-E 2는 아웃페인팅을 사용하여 이를 수행합니다.

DALL-E 3는 무엇입니까?

DALL-E 3는 여러 면에서 이전 제품에 비해 크게 개선되었습니다. 우선, 프롬프트를 해석하는 것이 더 좋습니다. 이전 버전에서는 단어와 설명을 건너뛰었습니다. 원하는 이미지를 얻으려면 신속한 엔지니어링에 능숙해야 했습니다. DALL-E 3는 뉘앙스와 맥락을 더 잘 이해하고 더 복잡한 프롬프트를 따를 수 있습니다. 응답은 더 정확하고 이미지는 더 일관성이 있습니다. 궁극적으로 그 결과는 사람들이 원하는 것과 더 잘 일치합니다.

DALL-E 3에는 더욱 정교한 보안 조치도 포함되어 있습니다. 예를 들어, 노골적이거나 공격적이거나 차별적인 이미지를 방지합니다. 사람들이 저작권을 침해하고 지적 재산권을 침해하는 이미지를 생성하는 것을 방지하기 위해 DALL-E 3는 살아있는 공인과 유사하거나 인기 아티스트 및 브랜드의 스타일을 모방하는 이미지를 생성하지 않습니다. 또한 DALL-E 3를 사용하면 제작자는 미래 모델 교육에 이미지를 사용하지 않도록 선택할 수 있습니다.

기존 AI 도구에 포함

DALL-E 3는 기본적으로 ChatGPT 및 Designer의 Microsoft Image Creator(이전 Bing Image Generator)에 포함되어 있습니다.

이는 프리미엄 ChatGPT 구독이 있는 경우 챗봇과의 대화의 일부로 이미지를 생성할 수 있음을 의미합니다. 이 기능을 사용하면 간단한 프롬프트를 작성할 필요가 없습니다. 질문을 하거나 지시를 내릴 수 있으며 ChatGPT는 이를 DALL-E에 전달하여 이미지를 생성할 수 있습니다.

예를 들어, “나는 방금 애리조나로 이사했는데 모두가 하부브(haboob)라는 것에 대해 계속 이야기하고 있어요. 저건 어떤 것 같나요?” ChatGPT는 귀하의 질문을 처리하고 DALL-E에 대한 프롬프트를 생성할 수 있습니다. 그런 다음 DALL-E는 애리조나와 같은 건조한 지역에서 발생하는 먼지 폭풍인 하부브(haboob)의 이미지를 생성합니다.

ChatGPT는 또한 DALL-E에 더 자세한 정보를 제공하기 위해 프롬프트에 대해 자세히 설명합니다. "의자에 앉아 있는 고양이 두 마리의 이미지를 빈티지 사진 스타일로 생성"이라는 프롬프트를 작성하면 ChatGPT는 프롬프트를 다음과 같이 개선할 수 있습니다. "고양이 두 마리가 의자에 앉아 있는 흑백 빈티지 사진을 생성합니다. 녹색 소파 의자. 고양이 한 마리는 얼룩무늬이고, 다른 한 마리는 몸 전체가 회색입니다. 고양이 두 마리가 나란히 앉아 있어요.”

DALL-E 작동 방식

기본 수준에서 DALL-E는 딥 러닝을 사용하여 이미지와 텍스트 간의 관계를 이해하고 모델이 텍스트 프롬프트에 대한 새 이미지를 출력할 수 있도록 합니다. DALL-E의 특정 생성 AI 모델은 끊임없이 진화하고 있습니다.

DALL-E 1

DALL-E 1(DALL-E라고도 함)은 텍스트 설명에서 이미지를 생성하도록 훈련된 OpenAI의 LLM인 GPT-3 버전을 사용합니다. 이 모델은 변환기 아키텍처를 기반으로 합니다. ChatGPT가 각 단어를 하나씩 예측하여 텍스트를 생성하는 것처럼 DALL-E의 원본 버전은 각 픽셀을 예측하여 이미지를 생성합니다.

DALL-E 1은 단일 프롬프트에 대해 많은 후보 출력을 생성합니다. CLIP(Contrastive Language-Image Pretraining)이라는 두 번째 AI 시스템을 사용하여 가장 좋은 것을 선택합니다. DALL-E 1과 마찬가지로 CLIP은 대규모 이미지 및 캡션 데이터 세트에 대해 교육을 받았습니다. 그러나 CLIP의 목표는 주어진 이미지와 텍스트 캡션이 얼마나 밀접하게 관련되어 있는지 이해하는 것입니다.

DALL-E 2

DALL-E 2는 향상된 이미지 품질과 정확성을 위해 LLM이 아닌 확산 모델을 사용하여 이미지를 생성합니다.

이 접근 방식은 픽셀이 무작위로 왜곡된 노이즈 이미지를 촬영하고 점진적으로 노이즈를 제거하여 선명한 이미지를 표시하도록 모델을 교육합니다. 그런 다음 "모자를 쓴 고양이"와 같은 일부 기본 이미지 특징을 나타내는 픽셀과 노이즈 세트를 모델에 제공할 수 있으며 모델은 처음부터 새로운 이미지를 구성합니다.

DALL-E 2는 CLIP을 사용하여 사용자 프롬프트의 텍스트를 이해하고 이를 이미지 기능에 매핑합니다. 이 정보는 확산 모델로 전달되어 사용자의 프롬프트에 맞는 출력을 생성할 수 있습니다.

DALL-E 3

DALL-E 2와 DALL-E 3의 아키텍처 차이점에 대해서는 알려진 바가 거의 없습니다. 이는 OpenAI가 이 정보를 공개적으로 공유하지 않았기 때문입니다. 그러나 DALL-E 3는 이미지 생성을 위한 최첨단 기술로 널리 받아들여지는 확산 모델을 사용하는 것이 거의 확실합니다.

DALL-E 3는 고급 확산 기술을 사용하고 LLM(CLIP과 같은 작은 모델이 아닌)을 사용하여 이미지와 텍스트 간의 관계를 이해할 수 있다는 추측이 있습니다.

DALL-E는 무료로 사용할 수 있나요?

DALL-E는 개인 및 기업을 위해 여러 계층으로 제공되는 유료 ChatGPT 구독을 통해 사용할 수 있습니다.

Designer(이전의 Bing Image Generator)에서 Microsoft Image Creator를 사용하여 DALL-E에 무료로 액세스할 수 있습니다. Image Creator는 마이크로소프트의 챗봇인 Copilot을 통해서도 사용할 수 있습니다.

DALL-E 사용 팁

다음은 DALL-E로 최상의 결과를 얻기 위한 몇 가지 팁입니다.

설명적이어야 합니다.

프롬프트가 정확할수록 DALL-E의 출력이 더 좋아집니다.

  • 주요 주제에 대한 명확한 설명을 제공합니다. 예를 들어 단순히 '소파' 대신 '파란색 극세사 소파'를 사용하세요.
  • "열대 해변", "1970년대 집", "초등학교 체육관 내부"와 같은 배경을 설명합니다.
  • "해가 지고 있다", "개가 낮잠을 자고 있다", "연이 날고 있다"와 같은 행동을 자세히 설명하세요.
  • '사실적', '그림', '연필 스케치' 등 이미지 형식을 설명합니다.
  • 원하는 스타일을 DALL-E에 알려주세요. 예를 들어 '흑백', '추상', '아르데코' 등이 있습니다.
  • '조감도', '클로즈업', '광각' 등 카메라 각도와 초점 거리를 포함하세요.
  • '깊은 그림자', '플래시' 또는 '역광'과 같은 조명 세부정보를 제공합니다.
  • 분위기를 설명하세요. 예를 들어 '낭만적', '투쟁적', '몽환적' 등이 있습니다.

실험적으로 행동하세요

DALL-E를 사용하는 완벽한 방법이나 교과서는 없습니다. 원하는 결과를 얻는 가장 좋은 방법은 이를 사용하는 실험적인 접근 방식을 취하는 것입니다.

  • 더 나은 결과를 얻을 수 있는지 확인하려면 프롬프트를 약간 수정하세요. 동일한 단어의 변형을 사용해 결과가 달라지는지 확인하세요.
  • 세부 사항의 올바른 균형을 찾으십시오. 프롬프트가 너무 자세하면 DALL-E는 어느 프롬프트가 가장 중요한지 알지 못할 수 있습니다. 최적의 위치를 ​​찾기 위해 프롬프트의 복잡성을 시험해 보세요.
  • 실수와 실패에 대비하세요. DALL-E는 궤도를 벗어날 수 있습니다. 실패한 각 응답을 학습 기회로 삼으십시오. 무엇이 작동하지 않는지 알아내는 것은 무엇이 작동하는지 찾는 것만큼 중요합니다.

DALL-E 사용 사례 및 애플리케이션

사람들은 비즈니스 및 개인 설정의 다양한 응용 프로그램에 DALL-E를 사용합니다.

마케팅 및 비즈니스 커뮤니케이션

  • 블로그, 소셜 미디어 게시물, 웹사이트용 이미지 만들기
  • 전단지, 포스터 등 광고 디자인
  • 로고 및 브랜드 요소 디자인
  • 세상에 하나뿐인 스톡 사진 만들기
  • 제품 포장 디자인

개념화

  • 실제 제품 디자인
  • 건축 모델 렌더링
  • 애니메이션, 스토리보드, 인테리어 디자인 등 기타 창의적인 프로젝트 아이디어 구상
  • 다양한 스타일의 창의적인 아이디어 테스트

교육 콘텐츠

  • 인포그래픽, 다이어그램과 같은 시각적 도구 만들기
  • 역사적 사건을 묘사함
  • 화학반응 등 육안으로 볼 수 없는 과학적 과정을 시각화
  • 개별 학생의 특정 요구, 관심 또는 학습 스타일에 맞는 이미지 만들기

예술과 디자인

  • 집이나 파티 장식을 위한 맞춤형 예술 작품 만들기
  • 책, 앨범, 영화의 표지 아트 디자인
  • 티셔츠, 책갈피, 인쇄물 등의 제품에 판매할 예술 작품 만들기
  • 패션 디자인과 같은 다른 예술 매체에 대한 영감으로 사용할 참조 이미지 만들기
  • 배경 질감과 같은 요소를 디자인하여 다른 형태의 아트웍에 통합

기존 이미지 수정

  • 이미지에 더 많은 피사체 추가
  • 배경 조정
  • 종횡비 변경
  • 특정 대상 강조
  • 객체를 제거하고 다른 것으로 대체

DALL-E 사용의 이점

DALL-E는 다양한 응답 중에서 선택하고, 다른 AI 도구와 함께 플랫폼을 사용하고, 예술과 디자인에 대한 장벽을 제거하는 기능을 포함하여 수많은 이점을 제공합니다.

프롬프트당 여러 이미지를 생성합니다.

DALL-E는 프롬프트당 4개의 이미지를 생성하므로 귀하의 선호도에 가장 적합한 이미지를 선택할 수 있습니다. 각 이미지에 대한 프롬프트를 약간 수정하고 확장하여 세부 정보를 추가합니다.

예를 들어, "만화책 스타일의 어두운 골목 이미지"와 같은 일반 프롬프트를 입력하면 DALL-E는 프롬프트를 바꾸고 장면의 건물 스타일, 이미지 프레임 또는 주요 색상. 각 이미지를 클릭하시면 DALL-E의 프롬프트 변형을 보실 수 있습니다.

ChatGPT 및 Microsoft Copilot과 통합

이미 사용하고 있는 챗봇을 통해 DALL-E에 접속할 수 있습니다. 하나의 도구 내에서 텍스트와 이미지를 모두 생성하는 것이 편리합니다. 또한 이들은 챗봇이기 때문에 생성한 이미지는 더 긴 대화의 일부가 될 수 있습니다.

예를 들어 ChatGPT를 사용하여 베이비 샤워 일정을 만들었다고 가정해 보겠습니다. 이 경우 DALL-E를 사용하여 초대장 이미지를 만들 수도 있습니다. 이는 모두 하나의 대화의 일부이므로 ChatGPT는 안건의 일부 세부정보를 초대에 통합할 수 있습니다.

디자인에 대한 접근성을 높입니다.

디자인 소프트웨어와 사진 장비는 비용이 많이 들고 배우기 어려울 수 있습니다. DALL-E는 일반 사람들이 이미지 생성에 더 쉽게 접근할 수 있도록 해줍니다.

  • 중소기업 소유자는 이전에는 접근할 수 없었던 사진 및 제품 이미지와 같은 맞춤형 브랜드 자산을 만들 수 있습니다.
  • 목공 및 조각과 같은 분야의 애호가는 값비싼 소프트웨어에 투자하지 않고도 개념의 시각화 초안을 작성할 수 있습니다.
  • 잘 알려지지 않은 그룹이나 틈새 취미를 가진 사람과 조직은 자신의 관심사를 대변하는 이미지를 만들 수 있습니다.

DALL-E의 단점

이러한 기능에도 불구하고 DALL-E에는 몇 가지 제한 사항이 있습니다.

예측 불가능성

DALL-E는 모든 이미지를 처음부터 생성하므로 예측이 불가능할 수 있습니다. 개체 배치 또는 브랜드 표준에 대한 특정 요구 사항이 있다고 가정해 보겠습니다. 이 경우 DALL-E는 항상 해당 표준을 결과에 포함하지 않을 수 있습니다.

또한 프롬프트를 약간 조정하면 결과가 크게 달라질 수 있습니다. 이는 DALL-E가 이미 생성한 이미지를 변경할 때 특히 어렵습니다.

편견

모든 생성 AI는 편견을 다루며 DALL-E도 다르지 않습니다. DALL-E는 인종, 성별, 계급, 심지어 특정 언어나 국가에 대한 편견을 반영하는 응답을 생성할 수 있습니다. DALL-E는 주로 미국의 데이터를 대상으로 교육을 받았기 때문에 미국 문화, 가치, 편견을 반영하는 경우가 많습니다.

특정 형용사를 사용하면 틀에 박힌 결과가 나올 수 있습니다. 예를 들어 프롬프트에감정적이거나민감한단어가 포함된 경우 출력은 여성과 연관될 수 있습니다. 동시에터프하다,지적이다같은 단어는 남성을 특징으로 하는 결과로 이어질 수도 있다.

비용

DALL-E는 Microsoft Image Creator를 사용하지 않는 이상 비용이 발생하는데, 이는 사용자의 선호도에 따라 불편할 수 있습니다.

Microsoft의 AI 플랫폼보다 ChatGPT를 사용하려는 경우 DALL-E에 액세스하려면 비용을 지불해야 합니다.

DALL-E와 AI 이미지 생성의 다음 단계는 무엇입니까?

DALL-E를 사용하여 창의적인 브레인스토밍을 촉진하고, 디자인 프로세스를 간소화하거나, 단순히 즐거운 시간을 보낼 수 있습니다. 이는 새로운 방식으로 창작할 수 있는 다양한 생성 AI 플랫폼 중 하나입니다. ChatGPT 및 Microsoft Image Creator와 같은 기존 AI 플랫폼과 통합되어 있으므로 단일 도구 내에서 이미지를 생성하고 텍스트를 생성할 수 있습니다.

DALL-E를 사용할 때는 모든 생성 AI가 편향된 응답을 생성하는 경향이 있다는 점을 염두에 두는 것이 중요합니다. DALL-E의 한계를 알면 DALL-E를 사용하는 가장 좋은 방법을 찾고 원하는 이미지를 얻을 수 있습니다.

새로운 기능, 특징, 경쟁자가 끊임없이 등장하고 있습니다. 비즈니스, 개인, 교육 목적 등 생성적 AI를 사용하려는 사람은 누구나 최신 개발 상황을 확인해야 합니다. 우리는 생성 AI의 중요한 변화를 계속해서 다룰 예정이므로 Grammarly 블로그를 계속해서 확인하여 최신 소식을 받아보세요.