DALL·E가 출시된 지 15개월 만에 OpenAI는 올 봄에 더욱 놀라운 효과와 풍부한 플레이 가능성으로 주요 AI 커뮤니티의 헤드라인을 빠르게 사로잡은 속편 DALL·E 2를 출시했습니다. 최근 GAN(Generative Adversarial Networks), VAE(Variational Autoencoders) 및 확산 모델의 등장으로 딥러닝은 GPT-3, BERT와 함께 강력한 이미지 생성 기능을 전 세계에 선보였습니다. NLP 모델을 통해 인간은 점차 텍스트와 이미지 사이의 정보 경계를 허물고 있습니다.
DALL·E 2에서는 간단한 텍스트(프롬프트)만 입력하면 1024*1024 고화질 이미지 여러 장을 생성할 수 있습니다. 이러한 이미지는 그림 1의 "사진적 스타일로 말을 타고 있는 우주 비행사"와 같이 초현실적인 형태로 상상력이 풍부한 시각적 효과를 생성하기 위해 관습에 얽매이지 않는 의미를 표현할 수도 있습니다.
그림 1. DALL·E 2세대 예시
이 글에서는 DALL·E와 같은 새로운 패러다임이 어떻게 수많은 놀라운 이미지를 텍스트를 통해 만들어낼 수 있는지 심층적으로 설명할 것입니다. 기본 기술을 소개하며, 현장 독자를 생성하는 데에도 적합합니다.
그림 2. 주류 이미지 생성 방법
2014년 GAN(Generative Adversarial Networks)이 탄생한 이후 이미지 생성 연구는 딥러닝은 물론 심지어 전체 분야에서 중요한 개척 주제가 되었습니다. 인공지능 기술의 발달로 인해 가짜와 진짜가 혼동될 수 있는 단계에 이르렀습니다. 주류 방법으로는 잘 알려진 GAN(Generative Adversarial Network) 외에도 VAE(Variational Autoencoder), 흐름 기반 모델(Flow-based models), 최근 많은 주목을 받고 있는 확산 모델(Diffusion models) 등이 있습니다. . 그림 2를 통해 각 방법의 특징과 차이점을 살펴보겠습니다.
GAN의 전체 이름은 G enerative A dversarial N etworks, "Adversarial"이라는 이름에서 읽기 어렵지 않습니다. "는 다음 중 하나입니다. 그 성공 본질. 대결의 아이디어는 게임 이론에서 영감을 얻었으며, 생성자(Generator)를 훈련시키면서, 입력된 이미지가 실제 이미지인지 생성된 이미지인지 판단하는 판별자(Discriminator)를 훈련시킵니다. minimax 게임은 공식 (1)과 같이 더욱 강해집니다. 랜덤 노이즈로부터 "속이기"에 충분한 이미지가 생성되면 실제 이미지의 데이터 분포가 잘 맞춰지고 샘플링을 통해 많은 수의 사실적인 이미지가 생성될 수 있다고 믿습니다.
GAN은 생성 모델에서 가장 널리 사용되는 기술이며 이미지, 비디오, 음성 및 NLP와 같은 다양한 데이터 합성 시나리오에서 빛을 발합니다. 무작위 노이즈에서 직접 콘텐츠를 생성하는 것 외에도 생성자와 판별자에 대한 입력으로 조건(예: 분류 레이블)을 추가하여 생성된 결과가 조건부 입력의 속성을 따르고 생성된 콘텐츠를 제어할 수 있습니다. GAN은 뛰어난 효과를 가지고 있지만 게임 메커니즘의 존재로 인해 학습 안정성이 낮고 모드 붕괴가 발생하기 쉽습니다. 모델이 게임 균형점에 원활하게 도달하도록 하는 방법도 GAN의 뜨거운 연구 주제입니다.
Variational Autoencoder(Variational Autoencoder)는 오토인코더의 변형입니다. 기존 오토인코더는 감독되지 않은 방식으로 신경망을 훈련하여 원래 입력을 중간 표현으로 압축하고 복원하도록 설계되었습니다. 전자는 원래의 고차원 입력을 인코더(Encoder)를 통해 저차원 히든 레이어 인코딩으로 변환하고, 후자는 디코더(Decoder)를 통해 인코딩된 데이터를 재구성합니다. 오토인코더의 목표가 항등 함수를 학습하는 것임을 아는 것은 어렵지 않습니다. 교차 엔트로피(Cross-entropy) 또는 평균 제곱 오류(Mean Square Error)를 사용하여 재구성 손실을 구성하여 두 항목 간의 차이를 정량화할 수 있습니다. 입력과 출력. 그림 3에서 볼 수 있듯이 위 프로세스 동안 우리는 원본 데이터의 잠재적 속성을 캡처하고 데이터 압축 및 특징 표현에 사용할 수 있는 저차원 숨겨진 계층 인코딩을 얻습니다.
그림 3. 오토인코더의 잠재 속성 인코딩
오토인코더는 은닉층 인코딩의 재구성 능력에만 초점을 맞추기 때문에 은닉층 공간 분포는 연속적인 은닉층 공간에서 종종 불규칙하고 고르지 않습니다. 일련의 코드는 종종 무의미하고 해석할 수 없는 결과를 생성합니다. 다양한 잠재적 속성을 무작위로 샘플링하고 원활하게 보간하고 최종적으로 디코더를 통해 의미 있는 이미지를 생성할 수 있도록 일반적인 숨겨진 레이어 공간을 구성하기 위해 연구자들은 2014년에 변형 오토인코더를 제안했습니다.
변형 자동 인코더는 더 이상 입력을 은닉층 공간의 고정 인코딩으로 매핑하지 않고 이를 은닉층 공간의 확률 분포 추정으로 변환합니다. 표현의 편의를 위해 사전 분포는 표준 가우스 분포라고 가정합니다. 마찬가지로, 우리는 숨겨진 레이어 공간 분포에서 실제 데이터 분포로 매핑하기 위해 확률적 디코더 모델을 훈련합니다. 입력이 주어지면 사후 분포를 통해 분포의 매개변수(다변량 가우스 모델의 평균 및 공분산)를 추정하고 이 분포에서 샘플링을 사용하여 샘플링을 미분 가능하게 만들 수 있습니다(무작위 변수). , 마지막으로 그림 4와 같이 확률 디코더를 통해 분포 가 출력됩니다. 생성된 이미지를 최대한 사실적으로 만들기 위해서는 실제 이미지의 로그 가능성을 최대화한다는 목표로 사후 분포를 해결해야 합니다.
그림 4. Variational Autoencoder의 샘플링 생성 과정
안타깝게도 실제 사후 분포는 베이지안 모델에 따라 연속 공간에 대한 적분을 포함하므로 직접 풀 수 없습니다. 위의 문제를 해결하기 위해 Variational Autoencoder는 Variational inference 방법을 사용하고 실제 사후 분포를 근사화하기 위해 학습 가능한 확률 인코더를 도입하고 KL divergence를 사용하여 두 분포의 차이를 측정하여 실제 사후 분포에서 이 문제를 해결합니다. 두 분포 사이의 거리를 줄이는 방법으로 해석됩니다.
중간 도출 과정을 생략하고 위 공식을 확장하여 공식 (2)를 얻습니다.
KL 발산이 음수가 아니므로 최대화 목표를 공식 (3)으로 변환할 수 있습니다.
요약하면 확률적 인코더와 확률적 디코더를 모델의 손실 함수로 정의하며, 그 음의 형식을 Evidence Lower Bound(Evidence Lower Bound)라고 합니다. 증거 하한을 최대화하는 것은 목표를 최대화하는 것과 같습니다. 위의 변분 과정은 VAE와 그 다양한 변종의 핵심 아이디어이며, 변분 추론을 통해 문제를 실제 데이터 생성을 극대화하는 증거 하한으로 변환합니다.
그림 5. 흐름 기반 생성 프로세스
그림 5에서 볼 수 있듯이 일련의 가역적 변환 함수를 통해 원본 데이터 분포가 알려진 것에서 변환될 수 있다고 가정합니다. 분포가 얻어집니다. Jacob 행렬 행렬식과 변수 변화 규칙을 통해 실제 데이터의 확률 밀도 함수(수식 4)를 직접 추정하고 계산 가능한 로그 우도를 최대화할 수 있습니다.
은 변환 함수의 제이콥스 행렬식이므로 가역적일 뿐만 아니라 제이콥스 행렬식을 쉽게 계산할 수 있어야 합니다. Glow와 같은 흐름 기반 생성 모델은 정확한 밀도 추정을 위해 1x1 가역 컨볼루션을 사용하고 면 생성에서 좋은 결과를 얻습니다.
그림 6. 확산 모델의 확산 및 역방향 프로세스
확산 모델은 순방향 프로세스 또는 역방향 프로세스의 두 가지 프로세스를 정의합니다. 샘플링 중에 가우스 노이즈가 발생합니다. 노이즈 샘플 시퀀스를 생성하기 위해 샘플에 점진적으로 추가됩니다. 이때 노이즈 추가 프로세스는 분산 매개변수에 의해 제어될 수 있으며 이는 대략 가우스 분포와 동일할 수 있습니다. 확산 과정은 미리 설정되어 제어 가능한 과정입니다. 노이즈 추가 과정은 조건부 분포를 사용하여 식 (5)로 표현될 수 있습니다.
위의 샘플링 공식을 사용할 수 있는 확산 과정의 정의에서 알 수 있습니다.
마찬가지로 확산 과정을 역전시키고, 가우스 잡음에서 샘플링하고, 실제 조건부 확률 분포를 추정하는 모델을 학습할 수도 있습니다. 따라서 역과정은 방정식 (7)로 정의할 수 있습니다. ,
확산 모델의 최적화 목표에는 다양한 선택이 있습니다. 예를 들어 훈련 과정에서는 순방향 과정에서 직접 계산할 수 있으므로 샘플링 과정에서 이미지를 추가할 수 있습니다. 분류 및 텍스트 레이블을 조건부 입력으로 사용하여 최소 평균 제곱 오류로 재구성 손실을 최적화합니다. 이 프로세스는 자동 인코더와 동일합니다.
잡음 제거 확산 확률 모델 DDPM에서 저자는 재매개변수화 기술을 통해 잡음 예측 모델 손실(식 (8))의 단순화된 버전을 구성하고 잡음 데이터를 단계 크기로 입력했습니다. Train the 노이즈 예측 모델 추론 프로세스 중에
의 가우스 분포 평균을 사용하여 얼굴 이미지 노이즈 제거를 달성하기 위해 노이즈 제거된 데이터 를 예측합니다.
그림 7. BERT 및 GPT
BERT 및 GPT는 최근 몇 년간 NLP 분야에서 매우 강력한 사전 학습된 언어 모델입니다. 기사 생성에 사용되며 코드 생성, 기계 번역, Q&A 등과 같은 다운스트림 작업에서 큰 혁신이 이루어졌습니다. 둘 다 Transformer를 알고리즘의 기본 프레임워크로 사용하며 구현 세부 사항이 약간 다릅니다(그림 7).
BERT는 기본적으로 MLM(마스크 언어 모델)과 NSP(다음 문장 예측)라는 두 가지 작업을 사용하여 자체 지도 방식으로 텍스트의 특징 표현을 학습하고 Word2Vec로 전송할 수 있습니다. 기타 학습 과제 . GPT의 핵심은 자동회귀 디코더(autoregressive decoder)입니다. 대용량 데이터와 지속적으로 쌓이는 모델을 통해 언어 모델의 가능성 값을 최대화하여 다음 텍스트를 예측합니다. 중요한 것은 훈련 과정에서 선주문 텍스트를 훈련하고 예측할 때 GPT의 사후 주문 텍스트가 보이지 않도록 마스킹된다는 것입니다. BERT에서는 모든 텍스트가 서로 표시되고 셀프 어텐션 계산에 참여합니다. BERT는 무작위 마스크 또는 대체 입력을 사용하여 모델 견고성과 표현 능력을 향상시킵니다.
Transformer가 NLP 분야에서 큰 성공을 거둔 것을 계기로 연구자들은 ViT의 이미지 특징 표현 능력에 대해 고민하게 되었습니다. NLP와 달리 이미지 정보는 방대하고 중복됩니다. Transformer 모델링을 직접 사용하면 토큰 수가 많아 모델을 학습할 수 없습니다. 2020년까지 연구진은 패치 및 선형 투영 방식을 통해 이미지 데이터의 차원을 축소한 ViT를 제안하고, Transformer Encoder를 이미지 인코더로 사용하여 분류 예측 결과를 출력하는 등 상당한 성과를 거두었습니다.
그림 8. ViT
이제 Transformer는 이미지 처리 분야의 새로운 연구 대상이 되었으며 강력한 잠재력으로 CNN의 위상에 끊임없이 도전하고 있습니다.
CLIP(Contrastive Language-Image Pretraining)은 이미지와 텍스트 특징 표현을 연결하는 OpenAI가 제안하는 대조 학습 방법입니다. 그림 9에서 볼 수 있듯이 CLIP은 텍스트-이미지 쌍을 성공적으로 인코딩하여 Transformer 인코딩을 통해 토큰 쌍을 생성하고 내적 연산을 사용하여 유사성을 측정합니다. 이를 통해 각 텍스트에 대해 모든 이미지에 대한 원-핫 분류 확률을 얻습니다. 각 이미지에 대해 반대로 모든 텍스트에 대한 분류 확률도 얻을 수 있습니다. 훈련 과정에서 그림 9(1)의 확률 행렬의 각 행과 열에 대해 계산된 교차 엔트로피 손실을 최적화합니다.
그림 9. CLIP
CLIP은 텍스트와 이미지의 특징 표현을 동일한 공간에 매핑합니다. 모드 간 정보 전송을 구현하지는 않지만 특징 압축, 유사성 측정 및 모드 간 표현 학습 방법으로 매우 효과적입니다. 직관적으로 우리는 라벨 범위에서 생성된 모든 텍스트 프롬프트 중에서 가장 유사한 특징을 가진 이미지 토큰을 출력합니다. 즉, 이미지 분류가 완료됩니다(그림 9 (2)). 특히 이미지와 라벨의 데이터 분포가 아직 완료되지 않은 경우 이전에 등장한 CLIP에는 여전히 제로샷 학습 기능이 있습니다.
이전 두 장의 소개에 이어 이미지 생성 및 멀티모달 표현 학습과 관련된 기본 기술을 체계적으로 검토했습니다. 이번 장에서는 세 가지 최신 크로스모달 이미지 생성 방법을 소개합니다. . 해석 이러한 기본 기술을 사용하여 모델링하는 방법.
DALL·E는 2021년 초 OpenAI에서 제안되었으며 입력 텍스트에서 출력 이미지까지 자동 회귀 디코더를 훈련시키는 것을 목표로 합니다. CLIP의 성공적인 경험을 통해 우리는 텍스트 특징과 이미지 특징이 동일한 특징 공간에서 인코딩될 수 있다는 것을 알고 있으므로 Transformer를 사용하여 텍스트와 이미지 특징을 단일 데이터 스트림으로 자동 회귀적으로 모델링할 수 있습니다("텍스트와 이미지를 자동 회귀적으로 모델링합니다). 단일 데이터 스트림으로서의 토큰"). 데이터 스트림").
DALL·E의 학습 과정은 두 단계로 나누어집니다. 하나는 이미지 인코딩 및 디코딩을 위한 변형 자동 인코더를 학습하는 것이고, 다른 하나는 생성된 이미지의 토큰을 예측하기 위해 텍스트와 이미지의 자동 회귀 디코더를 학습하는 것입니다. 그림 10에 나와 있습니다.
그림 10. DALL·E의 훈련 과정
추론 과정이 더 직관적입니다. 자동 회귀 변환기를 사용하여 디코딩 과정에서 텍스트 토큰을 이미지 토큰으로 점진적으로 디코딩할 수 있습니다. 분류 확률을 통해 여러 그룹의 샘플 토큰을 변형 자동 인코딩에 입력하여 생성된 여러 이미지를 디코딩하고 그림 11과 같이 CLIP 유사성 계산을 통해 정렬 및 선택합니다.
그림 11. DALL·E의 추론 과정
VAE와 마찬가지로 확률적 인코더와 확률적 디코더를 사용하여 히든 레이어 특징의 사후 확률 분포와 생성된 이미지의 우도 확률 분포를 모델링합니다. Transformer가 예측한 텍스트와 이미지의 결합 확률 분포를 선험적으로 모델링합니다(1단계에서 균일 분포로 초기화됨). 같은 방식으로 최적화 대상의 증거 하한을 얻을 수 있습니다.
훈련 과정의 첫 번째 단계에서 DALL·E는 벡터 양자화 VAE(VQ-VAE)의 업그레이드 버전인 dVAE라고 하는 이산 변형 자동 인코더(Discrete VAE)를 사용합니다. VAE에서는 연속적인 히든 레이어 공간을 기술하기 위해 확률 분포를 사용하고, 무작위 샘플링을 통해 히든 레이어 코드를 얻습니다. 그러나 이 코드는 이산 언어 문자만큼 결정적이지 않습니다. 이미지의 히든 레이어 공간의 "언어"를 학습하기 위해 VQ-VAE는 학습 가능한 벡터 양자화 세트를 사용하여 히든 레이어 공간을 표현합니다. 이 정량화된 히든 레이어 공간을 임베딩 공간 또는 코드북/어휘라고 합니다. VQ-VAE의 학습 과정과 예측 과정은 이미지 인코딩 벡터에 가장 가까운 숨겨진 레이어 벡터를 찾은 다음 매핑된 벡터 언어를 이미지로 디코딩하는 것을 목표로 합니다(그림 12). 손실 함수는 각각 최적화하는 세 부분으로 구성됩니다. 재구성 손실, Embedding Space를 업데이트하고 인코더를 업데이트하면 그래디언트가 종료됩니다.
그림 12. VQ-VAE
VQ-VAE는 최근접 이웃 선택 가정으로 인해 일정한 사후 확률을 갖습니다. 즉, 최근접 히든 레이어 벡터의 확률은 1이고 나머지는 0이며, 임의성이 없습니다. 가장 가까운 벡터 선택 프로세스는 미분할 수 없으며 직선 추정 방법을 사용하여 그라디언트를 전달합니다.
그림 13. dVAE
위의 문제를 최적화하기 위해 DALL·E는 Gumbel-Softmax를 사용하여 새로운 dVAE를 구축했으며(그림 13) 디코더의 출력은 32*32 K=8192 차원이 됩니다. 임베딩 공간 분류 확률에 대해 학습 과정에서 분류 확률의 소프트맥스 계산에 노이즈를 추가하여 무작위성을 도입합니다. 확률 분포를 원-핫 코딩에 가깝게 만드는 데 사용됩니다. 이를 미분 가능하게 만들기 위해 다시 매개변수화하면(공식(11)) 추론 프로세스 중에 가장 가까운 이웃이 여전히 사용됩니다.
PyTorch 구현은 y_hard = y_hard - y_soft.detach() + y_soft 을 통해 파생성을 유지하면서 대략적인 원-핫 인코딩을 출력하도록 hard=True를 설정할 수 있습니다.
첫 번째 훈련 단계가 완료된 후 dVAE를 수정하여 각 텍스트-이미지 쌍에 대한 예측 대상의 이미지 토큰을 생성할 수 있습니다. 훈련의 두 번째 단계에서 DALL·E는 BPE 방법을 사용하여 먼저 텍스트를 이미지 토큰과 동일한 차원 d=3968의 텍스트 토큰으로 인코딩한 다음 텍스트 토큰과 이미지 토큰을 함께 연결하고 위치 인코딩 및 패딩 인코딩을 추가했습니다. , 그림 14와 같이 Transformer Encoder를 사용하여 자동 회귀 예측을 수행합니다. 계산 속도를 향상시키기 위해 DALL·E는 행, 열, 컨볼루셔널이라는 세 가지 희소 주의 마스크 메커니즘도 사용합니다.
그림 14. DALL·E의 자동 회귀 디코더
위 구현을 기반으로 DALL·E는 텍스트 입력을 기반으로 "실제" 이미지를 생성할 수 있을 뿐만 아니라 융합 생성, 장면 이해 및 스타일 변환도 수행할 수 있습니다. 그림 15에 나와 있습니다. 또한, 제로 샘플 및 전문 분야에서는 DALL·E의 효과가 더욱 악화될 수 있으며 생성된 이미지 해상도(256*256)가 더 낮습니다.
그림 15. DALL·E의 다양한 세대 시나리오
이미지 생성 품질을 더욱 향상하고 텍스트-이미지 특징 공간의 해석 가능성을 탐색하기 위해 OpenAI는 확산 모델을 결합합니다. 그리고 2022년 4월 DALL·E 2의 CLIP이 제안되었는데, 이는 생성 크기를 1024*1024로 늘렸을 뿐만 아니라 특징 공간의 보간 연산을 통해 텍스트-이미지 특징 공간의 마이그레이션 과정을 시각화했습니다.
그림 16에서 볼 수 있듯이 DALL·E 2는 CLIP 비교 학습을 통해 얻은 텍스트 임베딩과 이미지 임베딩을 모델 입력 및 예측 개체로 사용하며, 구체적인 프로세스는 사전 Prior를 학습하고 텍스트에서 해당 이미지 임베딩을 예측하는 것입니다. Autoregressive Transformer와 확산 모델을 사용하여 두 가지 방법으로 학습합니다. 후자는 각 데이터 세트에서 더 나은 성능을 발휘합니다. 그런 다음 CLIP 이미지 인코더의 역 프로세스로 간주될 수 있는 확산 모델 디코더 UnCLIP과 Prior에 의해 예측된 이미지 임베딩을 학습합니다. 제어를 위해 조건이 추가됨에 따라 텍스트 임베딩 및 텍스트 콘텐츠는 선택적인 조건이며 해상도를 향상시키기 위해 UnCLIP은 2개의 업샘플링 디코더(CNN 네트워크)도 추가하여 더 큰 크기의 이미지를 역으로 생성합니다.
그림 16. DALL·E 2
Prior의 확산 모델 훈련에서 DALL·E 2는 Transformer Decoder를 사용하여 확산 과정을 예측하며 입력 순서는 현재 BPE 인코딩된 텍스트 + 텍스트 임베딩 + 타임스텝 임베딩+입니다. 노이즈가 있는 이미지 임베딩 추가, 노이즈가 제거된 이미지 임베딩 예측, MSE를 사용하여 손실 함수 구성,
DALL·E 2 특정 텍스트 레이블에 대한 방향성 유형 생성 결과를 생성하는 모델을 피하기 위해 기능 풍부도가 감소하고, 확산을 위해 모델의 예측 조건은 분류자가 없는 지침을 보장하기 위해 제한됩니다. 예를 들어 Prior와 UnCLIP의 확산 모델 훈련에서는 텍스트 임베딩 추가 등의 조건에 대해 드롭 확률을 설정하므로 생성 과정에서 종속 조건 입력이 완료되지 않습니다. 따라서 역생성 과정에서는 기본 기능을 유지하면서 이미지 임베딩 샘플링을 통해 동일한 이미지의 다양한 변형을 생성할 수 있습니다. 또한, 이미지 임베딩과 텍스트 임베딩에서 각각 보간 비율을 제어하면 다음과 같이 원활한 마이그레이션 시각화 결과를 생성할 수 있습니다. 그림 17에 나와 있습니다.
그림 17. DALL·E 2로 달성 가능한 이미지 특징 유지 및 마이그레이션
DALL·E 2는 Prior와 UnCLIP의 유효성에 대해 세 가지 방법 등을 통해 많은 검증 실험을 수행했습니다. 1) 텍스트만 content UnCLIP 생성 모델에 진입합니다. 2) UnCLIP 생성 모델에 텍스트 콘텐츠와 텍스트 임베딩만 입력합니다. 3) 위 방법을 기반으로 Prior가 예측한 이미지 임베딩을 추가하면 세 가지 방법의 생성 효과가 점차 향상되어 검증됩니다. Prior의 효율성. 또한 DALL·E 2는 PCA를 사용하여 은닉층 공간의 임베딩 차원을 줄입니다. 차원이 줄어들수록 생성된 이미지의 의미적 특징은 점차 약화됩니다. 마지막으로 DALL·E 2는 MS-COCO 데이터 세트의 다른 방법을 비교하여 FID= 10.39로 최고의 발전 품질을 달성했습니다(그림 18).
그림 18. MS-COCO 데이터세트의 DALL·E 2 비교 결과
ERNIE-VILG는 2022년 초 Baidu Wenxin이 제안한 중국 장면용 텍스트-이미지 양방향 생성 모델입니다.
그림 19. ERNIE-VILG
ERNIE-VILG의 아이디어는 DALL·E와 유사하며, Transformer를 사용하여 텍스트 토큰과 이미지 토큰을 자동 회귀 예측합니다.
ERNIE-VILG의 또 다른 강력한 기능은 그림 20과 같이 중국 장면에서 여러 객체와 복잡한 위치 관계의 생성을 처리할 수 있다는 것입니다.
그림 20. ERNIE-VILG 생성 예
이 기사에서는 변형 자동 인코더 및 확산 모델과 같은 생성 방법의 적용을 포함하여 Vincentian 그래프의 최신 패러다임을 설명합니다. CLIP과 같은 잠재 공간 표현 학습 방법과 이산화 및 재매개변수화와 같은 모델링 기술이 있습니다.
요즘 텍스트-이미지 생성 기술은 문턱이 높으며, 그 훈련 비용은 얼굴 인식, 기계 번역, 음성 합성 등 단일 모달 방식보다 훨씬 높습니다. DALL·E를 예로 들면 OpenAI는 2억 5천만 쌍을 수집하고 라벨을 붙였습니다. 샘플의 경우 1024개의 V100 GPU를 사용하여 120억 개의 매개변수가 있는 모델을 훈련했습니다. 또한, 이미지 생성 분야에서는 인종차별, 폭력적인 음란물, 민감한 사생활 보호 등의 이슈가 늘 있어왔습니다. 2020년부터 점점 더 많은 AI 팀이 크로스 모달 세대 연구에 투자했습니다. 가까운 미래에 우리는 현실 세계와 생성된 세계에서 가짜와 구별되지 않을 수도 있습니다.
위 내용은 VAE에서 확산 모델까지: 텍스트를 사용하여 다이어그램을 생성하는 새로운 패러다임을 설명하는 기사의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!