>기술 주변기기 >일체 포함 >다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.

다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.

WBOY
WBOY앞으로
2023-08-22 13:49:041340검색

최근 몇 년 동안 이미지 생성 기술은 많은 중요한 혁신을 이루었습니다. 특히 DALLE2 및 Stable Diffusion과 같은 대형 모델이 출시된 이후 텍스트 생성 이미지 기술이 점차 성숙해졌으며 고품질 이미지 생성에는 광범위한 실제 시나리오가 있습니다. 그러나 기존 이미지의 세부 편집은 여전히 ​​어려운 문제입니다

한편으로는 텍스트 설명의 한계로 인해 기존 고품질 텍스트 이미지 모델은 이미지를 설명적으로 편집하기 위해 텍스트만 사용할 수 있으며 일부 특정 반면, 실제 적용 시나리오에서는 이미지 개선 편집 작업에 소수의 참조 이미지만 있는 경우가 많습니다. 이로 인해 학습을 위해 많은 양의 데이터가 필요한 많은 솔루션이 소규모로 만들어집니다. 특히 참조 이미지가 하나만 있는 경우에는 데이터 양이 많아 작업하기가 어렵습니다.

최근 NetEase Interactive Entertainment AI Lab의 연구원들은 단일 이미지 안내를 기반으로 하는 이미지 간 편집 솔루션을 제안했습니다. 단일 참조 이미지가 주어지면 참조 이미지의 개체나 스타일을 변경하지 않고 원본 이미지로 마이그레이션할 수 있습니다. 소스 이미지의 전체 구조.

연구 논문이 ICCV 2023에 승인되었으며 관련 코드가 오픈 소스로 공개되었습니다. 주소 주소 : https://arxiv.org/abs/2307.14352 코드 주소 : https://github.com/crystalneuro/visual-concept-translator

    그 효과를 느껴보기 위해 먼저 일련의 사진을 살펴 보겠습니다.
  • 논문 렌더링: 각 사진 세트의 왼쪽 상단은 원본 이미지, 왼쪽 하단은 참조 이미지, 오른쪽은 생성된 결과 이미지입니다메인 프레임

논문의 저자는 Inversion-Fusion - VCT(시각 개념 변환기, 시각적 개념 변환기)를 기반으로 하는 이미지 편집 프레임워크를 제안했습니다.

아래 그림과 같이 VCT의 전체 프레임워크는 콘텐츠-개념 반전 프로세스(Content-concept Inversion)와 콘텐츠-개념 융합 프로세스(Content-concept Fusion)의 두 가지 프로세스로 구성됩니다. 콘텐츠-개념 반전 프로세스는 두 가지 다른 반전 알고리즘을 사용하여 원본 이미지의 구조 정보와 참조 이미지의 의미 정보의 잠재 벡터를 각각 학습하고 표현합니다. 콘텐츠-개념 융합 프로세스는 구조 정보의 잠재 벡터를 사용합니다. 최종 결과를 생성하기 위한 의미 정보를 융합합니다.

다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.

다시 작성해야 하는 내용은 논문의 주요 프레임워크입니다.

최근 GAN(Generative Adversarial Networks) 분야에서는 반전 방법이 사용되었다는 점을 언급할 가치가 있습니다. 이미지 생성 작업에서 널리 사용되고 많은 놀라운 결과를 얻었습니다 [1]. GAN이 콘텐츠를 다시 작성할 때 원본 텍스트를 중국어로 다시 작성해야 하며, 학습된 GAN 생성기의 숨겨진 공간에 그림을 매핑할 수 있으며, 편집 목적을 제어할 수 있습니다. 숨겨진 공간. 이 반전 방식은 사전 훈련된 생성 모델의 생성 능력을 완전히 활용할 수 있습니다. 본 연구에서는 실제로 GAN으로 내용을 다시 작성해야 하며, 확산 모델을 우선적으로 적용한 이미지 안내 기반의 이미지 편집 작업에는 원문을 중국어로 다시 작성해야 합니다.

다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.

내용을 다시 작성할 때 원문을 중국어로 다시 작성해야 하며 원문은 나올 필요가 없습니다

방법 소개

역전의 아이디어를 바탕으로, VCT는 콘텐츠 재구성 분기 B*와 편집용 마스터 분기 B를 포함하는 2개 분기 확산 프로세스를 설계했습니다. 이는 콘텐츠 재구성 및 콘텐츠 편집을 위해 각각 확산 모델을 사용하여 이미지의 노이즈를 계산하는 알고리즘인 DDIM Inversion

【2】다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.

에서 얻은 동일한 노이즈 xT에서 시작합니다. 본 논문에서 사용된 사전 훈련 모델은 잠재 벡터 공간 z 공간에서 확산 프로세스가 발생하는 잠재 확산 모델(Latent Diffusion Models, LDM)입니다. 이중 분기 프로세스는 다음과 같이 표현될 수 있습니다.

이중 분기 확산 프로세스

콘텐츠 재구성 분기 B*는 원본 이미지의 구조적 정보를 복원하는 데 사용되는 T 콘텐츠 특징 벡터 다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.를 학습하고 소프트 어텐션 제어 방식을 통해 구조 정보 마스터 브랜치 B의 편집자에게 전달됩니다. 소프트 어텐션 제어 방식은 Google의 프롬프트2프롬프트[3] 작업을 기반으로 합니다. 공식은 다음과 같습니다.

다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.

즉, 확산 모델의 실행 단계 수가 특정 범위 내에 있을 때의 어텐션 특징 맵은 다음과 같습니다. 기본 분기 편집은 생성된 이미지의 구조적 제어를 달성하기 위해 콘텐츠 재구성 분기 기능 맵으로 대체됩니다. 편집 메인 브랜치 B는 원본 이미지에서 학습한 콘텐츠 특징 벡터 다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.와 참조 이미지에서 학습한 개념 특징 벡터 다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.를 결합하여 편집된 그림을 생성합니다.

다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.

노이즈 공간(다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.space) fusion

확산 모델의 각 단계마다 특징 벡터의 융합이 노이즈 공간 공간에서 발생하는데, 이는 확산 이후 예측된 노이즈의 가중치입니다. 특징 벡터는 확산 모델에 입력됩니다. 콘텐츠 재구성 분기의 특징 혼합은 콘텐츠 특징 벡터 다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다. 및 빈 텍스트 벡터에서 발생하며 분류자 없는 확산 지침 [4]의 형태와 일치합니다. ​​

다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.

편집 혼합 main Branch 콘텐츠 특징 벡터 다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.와 개념 특징 벡터 다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.가 혼합된

다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.

이때 연구의 핵심은 구조 정보의 특징 벡터를 어떻게 구하는가이다. 단일 소스 이미지 다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다. 및 단일 소스 이미지에서 개념 정보의 특징 벡터 다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.를 얻기 위한 참조 사진. 이 기사는 두 가지 다른 반전 방식을 통해 이 목적을 달성합니다.

원본 이미지를 복원하기 위해 기사에서는 NULL-text[5] 최적화 방식을 참조하고 T 단계의 특징 벡터를 학습하여 소스 이미지를 일치시키고 적합시킵니다. 그러나 DDIM 경로에 맞게 빈 텍스트 벡터를 최적화하는 NULL 텍스트와 달리 이 기사에서는 소스 이미지 특징 벡터를 최적화하여 추정된 순수 특징 벡터를 직접 맞춥니다. 피팅 공식은

다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.

다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.

구조적 정보 학습과 달리 참조 이미지의 개념 정보는 고도로 일반화된 단일 특징 벡터로 표현되어야 합니다. 확산 모델의 T 단계는 개념 특징 벡터 다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.를 공유합니다. 이 기사는 기존 반전 방식인 Textual Inversion [6] 및 DreamArtist [7]을 최적화합니다. 손실 함수에는 확산 모델의 잡음 추정 항과 잠재 벡터 공간의 추정 재구성 손실 항이 포함됩니다.

다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.


실험 결과


이 기사에서는 원본 이미지의 구조적 정보를 더 잘 유지하면서 내용을 참조 이미지의 주제나 스타일로 변경할 수 있는 주제 교체 및 스타일화 작업에 대한 실험을 수행합니다. REWRITTEN 컨텐츠 : 실험 효과에 관한 논문 aid 이전 솔루션과 비교 하여이 기사에서 제안 된 VCT 프레임 워크에는 다음과 같은 장점이 있습니다. : 이미지 안내를 기반으로 한 이전 이미지 편집 작업에 비해 VCT는 훈련에 많은 양의 데이터가 필요하지 않으며 생성 품질과 일반화가 더 좋습니다. 반전 아이디어를 기반으로 하며 오픈 월드 데이터에 대해 사전 훈련된 고품질 Vincentian 그래프 모델을 기반으로 합니다. 실제 적용에서는 더 나은 이미지 편집 효과를 얻기 위해 하나의 입력 이미지와 하나의 참조 이미지만 필요합니다.


(2) 시각적 정확도: 다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.최근 텍스트 편집 이미지 솔루션과 비교하여 VCT는 참조 지침으로 그림을 사용합니다. 그림 참조를 사용하면 텍스트 설명보다 더 정확하게 그림을 편집할 수 있습니다. 다음 그림은 VCT와 다른 솔루션 간의 비교 결과를 보여줍니다.

과목 대체 작업의 효과 비교

스타일 이전 작업 비교

(3) 추가 정보가 필요하지 않습니다. 안내 제어를 위해 추가 제어 정보(예: 마스크 맵 또는 깊이 맵)를 추가해야 하는 일부 최신 솔루션과 비교하여 VCT는 소스 이미지와 참조 이미지에서 구조적 정보와 의미 정보를 직접 학습합니다. 다음 그림은 몇 가지 비교 결과를 보여줍니다. 그 중 Paint-by-example은 소스 이미지의 마스크 맵을 제공하여 해당 객체를 참조 이미지의 객체로 대체합니다. Controlnet은 생성된 결과를 선 그리기, 깊이 맵 등을 통해 제어하고 VCT는 소스에서 직접 그립니다. 이미지와 참조 이미지를 학습하여, 추가적인 제한 없이 대상 이미지에 융합될 구조 정보와 콘텐츠 정보를 학습합니다.

다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.

이미지 안내 기반 이미지 편집 솔루션의 대비 효과

다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.

NetEase Interactive Entertainment AI Lab

NetEase Interactive Entertainment AI Lab은 2017년에 설립되었으며 NetEase Interactive Entertainment Business Group에 속해 있습니다. 게임업계 최고의 인공지능 연구실입니다. 연구실에서는 컴퓨터 비전, 음성 및 자연어 처리, 게임 시나리오의 강화 학습에 대한 연구 및 응용에 중점을 두고 있습니다. AI 기술을 통해 넷이즈 인터랙티브 엔터테인먼트의 인기 게임과 제품의 기술 수준을 향상시키는 것을 목표로 합니다. 현재 이 기술은 "Fantasy Westward Journey", "Harry Potter: Magic Awakening", "음양사", "Westward Journey" 등 많은 인기 게임에 사용되었습니다.

위 내용은 다양한 스타일의 VCT 안내가 모두 하나의 그림에 담겨 있어 쉽게 구현할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제