>기술 주변기기 >일체 포함 >DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.

WBOY
WBOY앞으로
2023-06-28 15:28:171328검색

AIGC의 마법의 세계에서는 이미지를 "드래그"하여 원하는 이미지로 변경하고 결합할 수 있습니다. 예를 들어, 사자가 머리를 돌리고 입을 벌리게 하는 경우:

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.

이 효과를 얻기 위한 연구는 지난달 발표된 중국 작가의 "Drag Your GAN" 논문에서 나왔습니다. SIGGRAPH 2023 컨퍼런스에서 승인되었습니다.

한 달이 넘는 시간이 흘렀고, 최근 연구팀이 공식 코드를 공개했습니다. 단 3일 만에 스타 수가 2만 3천개를 돌파하며 뜨거운 인기를 입증했다.

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.Pictures

GitHub 주소: https://github.com/XingangPan/DragGAN

공교롭게도 오늘 또 다른 유사한 연구인 DragDiffusion이 사람들의 눈에 들어왔습니다. 이전 DragGAN은 포인트 기반 대화형 이미지 편집을 구현하고 픽셀 수준의 정밀 편집 효과를 달성했습니다. 하지만 DragGAN은 GAN(Generative Adversarial Network)을 기반으로 하며 사전 훈련된 GAN 모델의 용량에 따라 그 다양성이 제한된다는 단점도 있습니다.

새로운 연구에서 싱가포르 국립대학교와 ByteDance의 몇몇 연구자들은 이러한 유형의 편집 프레임워크를 확산 모델로 확장하고 DragDiffusion을 제안했습니다. 사전 훈련된 대규모 확산 모델을 활용하여 실제 시나리오에서 포인트 기반 대화형 편집의 적용 가능성을 크게 향상시킵니다.

최신 확산 기반 이미지 편집 방법은 텍스트 임베딩에 적합하지만 DragDiffusion은 확산 잠재 표현을 최적화하여 정확한 공간 제어를 달성합니다.

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.Pictures

  • 논문 주소: https://arxiv.org/pdf/2306.14435.pdf
  • 프로젝트 주소: https://yujun-shi.github.io/projects /dragdiffusion.html

연구원들은 확산 모델이 반복적인 방식으로 이미지를 생성하며 확산 전위 표현의 "1단계" 최적화만으로도 일관성 있는 결과를 생성하기에 충분하여 DragDiffusion을 효율적으로 수행할 수 있다고 말했습니다. 완벽한 고품질 편집.

DragDiffusion의 가소성과 다양성을 검증하기 위해 다양한 까다로운 시나리오(예: 여러 개체, 다양한 개체 범주)에서 광범위한 실험을 수행했습니다. 관련 코드도 곧 공개될 예정입니다.

DragDiffusion이 어떻게 작동하는지 살펴보겠습니다.

우선, 아래 그림에서 새끼 고양이의 머리를 들어 올리고 싶습니다. 사용자는 빨간색 점을 파란색 점으로 드래그하기만 하면 됩니다.

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.

다음으로, 산봉우리가 더 높으면 문제 없습니다. 빨간색 핵심 지점을 드래그하세요.

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.picture

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.또한 조각품의 아바타가 고개를 돌리게 하려면 드래그하세요. :

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.Pictures

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.해변의 꽃을 더 넓게 피어나게 하세요:

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.

방법 소개

DRAGDIFFUSION은 대화형 포인트 기반의 잠재 변수 확산을 구체적으로 최적화하는 것을 목표로 합니다. 이미지 편집.

이 목표를 달성하기 위해 연구에서는 먼저 확산 모델을 기반으로 LoRA를 미세 조정하여 사용자 입력 이미지를 재구성했습니다. 이렇게 하면 입력 및 출력 이미지의 스타일이 일관되게 유지됩니다.

다음으로 연구진은 입력 영상에 대해 DDIM 역산(확산 모델의 역변환 및 잠재 공간 연산을 탐색하는 방법)을 사용하여 특정 단계의 확산 잠재 변수를 얻었습니다.

편집 과정에서 연구원은 t 단계에서 이전에 얻은 확산 잠재 변수를 최적화하기 위해 모션 감독 및 포인트 추적을 반복적으로 사용하여 처리 포인트의 내용을 대상 위치로 "드래그"했습니다. 또한 편집 프로세스에서는 정규화 용어를 적용하여 이미지의 마스크되지 않은 영역이 변경되지 않은 상태로 유지되도록 합니다.

마지막으로 t 단계에서 DDIM을 사용하여 최적화된 잠재 변수의 노이즈를 제거하여 편집된 결과를 얻습니다. 전체적인 개요는 다음과 같습니다.

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.Pictures

실험 결과

DRAGDIFFUSION은 입력 이미지가 주어지면 핵심 포인트(빨간색)의 내용을 해당 대상 포인트(파란색)로 "드래그"합니다. . 예를 들어, 그림 (1)에서는 강아지의 머리를 뒤집고, 그림 (7)에서는 호랑이 입을 닫는 등의 동작을 합니다.

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.Pictures

여기에 더 많은 예제 데모가 있습니다. 그림 (4)와 같이 산봉우리를 더 높게 만들고, 그림 (7)에서 펜촉을 더 크게 만듭니다.

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.사진

DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.

위 내용은 DragGAN은 3일 만에 23,000개의 별에 대한 오픈 소스가 되었습니다. 여기 또 다른 DragDiffusion이 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제