집 >기술 주변기기 >일체 포함 >단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2023-04-12 15:46:07902검색

최근에는 텍스트 대 이미지 모델이 인기 있는 연구 방향이 되었습니다. 넓은 자연 풍경이든 새로운 장면 이미지이든 간단한 텍스트 설명을 사용하여 자동으로 생성할 수 있습니다.

그중에서도 야생적이고 상상적인 장면을 렌더링하는 것은 특정 테마(사물, 동물 등)의 인스턴스를 새로운 장면에서 합성하여 자연스럽고 매끄럽게 장면에 혼합해야 하는 어려운 작업입니다.

일부 대규모 텍스트-이미지 모델은 자연어로 작성된 텍스트 프롬프트를 기반으로 고품질의 다양한 이미지 합성을 달성합니다. 이러한 모델의 가장 큰 장점은 "개"라는 단어를 이미지에서 다양한 자세로 나타날 수 있는 개의 다양한 인스턴스와 연관시키는 것과 같이 수많은 이미지-텍스트 설명 쌍에서 학습된 강력한 의미론적 사전 지식입니다.

이러한 모델의 합성 기능은 전례가 없지만 주어진 참조 피사체를 모방하고 동일한 피사체이지만 다른 장면에서 다른 사례로 새로운 이미지를 합성하는 능력이 부족합니다. 기존 모델의 출력 영역 표현 능력이 제한되어 있음을 알 수 있다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

이 문제를 해결하기 위해 Google과 Boston University의 연구진은 사용자의 특정 이미지 생성 요구 사항에 적응할 수 있는 "개인화된" 텍스트-이미지 확산 모델 DreamBooth를 제안했습니다.

논문 주소: https://arxiv.org/pdf/2208.12242.pdf

프로젝트 주소: https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

연구의 목표는 모델의 언어-시각적 사전을 확장하여 사용자가 생성하려는 특정 주제에 새로운 어휘를 연결하는 것입니다. 새 사전이 모델에 내장되면 이러한 단어를 사용하여 특정 주제에 대한 새롭고 현실적인 이미지를 합성하는 동시에 아래 그림 1과 같이 주요 식별 기능을 유지하면서 다양한 장면에서 이미지를 맥락화할 수 있습니다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

구체적으로 연구에서는 특정 주제의 이미지를 모델의 출력 도메인에 이식하여 고유 식별자를 사용하여 합성할 수 있도록 했습니다. 이를 위해 연구에서는 희귀한 토큰 식별자를 사용하여 특정 주제를 표현하고 텍스트 이미지에서 저해상도를 생성하는 두 단계로 작동하는 사전 훈련된 확산 기반 텍스트-이미지 프레임워크를 미세 조정하는 방법을 제안합니다. , 초고해상도(SR) 확산 모델을 적용합니다.

먼저 연구에서는 입력 이미지와 고유 식별자("A [V] 개"와 같은 주제 클래스 이름 포함)가 포함된 텍스트 힌트를 사용하여 저해상도 텍스트-이미지 모델을 미세 조정했습니다. 모델이 특정 인스턴스에 클래스 이름을 과적합하고 의미론적 표류를 방지하기 위해 이 연구에서는 모델에 포함된 클래스의 사전 의미를 활용하여 모델이 다른 인스턴스를 생성하도록 장려하는 자체 생성 클래스별 사전 보존 손실을 제안합니다. 특정 주제에 대해 동일한 수업을 진행합니다.

두 번째 단계에서 연구에서는 입력 이미지의 저해상도 및 고해상도 버전을 사용하여 초해상도 구성 요소를 미세 조정합니다. 이를 통해 모델은 장면 주제의 작지만 중요한 세부 사항에 대해 높은 충실도를 유지할 수 있습니다.

본 연구에서 제안한 구체적인 방법을 살펴보겠습니다.

방법 소개

텍스트 설명 없이 3~5개의 캡처된 이미지가 주어지면 이 문서는 세부 충실도가 높고 텍스트 단서에 따라 변경되는 새로운 이미지를 생성하는 것을 목표로 합니다. 본 연구에서는 입력 이미지에 어떠한 제한도 두지 않으며, 대상 이미지는 서로 다른 맥락을 가질 수 있습니다. 방법은 그림 3에 나와 있습니다. 출력 이미지는 피사체의 위치 등 원본 이미지를 수정하고, 색상, 모양 등 피사체의 속성을 변경하고, 피사체의 자세, 표정, 재질, 기타 의미적 변형을 수정할 수 있습니다.

더 구체적으로 이 메서드는 대상(예: 특정 개)의 일부 이미지(보통 3~5개 이미지)와 해당 클래스 이름(예: 개 카테고리)을 입력으로 사용하고 미세 조정된 결과를 반환합니다. / 주제를 참조하는 고유 식별자를 인코딩하는 개인화된 텍스트-이미지 모델. 그런 다음 추론하는 동안 고유 식별자를 다양한 문장에 삽입하여 다양한 맥락의 주제를 종합할 수 있습니다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

연구의 첫 번째 작업은 주제 인스턴스를 모델의 출력 도메인에 이식하고 주제를 고유 식별자로 바인딩하는 것입니다. 본 연구에서는 모델의 미세 조정 과정을 감독하는 새로운 방법과 함께 식별자를 설계하는 방법을 제안합니다.

이미지 과적합과 언어 표류 문제를 해결하기 위해 본 연구에서는 확산 모델이 대상과 동일한 클래스의 다른 인스턴스를 지속적으로 생성하도록 장려하여 모델 과적합을 완화하는 손실(사전 보존 손실)도 제안합니다. 통합 및 언어 표류와 같은 문제.

이미지 세부 정보를 보존하려면 모델의 초해상도(SR) 구성 요소를 미세 조정해야 한다는 연구 결과가 나왔습니다. 이 기사는 사전 훈련된 Imagen 모델을 기반으로 완성되었습니다. 구체적인 프로세스는 그림 4에 나와 있습니다. 동일한 주제에 대한 3~5개의 이미지가 주어지면 텍스트-이미지 확산 모델이 두 단계로 미세 조정됩니다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

희귀 토큰 식별자는 topic

연구에서는 주제의 모든 입력 이미지를 "[식별자] [클래스 명사]"로 표시합니다. 여기서 [식별자]는 주제에 연결된 고유 식별자이고 [클래스 명사]는 대략적인 클래스 설명입니다. 주제(예: 고양이, 개, 시계 등) 본 연구에서는 클래스 이전 항목을 주제와 연관시키기 위해 문장에서 클래스 설명자를 구체적으로 사용합니다.