Stable Diffusion의 오픈소스를 통해 이미지 생성을 위한 자연어 사용이 점차 대중화되었으며, AI가 손을 그릴 수 없고, 동작 관계를 이해할 수 없으며, 제어가 어려운 등 AIGC 문제도 많이 노출되었습니다. 물체의 위치 등
주된 이유는 "입력 인터페이스"에는 자연어만 있고 화면을 세밀하게 제어할 수 없기 때문입니다.
최근 위스콘신 대학교 매디슨 캠퍼스, 컬럼비아 대학교 및 Microsoft의 연구 핫스팟은 접지 입력을 기반으로 기존 "사전 훈련된 텍스트에서 이미지 확산 모델"의 기능을 확장하는 새로운 방법인 GLIGEN을 제안했습니다.
논문 링크: https://arxiv.org/pdf/2301.07093.pdf
프로젝트 홈페이지: https://gligen.github.io/
체험 링크: https://huggingface.co/spaces/gligen/demo
사전 훈련된 모델에 대한 많은 양의 개념적 지식을 유지하기 위해 연구자들은 모델을 미세 조정하는 것을 선택하지 않았습니다. 하지만 게이팅 메커니즘을 통해 입력을 전달했습니다. 오픈 월드 이미지 생성을 제어하기 위해 다양한 접지 조건이 새로운 훈련 가능한 레이어에 주입됩니다.
현재 GLIGEN은 4개의 입력을 지원합니다.
(왼쪽 위) 텍스트 엔터티 + 상자(오른쪽 위) 이미지 엔터티 + 상자
(왼쪽 아래) 이미지 스타일 + 텍스트 + 상자(오른쪽 아래) 텍스트 엔터티 + 키 point
실험 결과 또한 COCO 및 LVIS에 대한 GLIGEN의 제로샷 성능이 현재 감독된 레이아웃-이미지 기준보다 훨씬 우수하다는 것을 보여줍니다.
확산 모델 이전에는 생성적 적대 신경망(GAN)이 항상 이미지 생성 분야의 선두주자였으며 잠재 공간과 조건부 입력이 "제어 가능한 작업" 측면에서 완벽하게 구현되었습니다. 그리고 "세대" 연구.
텍스트 조건부 자동 회귀 및 확산 모델은 보다 안정적인 학습 목표와 네트워크 이미지-텍스트 쌍 데이터에 대한 대규모 교육 덕분에 놀라운 이미지 품질과 개념 적용 범위를 보여주고 신속하게 원에서 벗어나 지원 도구가 됩니다. 예술 디자인과 창작 분야.
그러나 기존의 대규모 텍스트 이미지 생성 모델은 "텍스트 이외의" 다른 입력 모드를 조건으로 할 수 없습니다. 개념을 정확하게 찾거나 참조 이미지를 사용하여 생성 프로세스를 제어하는 기능이 부족하여 표현이 제한됩니다. 정보.
예를 들어 텍스트를 사용하여 개체의 정확한 위치를 설명하는 것은 어렵지만 경계 상자나 키포인트는 쉽게 얻을 수 있습니다.
inpainting,layout2img 생성 등과 같은 일부 기존 도구는 텍스트 이외의 모달 입력을 활용할 수 있지만 이러한 입력은 제어 가능한 text2img 생성을 위해 거의 결합되지 않습니다.
또한 이전 생성 모델은 일반적으로 작업별 데이터 세트에 대해 독립적으로 훈련되는 반면, 이미지 인식 분야에서는 "대규모 이미지 데이터" 또는 "이미지-텍스트 쌍"에서 학습하는 것이 오랫동안 지속되어 온 패러다임입니다. " 사전 훈련된 기본 모델은 특정 작업에 대한 모델 구축을 시작합니다.
확산 모델은 수십억 개의 이미지-텍스트 쌍에 대해 학습되었습니다. 자연스러운 질문은 다음과 같습니다. 기존의 사전 학습된 확산 모델을 기반으로 새로운 조건부 모델을 제공할 수 있습니까?
사전 훈련된 모델이 보유한 많은 양의 개념 지식으로 인해 기존 텍스트-이미지 생성 모델보다 더 많은 제어성을 확보하면서 다른 생성 작업에서 더 나은 성능을 달성하는 것이 가능할 수 있습니다.
GLIGEN
위의 목적과 아이디어를 기반으로 연구원이 제안한 GLIGEN 모델은 여전히 텍스트 제목을 입력으로 유지하지만 접지 개념의 경계 상자, 접지 참조와 같은 다른 입력 양식도 가능하게 합니다. 이미지와 접지 부분의 핵심입니다.여기서 중요한 문제는 새로운 접지 정보를 주입하는 방법을 학습하면서 사전 훈련된 모델에 많은 양의 독창적인 개념 지식을 유지하는 것입니다.
연구원들은 지식 망각을 방지하기 위해 원래 모델 가중치를 동결하고 새로운 그루딩 입력을 흡수하기 위해 새로운 훈련 가능한 게이트 변환기 레이어를 추가할 것을 제안했습니다. 다음은 경계 상자를 예로 사용합니다.
명령 입력
각 그라우팅 텍스트 엔터티는 왼쪽 위 모서리와 오른쪽 아래 모서리의 좌표 값을 포함하는 경계 상자로 표시됩니다.
기존의layout2img 관련 작업에는 일반적으로 개념 사전이 필요하며 평가 단계에서 밀접하게 설정된 엔터티(예: COCO 카테고리)만 처리할 수 있다는 점에 유의해야 합니다. 연구원들은 텍스트 인코더를 사용하여 이미지 설명을 인코딩한다는 사실을 발견했습니다. 훈련 세트의 위치 정보는 다른 개념으로 일반화될 수 있습니다.
Training data
접지 이미지를 생성하는 데 사용되는 학습 데이터에는 텍스트 c와 접지 엔터티 e가 조건으로 필요합니다. 실제로는 보다 유연하게 고려하면 데이터에 대한 제약을 완화할 수 있습니다. 입력이 필요합니다.
데이터에는 크게 세 가지 유형이 있습니다
1. 접지 데이터
각 그림은 전체 그림을 설명하는 제목과 연결됩니다. 제목을 입력하고 경계 상자를 표시합니다.
명사 개체는 자연어 제목에서 직접 가져오기 때문에 더 풍부한 어휘를 다룰 수 있으며 이는 오픈 월드 어휘의 기초 세대에 도움이 됩니다.
2. 탐지 데이터 탐지 데이터
명사 엔터티는 사전 정의된 근접 집합 범주(예: COCO의 80개 개체 범주)이며 분류자에서 빈 제목 토큰을 사용하도록 선택합니다. 제목 그대로 무료 가이드.
기본 데이터(수천 레벨)보다 감지 데이터(수백만 레벨)의 양이 많기 때문에 전체 학습 데이터가 크게 늘어날 수 있습니다.
3. 탐지 및 캡션 데이터
명사 엔터티는 탐지 데이터의 명사 엔터티와 동일하며, 이미지는 텍스트 제목만으로 설명되지만, 명사 엔터티와 엔터티가 있을 수 있습니다. 제목이 완전히 일치하지 않습니다.
예를 들어 제목은 거실에 대한 높은 수준의 설명만 제공하고 장면의 개체는 언급하지 않는 반면, 감지 주석은 더 미세한 개체 수준의 세부 정보를 제공합니다.
Gated attention 메커니즘
연구원들은 기존의 대규모 언어-이미지 생성 모델에 새로운 공간 기반 기능을 제공하는 것을 목표로 합니다. 다양하고 복잡한 언어 명령어를 기반으로 사실적인 이미지를 합성하는 데 필요한 지식을 얻기 위해 네트워크 규모의 이미지 텍스트를 학습합니다. 사전 학습은 비용이 많이 들기 때문에 성능도 좋지만, 새로운 기능을 확장하는 것이 중요합니다. 새로운 기능을 수용하기 위해 시간이 지남에 따라 새 모듈을 조정할 수 있도록 모델 가중치를 적용합니다.
교육 과정에서 게이팅 메커니즘을 사용하여 새로운 접지 정보가 사전 교육된 모델에 점진적으로 통합됩니다. 이 설계를 통해 생성 과정에서 샘플링 프로세스에 유연성을 제공하여 품질과 제어 가능성을 향상시킬 수 있습니다.
또한 실험을 통해 샘플링 단계 전반부에는 완전한 모델(모든 레이어)을 사용하고 후반부에서는 원래 레이어(게이트 변환기 레이어 없음)만 사용하면 생성된 결과가 더 정확하게 반영될 수 있음이 입증되었습니다. 접지 조건과 동시에 더 높은 이미지 품질을 제공합니다.
오픈 세트 기반 텍스트-이미지 생성 작업에서는 먼저 훈련을 위해 COCO(COCO2014CD)의 기본 주석만 사용하고 GLIGEN이 COCO 카테고리 이외의 기본 엔터티를 생성할 수 있는지 평가합니다.
GLIGEN은 "푸른 까마귀", "크로아상"과 같은 새로운 개념이나 "갈색 나무 테이블"과 같은 새로운 개체 속성을 학습할 수 있음을 알 수 있으며, 이 정보는 훈련 카테고리 중간.
연구원들은 이것이 GLIGEN의 Gated Self-Attention이 다음 Cross-Attention 레이어의 제목에서 접지 엔터티에 해당하는 시각적 특징을 재배치하는 방법을 학습했고 두 레이어 공간의 공유 텍스트로 인해 일반화 능력을 얻었기 때문이라고 믿습니다. .
실험에서는 1203개의 롱테일 객체 카테고리가 포함된 LVIS에서 이 모델의 제로샷 생성 성능도 정량적으로 평가했습니다. GLIP을 사용하여 생성된 이미지에서 경계 상자를 예측하고 GLIP 점수라는 AP를 계산하여 이를 레이아웃2img 작업용으로 설계된 최첨단 모델인
과 비교합니다. GLIGEN 모델은 COCO 주석에 대해서만 훈련되지만 지도 기준선보다 훨씬 더 나은 성능을 발휘합니다. 아마도 처음부터 훈련된 기준선은 제한된 주석으로 학습하는 데 어려움이 있는 반면 GLIGEN 모델은 사전 훈련된 모델의 방대한 개념 지식을 활용할 수 있기 때문일 것입니다.
일반적으로 이 논문은
1 기존 text2img 확산 모델에 새로운 접지 제어 가능성을 제공하는 새로운 text2img 생성 방법을 제안합니다. 사전에 - 새로운 포지셔닝 레이어를 점진적으로 통합하는 학습된 가중치를 통해 이 모델은 개방형 기반 text2img 생성 및 경계 상자 입력을 달성합니다. 즉, 훈련에서 관찰되지 않은 새로운 포지셔닝 개념을 통합합니다.
3. Layout2img 작업의 성능은 이전 최첨단 모델보다 훨씬 향상되었으며, 사전 훈련된 대규모 생성 모델이 다운스트림 작업의 성능을 향상시킬 수 있음을 입증했습니다
위 내용은 확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!