집 >기술 주변기기 >일체 포함 >GPT-3.5로 데이터 세트를 생성하세요! Peking University Tiangong 및 기타 팀의 이미지 편집을 위한 새로운 SOTA는 실제 세계 장면을 정확하게 시뮬레이션할 수 있습니다.

GPT-3.5로 데이터 세트를 생성하세요! Peking University Tiangong 및 기타 팀의 이미지 편집을 위한 새로운 SOTA는 실제 세계 장면을 정확하게 시뮬레이션할 수 있습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의: 2024-06-02 17:18:08960검색

고화질의 이미지 편집에는 여러 가지 방법이 있지만 실제 물리적 세계를 정확하게 표현하는 것은 어렵습니다.

그럼 세계 편집을 시도해 보세요.

GPT-3.5로 데이터 세트를 생성하세요! Peking University Tiangong 및 기타 팀의 이미지 편집을 위한 새로운 SOTA는 실제 세계 장면을 정확하게 시뮬레이션할 수 있습니다. Pictures

Peking University, Tiamat AI, Tiangong AI 및 Mila Labs는 새로운 편집 작업인 세계 지도형 이미지 편집을 도입한 EditWorld를 제안했습니다. 다양한 세계 시나리오를 기반으로 지침을 정의하고 분류합니다.

세계 지침이 포함된 다중 모드 데이터 세트는 GPT-3.5, Video-LLava 및 SDXL과 같은 사전 훈련된 모델 세트의 지원을 통해 구축되었습니다.

확산 기반 이미지 편집 모델인 EditWorld는 이 데이터 세트를 학습했으며 그 결과 새로운 작업의 성능이 기존 편집 방법보다 훨씬 좋아 SOTA를 달성했습니다.

이미지 편집을 위한 새로운 SOTA

기존 방법은 텍스트 제어, 드래그 작업 및 인페인팅을 포함하되 이에 국한되지 않는 다양한 방법을 통해 고품질 이미지 편집을 달성합니다. 그 중 명령어를 이용하여 편집하는 방식은 사용이 간편하다는 점에서 많은 주목을 받고 있다.

이미지 편집 방법은 고품질의 결과를 생성할 수 있지만 실제 세계에서 진정한 시각적 역학을 전달하는 세계 역학을 처리하는 데 여전히 어려움을 겪습니다.

그림 1에서 볼 수 있듯이 InstructPix2pix나 MagicBrush 모두 합리적인 편집 결과를 생성할 수 없습니다.

이 문제를 해결하기 위해 팀은 실제 물리적 세계와 가상 미디어의 "세계 역학"을 이미지 편집에 반영할 수 있는 세계 지시 이미지 편집이라는 새로운 작업을 도입했습니다.

구체적으로 그들은 다양한 월드 동적 명령어를 정의 및 분류하고 이러한 명령어를 기반으로 수많은 입력-명령-출력 트리플을 포함하는 새로운 다중 모드 훈련 데이터 세트를 만들었습니다.

마지막으로 팀은 세심하게 제작된 데이터 세트를 사용하여 텍스트 기반 확산 모델을 훈련하고 세계에서 지시하는 이미지 편집을 달성하기 위한 제로샷 이미지 조작 전략을 제안했습니다.

현실 세계의 작업 시나리오와 가상 미디어를 기반으로 세계 지도형 이미지 편집을 7가지 카테고리로 나누어 각 카테고리를 정의 및 소개하고 데이터 샘플을 제공합니다.

그런 다음 팀은 데이터 세트를 얻기 위해 텍스트-그림 생성 및 비디오 스토리보드 추출이라는 두 가지 분기를 설계했습니다.

텍스트 생성 이미지 분기는 데이터 장면의 풍부함을 높이는 것입니다. 이 분기에서 팀은 먼저 GPT를 사용하여 텍스트 4중(입력 이미지 설명, 지침, 출력 이미지 설명 및 키워드 포함)을 생성한 다음 입력 및 출력 설명은 텍스트에 해당하는 그림을 생성하고 키워드에 해당하는 주의 지도를 사용하여 편집 위치를 찾고 동시에 편집 마스크를 얻습니다. 두 그림의 주요 특징의 일관성을 보장합니다. , 팀은 이미지 프롬프트 적응 방법 IP-Adapter를 도입했습니다. 마지막으로 팀은 IP-Adapter와 ControlNet을 사용하고 출력 이미지의 캐니 맵과 입력 이미지의 이미지 프롬프트 기능을 결합하고 Image Inpainting을 사용하여 조정했습니다. 보다 효과적인 편집 데이터를 얻기 위해 이미지를 출력합니다.

텍스트 생성 그림 브랜치를 사용해 장면이 풍부한 데이터를 얻은 후, 데이터 세트에 실제 데이터를 추가하기 위해 팀에서는 비디오에서 고품질 키 프레임을 편집 데이터로 추출했습니다. 구체적으로 팀은 비디오 스토리보드에서 시작 프레임과 마지막 프레임으로 상관관계가 강하고 구조적 차이가 큰 두 개의 프레임을 추출하고, 대형 멀티모달 모델을 사용하여 새로운 스토리보드를 잘라낸 후 스토리보드를 변경하는 작업을 완료했습니다. 시작 프레임과 끝 프레임을 입력 이미지와 출력 이미지로 사용하고 얻은 설명을 명령으로 사용하여 필요한 편집 데이터를 얻었습니다.

한 단계 더 나아가 팀에서는 생성된 데이터를 수동으로 다시 확인하여 데이터 품질을 더욱 향상시킵니다.

팀에서는 데이터 세트를 사용하여 InstructPix2Pix 모델을 미세 조정하는 동시에 비편집 영역을 보호하고 보다 정확한 편집을 달성하기 위해 사후 편집 전략을 제안했습니다.

마지막으로 팀의 접근 방식이 전 세계에서 지시하는 이미지 편집에 적합하다는 것을 알 수 있습니다.

문서 링크:
https://www.php.cn/link/154d7da9e669c75ee317d46614381dd8
코드 링크:
https://www.php.cn/link/e6da32eef072f987685b6eddca072d4f

위 내용은 GPT-3.5로 데이터 세트를 생성하세요! Peking University Tiangong 및 기타 팀의 이미지 편집을 위한 새로운 SOTA는 실제 세계 장면을 정확하게 시뮬레이션할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

map input github https gpt prompt

성명：

이전 기사：표적 탐지를 위한 새로운 SOTA, 기기 및 측면에서 실시간 인식, Shen Xiangyang은 전달 및 좋아요를 거의 하지 않음다음 기사：표적 탐지를 위한 새로운 SOTA, 기기 및 측면에서 실시간 인식, Shen Xiangyang은 전달 및 좋아요를 거의 하지 않음