지난 2년 동안 "텍스트 생성 이미지의 확산 모델"이 큰 인기를 끌었습니다. DALL·E 2와 Imagen은 모두 이를 기반으로 개발된 애플리케이션입니다.
본 글은 AI 뉴미디어 큐빗(공개 계정 ID: QbitAI)의 승인을 받아 재인쇄되었습니다.
평범해 보이는 일본 도시락입니다.
하지만 믿을 수 있나요? 사실 음식의 모든 그리드는 P-ed이고 원본 사진은 여전히 Jiang 이모님의 것입니다.
Δ 사진을 잘라내서 붙여넣기만 하면 효과가 나타납니다. 언뜻 보면 가짜입니다
그 뒤에 있는 운영자 PS 보스가 아니라 아주 직설적인 이름을 가진 AI입니다: Collage Diffusion.
작은 사진 몇 장을 찾아서 주면 AI가 스스로 사진의 내용을 이해한 다음, 다양한 요소를 아주 자연스럽게 큰 그림에 넣어줍니다. 전혀 거짓이 없습니다.
이 효과는 많은 네티즌들을 놀라게 했습니다.
일부 PS 매니아들은 직접적으로 다음과 같이 말했습니다:
이것은 단순히 신의 선물입니다... 조만간 Automat1111(Stable Diffusion 사용자가 일반적으로 사용하는 네트워크 UI이자 PS에 통합된 플러그인 버전)에서 볼 수 있기를 바랍니다. .
사실 이 AI가 생성한 "일본 도시락"에는 여러 버전이 생성되어 있습니다. 모두 자연스러워 보입니다.
왜 버전이 여러개인가요? 제가 묻는 이유는 사용자가 전체적인 상황을 너무 과격하게 만들지 않으면서도 다양한 세부 사항을 조정할 수 있기 때문입니다.
"일본 도시락" 외에도 뛰어난 작품이 많이 있습니다.
예를 들어, 이것은 AI에게 주어진 자료입니다. P-그림의 흔적은 명백합니다:
이것은 AI가 합성한 그림입니다. 어쨌든 P-그림의 흔적은 보이지 않습니다.
이 둘에 대해 말하자면, 2016년에는 "텍스트 생성 이미지의 확산 모델"이 큰 인기를 끌었습니다. DALL·E 2와 Imagen은 모두 이를 기반으로 개발된 애플리케이션이었습니다. 이 확산 모델의 장점은 생성된 이미지가 다양하고 품질이 높다는 것입니다.
그러나 text는 대상 이미지에 대해 최대 blurry 표준화 역할만 할 수 있으므로 사용자는 일반적으로 프롬프트(프롬프트)를 조정하는 데 많은 시간을 소비해야 하며 좋은 결과를 얻으려면 추가 제어 구성 요소를 사용해야 합니다. 효과.
위에 표시된 일본 도시락을 예로 들어 보겠습니다.
사용자가 "밥, 완두콩, 생강, 초밥이 들어 있는 도시락 상자"만 입력하면 어떤 음식이 어느 격자에 놓여 있는지 설명하지 않으며 설명도 없습니다. 각 음식이 어떻게 생겼는지. 하지만 명확히 해야 한다면 사용자는 짧은 에세이를 작성해야 할 수도 있습니다...
이를 고려하여 스탠포드 팀은 다른 각도에서 시작하기로 결정했습니다.
그들은 전통적인 아이디어를 참조하여 퍼즐을 통해 최종 이미지를 생성하기로 결정하고 이에 따라 새로운 확산 모델을 개발했습니다.
흥미로운 점은 이 모델을 직설적으로 말하면 고전적인 기법을 사용하여 "철자된" 것으로 간주할 수 있다는 것입니다.
첫 번째는 레이어링입니다: 레이어 기반 이미지 편집 UI를 사용하여 소스 이미지를 RGBA 레이어(R, G, B는 각각 빨간색, 녹색, 파란색을 나타내고 A는 투명도를 나타냄)로 분해한 다음 이를 결합합니다. 캔버스에 레이어를 정렬하고 각 레이어를 텍스트 프롬프트와 연결합니다.
레이어링을 통해 이미지의 다양한 요소를 수정할 수 있습니다.
지금까지 레이어링은 컴퓨터 그래픽 분야에서 성숙한 기술이었지만, 이전에는 레이어링된 정보를 단일 이미지 출력 결과로 사용하는 것이 일반적이었습니다.
이 새로운 "퍼즐 확산 모델"에서는 계층화된 정보가 후속 작업의 입력이 됩니다.
레이어링 외에도 기존 확산 기반 이미지 조정 기술 과 결합하여 이미지의 시각적 품질을 향상시킵니다.
간단히 말하면, 이 알고리즘은 객체의 특정 속성(예: 시각적 특징)의 변경을 제한할 뿐만 아니라 속성(방향, 조명, 원근, 폐색) 변경도 허용합니다.
——복원 정도와 자연스러움 사이의 관계의 균형을 유지하여 "영적으로 유사"하고 위반감이 없는 그림을 생성합니다.
작업 과정도 매우 쉽습니다. 대화형 편집 모드에서는 사용자가 몇 분 안에 콜라주를 만들 수 있습니다.
장면의 공간 배열을 사용자 정의할 수 있을 뿐만 아니라(즉, 다른 곳에서 가져온 이미지를 적절한 위치에 배치) 이미지를 생성하는 다양한 구성 요소도 조정할 수 있습니다. 동일한 소스 이미지를 사용해도 다양한 효과를 얻을 수 있습니다.
Δ가장 오른쪽 열은 이 AI의 출력 결과입니다
그리고 비인터랙티브 모드(즉, 사용자가 퍼즐을 풀지 않고 AI에 작은 그림 묶음을 직접 던짐)에서는 AI가 또한 를 기반으로 작은 사진을 얻을 수 있으며 자연스러운 효과가 있는 큰 사진을 자동으로 작성합니다.
마지막으로 연구팀에 대해 이야기해 보겠습니다. 그들은 스탠포드 대학교 컴퓨터 공학과의 교사와 학생들입니다.
논문의 첫 번째 저자인 Vishnu Sarukkai는 현재 스탠포드 컴퓨터공학과 대학원생이며, 아직 석사-박사 과정을 밟고 있습니다.
그의 주요 연구 방향은 컴퓨터 그래픽, 컴퓨터 비전 및 기계 학습입니다.
또한 논문의 공동 저자인 Linden Li도 스탠포드 컴퓨터 공학과 대학원생입니다.
학교에서 공부하는 동안 그는 NVIDIA에서 4개월 동안 인턴으로 일했으며 NVIDIA의 딥 러닝 연구팀과 협력하여 1억 개 이상의 매개변수를 추가한 시각적 변환기 모델 훈련에 참여했습니다.
논문 주소: https://arxiv.org/abs/2303.00262
위 내용은 PS 사용법을 모르더라도 상관없습니다. AI 퍼즐 기술은 이미 가짜를 진짜처럼 보이게 만들 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!