찾다
기술 주변기기일체 포함멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

대화만으로도 그림이 좋아지는 것이 A당과 B당의 공통된 바람이지만, 그 고통과 슬픔은 대개 B당만이 알고 있습니다. 오늘날 AI는 이 어려운 문제에 대한 도전을 시작했습니다.

10월 17일 arXiv에 게재된 논문에서 Google Research, Technion-Israel Institute of Technology, 이스라엘 Weizmann Institute of Science의 연구진은 확산 모델을 기반으로 한 실제 이미지 편집 방법을 소개했습니다. — —Imagic, 사람에게 엄지손가락을 치켜세우거나 앵무새 두 마리에게 뽀뽀하라고 요청하는 등 실제 사진의 PS를 구현하기 위해 텍스트만 사용할 수 있습니다.

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

"좋아요 제스처로 도와주세요." 확산 모델: 문제 없습니다. 제가 다루겠습니다."

논문에 실린 이미지에서 볼 수 있듯이, 수정된 이미지는 여전히 매우 자연스럽고 수정이 필요한 내용 외에는 정보에 눈에 띄는 손상이 없습니다. 유사한 연구에는 이전에 Google Research와 이스라엘의 Tel Aviv University에서 완료한 Prompt-to-Prompt가 포함됩니다(Imagic 논문의 [16] 참조):

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

프로젝트 링크(논문, 코드 포함) :https ://prompt-to-prompt.github.io/

그래서 어떤 분들은 "이 분야는 너무 빨리 변해서 좀 과장됐다"고 한탄하십니다. 이제부터 A당은 정말 마음대로 바꿀 수 있습니다. 그냥 한마디가 바뀌었어요.

Imagic 논문 개요

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

논문 링크: ​https://arxiv.org/pdf/2210.09276.pdf​

실제 사진에 과감한 의미 편집을 적용하는 것은 항상 어려운 일이었습니다. 이미지 처리에 있어서 흥미로운 작업입니다. 최근 몇 년간 딥러닝 기반 시스템이 상당한 발전을 이루면서 이 작업은 연구 커뮤니티로부터 상당한 관심을 끌었습니다.

간단한 자연어 텍스트 프롬프트를 사용하여 편집하고 싶은 내용(예: 개에게 앉으라고 요청하는 것)을 설명하는 것은 인간이 의사소통하는 방식과 매우 일치합니다. 따라서 연구자들은 텍스트 기반의 이미지 편집 방법을 많이 개발했으며 이러한 방법도 효과적입니다.

그러나 현재 주류 방법에는 다음과 같은 다소 문제가 있습니다.

1 이미지 페인팅, 개체 추가 또는 스타일 마이그레이션과 같은 특정 편집 집합으로 제한됩니다. [6, 28]

2. 특정 분야의 이미지나 합성 이미지에만 작동할 수 있습니다. [16, 36]

3. 입력 이미지 외에도 필요한 편집 내용을 나타내는 등의 보조 입력도 필요합니다. 위치의 이미지 마스크, 동일한 피사체의 여러 이미지 또는 원본 이미지를 설명하는 텍스트 [6, 13, 40, 44].

이 기사에서는 위와 같은 문제를 완화하기 위해 의미론적 이미지 편집 방법인 "Imagic"을 제안합니다. 편집할 입력 이미지와 대상 편집을 설명하는 단일 텍스트 프롬프트가 주어지면 이 방법을 사용하면 실제 고해상도 이미지의 복잡하지 않은 편집이 가능합니다. 결과 이미지 출력은 원본 이미지의 전체 컨텍스트, 구조 및 구성을 유지하면서 대상 텍스트와 잘 정렬됩니다.

그림 1에서 볼 수 있듯이 Imagic은 두 마리의 앵무새에게 키스를 하거나 사람이 엄지손가락을 치켜세우게 만들 수 있습니다. 이것이 제공하는 텍스트 기반 의미 편집은 여러 객체 편집을 포함한 복잡한 작업을 단일 실제 고해상도 이미지에 적용할 수 있는 최초의 사례입니다. 이러한 복잡한 변경 외에도 Imagic에서는 스타일 변경, 색상 변경, 개체 추가 등 다양한 편집이 가능합니다.

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

이 위업을 달성하기 위해 연구원들은 최근 성공한 텍스트-이미지 확산 모델을 활용했습니다. 확산 모델은 고품질 이미지 합성이 가능한 강력한 생성 모델입니다. 자연어 텍스트 프롬프트를 조건으로 하면 요청된 텍스트와 일치하는 이미지를 생성할 수 있습니다. 이 연구에서 연구자들은 새로운 이미지를 합성하기보다는 실제 이미지를 편집하는 데 이를 사용했습니다.

그림 3에 표시된 것처럼 Imagic은 위 작업을 완료하는 데 세 단계만 필요합니다. 먼저 텍스트 임베딩을 최적화하여 입력 이미지와 유사한 이미지를 생성합니다. 그런 다음 사전 훈련된 생성 확산 모델을 미세 조정하여 최적화된 임베딩을 조건으로 입력 이미지를 더 잘 재구성합니다. 마지막으로 대상 텍스트 임베딩과 최적화된 임베딩 사이에 선형 보간을 수행하여 입력 이미지와 대상 텍스트를 결합한 표현이 생성됩니다. 그런 다음 이 표현은 미세 조정된 모델을 사용하여 생성 확산 프로세스로 전달되어 최종 편집된 이미지를 출력합니다.

Imagic의 위력을 입증하기 위해 연구진은 다양한 실험을 진행하여 다양한 분야의 수많은 이미지에 이 방법을 적용했으며 모든 실험에서 인상적인 결과를 얻었습니다. Imagic이 출력하는 고품질 이미지는 입력 이미지와 매우 유사하며 필요한 대상 텍스트와 일치합니다. 이러한 결과는 Imagic의 다양성, 다양성 및 품질을 입증합니다. 연구원들은 또한 제안된 방법의 각 구성 요소의 효율성을 강조하는 절제 연구를 수행했습니다. 최근의 다양한 방법과 비교하여 Imagic은 특히 매우 복잡하고 비경직적인 편집 작업을 수행할 때 훨씬 더 나은 편집 품질과 원본 이미지의 충실도를 보여줍니다.

방법 세부 사항

입력 이미지 x와 대상 텍스트가 주어지면 이 논문에서는 이미지 x의 많은 세부 사항을 유지하면서 주어진 텍스트를 만족시키는 방식으로 이미지를 편집하는 것을 목표로 합니다. 이 목표를 달성하기 위해 본 논문에서는 확산 모델의 텍스트 임베딩 레이어를 활용하여 GAN 기반 방법과 다소 유사한 방식으로 의미 연산을 수행합니다. 연구자들은 의미 있는 표현을 찾는 것부터 시작한 다음 입력 이미지와 유사한 이미지를 생성하는 생성 과정을 거칩니다. 그런 다음 생성 모델은 입력 이미지를 더 잘 재구성하도록 최적화되고 마지막 단계는 잠재 표현을 처리하여 편집 결과를 얻는 것입니다.

위 그림 3에서 볼 수 있듯이 우리의 방법은 세 단계로 구성됩니다. (1) 텍스트 임베딩을 최적화하여 대상 텍스트 임베딩 근처의 주어진 이미지와 가장 잘 일치하는 텍스트 임베딩을 찾습니다. (2) 확산을 미세 조정합니다. (3) 최적화된 임베딩과 대상 텍스트 임베딩 사이를 선형적으로 보간하여 이미지 충실도와 대상 텍스트 정렬을 모두 달성하는 지점을 찾습니다.

더 구체적인 내용은 다음과 같습니다.

텍스트 임베딩 최적화

먼저 대상 텍스트가 텍스트 인코더에 입력되고, 해당 텍스트 임베딩멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.이 출력됩니다. 여기서 T는 주어진 대상입니다. 텍스트의 토큰 수 d는 토큰 임베딩 차원입니다. 그런 다음, 연구원들은 생성된 확산 모델 f_θ의 매개변수를 동결하고 노이즈 제거 확산 목표를 사용하여 e_tgt

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

대상 텍스트 임베딩을 최적화합니다.

여기서 x는 입력 이미지이고, 멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.는 x의 노이즈 버전이며, θ는 사전 훈련된 확산 모델 가중치입니다. 이렇게 하면 텍스트 임베딩이 입력 이미지와 최대한 가깝게 일치하게 됩니다. 이 프로세스는 상대적으로 적은 단계로 실행되어 원래 대상 텍스트 임베딩에 가깝게 유지되어 최적화된 임베딩 e_opt를 얻습니다.

모델 미세 조정

여기서 얻은 최적화된 임베딩 e_opt는 생성 확산 프로세스를 통과할 때 입력 이미지 x와 반드시 완전히 유사하지는 않다는 점에 유의해야 합니다. 소수의 최적화 단계(그림 5의 왼쪽 상단 패널 참조) 따라서 두 번째 단계에서 저자는 최적화 임베딩을 동결하면서 방정식 (2)에 제공된 동일한 손실 함수를 사용하여 모델 매개변수 θ를 최적화하여 이 격차를 해소합니다.

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

텍스트 삽입 보간

Imagic의 세 번째 단계는 e_tgt와 e_opt 사이의 간단한 선형 보간입니다. 주어진 하이퍼파라미터 멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.에 대해 멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.를 얻습니다. 그런 다음 저자는 미세 조정 모델을 사용하여 멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.에 조건부로 기본 생성 확산 프로세스를 적용합니다. 이렇게 하면 저해상도 편집 이미지가 생성되며, 이 이미지는 미세 조정된 보조 모델을 사용하여 대상 텍스트를 초해상도로 해결됩니다. 이 생성 과정을 통해 최종 고해상도 편집 이미지 멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.가 출력됩니다.

실험 결과

효과를 테스트하기 위해 연구원들은 간단한 텍스트 프롬프트를 사용하여 스타일, 모양, 색상, 포즈와 구성 . 그들은 Unsplash와 Pixabay에서 고해상도의 무료 이미지를 수집하고 5개의 무작위 시드로 각 편집을 생성하도록 최적화하고 최상의 결과를 선택했습니다. Imagic은 그림 1과 7에서 볼 수 있듯이 일반 입력 이미지와 텍스트에 다양한 편집 범주를 적용하는 기능으로 인상적인 결과를 보여줍니다.

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

그림 2는 동일한 이미지에 다양한 텍스트 프롬프트를 사용한 실험으로 Imagic의 다양성을 보여줍니다.

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

연구원들이 활용하는 기본 생성 확산 모델은 확률을 기반으로 하기 때문에 이 방법은 단일 이미지-텍스트 쌍에 대해 다른 결과를 생성할 수 있습니다. 그림 4는 다양한 무작위 시드를 사용하여 편집하기 위한 여러 옵션을 보여줍니다(각 시드의 에타를 약간 조정함). 자연어 텍스트 프롬프트는 일반적으로 모호하고 부정확하기 때문에 이러한 무작위성을 통해 사용자는 다양한 옵션 중에서 선택할 수 있습니다. 연구에서는 Imagic을 실제 이미지의 단일 입력에 대해 작동하고 텍스트 프롬프트를 기반으로 편집하는 선도적인 범용 방법과 비교했습니다. 그림 6은 Text2LIVE[7] 및 SDEdit[32]와 같은 다양한 방법의 편집 결과를 보여줍니다.

우리의 방법은 필요한 편집을 적절하게 수행하면서 입력 이미지에 대한 높은 충실도를 유지하는 것을 볼 수 있습니다. "개를 앉히기"와 같은 복잡하고 경직되지 않은 편집 작업이 주어지면 우리의 방법은 이전 기술보다 훨씬 뛰어난 성능을 발휘합니다. Imagic은 단일 실제 이미지에 정교한 텍스트 기반 편집을 적용한 최초의 데모입니다.

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

위 내용은 멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
인간의 개입없이 LLM을 훈련시키는 7 가지 방법인간의 개입없이 LLM을 훈련시키는 7 가지 방법Apr 15, 2025 am 10:38 AM

자율 AI 잠금 해제 : 7 자체 훈련 LLM을위한 7 가지 방법 AI 시스템이 복잡한 개념을 독립적으로 마스터하는 어린이들과 마찬가지로 AI 시스템이 인간의 개입없이 배우고 진화하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. 그것은 자기의 약속입니다

AI 및 NLG로 재무보고 혁신 - 분석 VidhyaAI 및 NLG로 재무보고 혁신 - 분석 VidhyaApr 15, 2025 am 10:35 AM

AI 기반 재무보고 : 자연어 생성을 통한 통찰력 혁명 오늘날의 역동적 인 비즈니스 환경에서, 정확하고시기 적절한 재무 분석은 전략적 의사 결정에 가장 중요합니다. 전통적인 재무보고

이 Google Deepmind 로봇이 2028 년 올림픽에서 플레이할까요?이 Google Deepmind 로봇이 2028 년 올림픽에서 플레이할까요?Apr 15, 2025 am 10:16 AM

Google Deepmind의 탁구 로봇 : 스포츠 및 로봇 공학의 새로운 시대 파리 2024 올림픽은 끝났을 지 모르지만 Google Deepmind 덕분에 스포츠와 로봇 공학의 새로운 시대가 시작되었습니다. 그들의 획기적인 연구 ( "인간 수준의 경쟁 달성

Gemini Flash 1.5 모델을 사용하여 Food Vision WebApp 구축Gemini Flash 1.5 모델을 사용하여 Food Vision WebApp 구축Apr 15, 2025 am 10:15 AM

Gemini Flash의 효율성 및 확장 성 잠금 해제 1.5 : Flask Food Vision WebApp 빠르게 진화하는 AI 환경에서 효율성과 확장 성이 가장 중요합니다. 개발자는 비용과 대기 시간을 최소화하는 고성능 모델을 점점 더 많이 찾습니다.

llamaindex를 사용하여 AI 에이전트 구현llamaindex를 사용하여 AI 에이전트 구현Apr 15, 2025 am 10:11 AM

Llamaindex로 AI 에이전트의 힘을 활용하십시오 : 단계별 가이드 빠른 계산이든 최신 시장 뉴스를 검색하든, 귀하의 요청을 이해하고 완벽하게 실행하는 개인 비서를 상상해보십시오. 이 기사는 탐구합니다

.ipynb 파일을 pdf- 분석 Vidhya로 변환하는 5 가지 방법.ipynb 파일을 pdf- 분석 Vidhya로 변환하는 5 가지 방법Apr 15, 2025 am 10:06 AM

Jupyter Notebook (.ipynb) 파일은 데이터 분석, 과학 컴퓨팅 및 대화식 인코딩에 널리 사용됩니다. 이 노트북은 다른 데이터 과학자와 코드를 개발하고 공유하는 데 적합하지만 때로는 PDF와 같은보다 일반적으로 읽을 수있는 형식으로 변환해야합니다. 이 안내서는 .ipynb 파일을 PDF로 변환하는 다양한 방법과 팁, 모범 사례 및 문제 해결 제안을 안내합니다. 목차 .ipynb를 pdf로 변환하는 이유는 무엇입니까? .ipynb 파일을 PDF로 변환하는 방법 Jupyter Notebook UI 사용 nbconve 사용

LLM 양자화 및 사용 사례에 대한 포괄적 인 안내서LLM 양자화 및 사용 사례에 대한 포괄적 인 안내서Apr 15, 2025 am 10:02 AM

소개 대형 언어 모델 (LLM)은 자연어 처리에 혁명을 일으키고 있지만 엄청난 규모와 계산 요구는 제한 배포를 제한합니다. 모델을 축소하고 계산 비용을 낮추는 기술인 양자화는 중요한 솔루입니다.

파이썬이있는 셀레늄에 대한 포괄적 인 가이드파이썬이있는 셀레늄에 대한 포괄적 인 가이드Apr 15, 2025 am 09:57 AM

소개 이 안내서는 웹 자동화 및 테스트를위한 셀레늄과 파이썬의 강력한 조합을 탐구합니다. Selenium은 브라우저 상호 작용을 자동화하여 대규모 웹 애플리케이션의 테스트 효율성을 크게 향상시킵니다. 이 튜토리얼은 o

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는