>  기사  >  기술 주변기기  >  희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

WBOY
WBOY앞으로
2024-02-05 15:33:291149검색

사진을 찍고 문자 명령을 입력하면 휴대폰이 자동으로 사진 수정을 시작하나요?

이 마법의 기능은 Apple의 새로운 오픈 소스 이미지 편집 도구 “MGIE”에서 제공됩니다.

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

백그라운드에서 사람 제거

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

테이블에 피자 추가

최근 AI는 사진 편집 분야에서 상당한 발전을 이루었습니다. 한편, AI는 MLLM(다중 모드 대형 모델)을 통해 이미지를 입력으로 받아 시각적 인식 반응을 제공함으로써 보다 자연스러운 사진 편집을 달성할 수 있습니다. 반면, 지시 기반 편집 기술은 편집 과정이 더 이상 상세한 설명이나 영역 마스크에 의존하지 않고, 사용자가 편집 방법과 목표를 표현하기 위해 직접 지시를 내릴 수 있게 해줍니다. 이 방법은 인간의 직관적인 방법에 더 가깝기 때문에 매우 실용적입니다. 이러한 혁신적인 기술을 통해 AI는 점차 사진 편집 분야에서 사람들의 오른팔 보조자가 되어가고 있습니다.

위 기술에서 영감을 받아 Apple은 MLLM을 사용하여 지침 안내가 부족한 문제를 해결하는 MGIE(MLLM-Guided Image Editing)를 제안했습니다.

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

  • 논문 제목: 다중 모드 대형 언어 모델을 통한 지침 기반 이미지 편집 안내
  • 논문 링크: https://openreview.net/pdf?id=S1RKWSyZ2Y
  • 프로젝트 홈페이지: https ://mllm-ie.github.io/

MGIE(Mind-Guided Image Editing)는 그림 2와 같이 MLLM(Mind-Language Linking Model)과 확산 모델로 구성됩니다. MLLM은 간결한 표현 지침을 습득하는 방법을 학습하고 명확하고 시각적으로 관련 있는 지침을 제공합니다. 확산 모델은 의도한 대상의 잠재 상상력을 사용하여 이미지 편집을 수행하고 엔드투엔드 학습을 통해 동기적으로 업데이트됩니다. 이러한 방식으로 MGIE는 고유한 시각적 파생의 이점을 활용하고 모호한 인간 지시를 해결하여 합리적인 편집을 달성할 수 있습니다.

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

사람의 지시에 따라 MGIE는 Photoshop 스타일 수정, 전역 사진 최적화 및 로컬 개체 수정을 수행할 수 있습니다. 아래 사진을 예로 들면, 추가적인 맥락 없이 "건강"의 의미를 포착하기는 어렵지만 MGIE는 "야채 토핑"을 피자와 정확하게 연관시키고 인간의 기대에 따라 편집할 수 있습니다.

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

이것은 Cook이 얼마 전 실적 발표에서 표현한 "야망"을 생각나게 합니다. “Apple이 생성 AI 분야에서 엄청난 기회를 갖고 있다고 생각하지만 더 이상 이야기하고 싶지 않습니다. 그가 공개한 정보에는 Apple이 생성 AI 소프트웨어 기능을 적극적으로 개발하고 있으며 이러한 기능은 2024년 후반에 고객에게 제공될 것이라는 내용이 포함되어 있습니다.

Apple이 최근 발표한 일련의 생성적 AI 이론 연구 결과와 합쳐서 Apple이 다음에 출시할 새로운 AI 기능이 기대되는 것 같습니다.

논문 상세

본 연구에서 제안하는 MGIE 방법은 주어진 명령어 X희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?를 통해 입력 영상 V를 목표 영상으로 편집할 수 있다. 이러한 부정확한 지침에 대해 MGIE의 MLLM은 간결한 표현 지침 ε을 얻기 위해 학습 파생을 수행합니다. 언어와 시각적 양식 사이의 연결을 구축하기 위해 연구원들은 ε 뒤에 특수 토큰 [IMG]를 추가하고 편집 헤드(edit head) 희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?를 사용하여 변환했습니다. 변환된 정보는 MLLM의 기본 시각적 상상의 역할을 하여 확산 모델이 원하는 편집 목표를 달성하도록 안내합니다. 그런 다음 MGIE는 시각적으로 인식되는 퍼지 명령을 이해하여 합리적인 이미지 편집을 수행할 수 있습니다(아키텍처 다이어그램은 위의 그림 2에 표시됨). 희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

간결하게 표현된 지침

MLLM은 기능 정렬 및 지침 조정을 통해 모달 인식 전반에 걸쳐 시각적으로 관련 있는 응답을 제공할 수 있습니다. 이미지 편집의 경우 이미지에 대한 언어 입력으로 "[지시]하면 이 이미지는 어떻게 될까요?"라는 프롬프트를 사용하고 편집 명령에 대한 자세한 설명을 도출합니다. 그러나 이러한 설명은 너무 길어서 사용자의 의도를 오해하는 경우가 많습니다. 보다 간결한 설명을 얻기 위해 이 연구에서는 사전 학습된 요약기를 적용하여 MLLM이 요약 출력을 생성하는 방법을 학습할 수 있도록 합니다. 이 과정은 다음과 같이 요약할 수 있습니다.

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

잠재 상상력을 통한 이미지 편집

본 연구에서는 편집 헤드

를 사용하여 [IMG]를 실제 시각적 지침으로 변환합니다. 여기서 희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?는 MLLM의 연속 시각적 토큰을 의미상 의미 있는 잠재 U = {u_1, u_2, ..., u_L}에 매핑하고 편집 가이드 역할을 하는 시퀀스-시퀀스 모델입니다. 희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요? 시각적 상상력 U를 통해 이미지 편집을 안내하는 과정을 달성하기 위해 본 연구에서는 VAE(변형 자동 인코더)를 포함하면서 잠재 공간의 노이즈 제거 확산 문제를 해결할 수도 있는 확산 모델

의 사용을 고려합니다. 희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?알고리즘 1은 MGIE 학습 과정을 보여줍니다. MLLM은 명령어 손실 L_ins를 통해 컴팩트 명령어 ε를 도출합니다. [IMG]의 기본 상상력을 바탕으로

양식을 변형하고 희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요? 결과 이미지를 합성하도록 안내합니다. 편집 손실 L_edit은 확산 훈련에 사용됩니다. 대부분의 가중치는 고정될 수 있으므로(MLLM 내의 self-attention 블록) 매개변수 효율적인 엔드투엔드 훈련이 달성됩니다. 희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?실험적 평가

입력 이미지의 경우 동일한 지침에 따라 여러 방법을 비교합니다. 예를 들어 지침의 첫 번째 줄은 "낮을 밤으로 바꾸십시오"입니다.

표 1은 IPr2Pr 데이터세트로만 훈련된 모델의 제로샷 편집 결과를 보여줍니다. Photoshop 스타일 수정이 포함된 EVR 및 GIER의 경우 편집 결과는 부트스트래핑 의도에 더 가깝습니다(예: LGIE는 EVR에서 더 높은 CVS 82.0을 달성했습니다). MA5k의 전역 이미지 최적화를 위해 InsPix2Pix는 관련 훈련 트리플이 부족하기 때문에 다루기 어렵습니다. LGIE와 MGIE는 LLM 학습을 통해 자세한 설명을 제공할 수 있지만 LGIE는 여전히 단일 양식에 국한됩니다. 이미지에 액세스함으로써 MGIE는 어떤 영역을 밝게 해야 하는지, 어떤 물체를 더 선명하게 해야 하는지와 같은 명시적인 지침을 도출할 수 있으며 결과적으로 성능이 크게 향상됩니다(예: 더 높은 66.3 SSIM 및 더 낮은 0.3 사진 거리). MagicBrush에서도 유사한 결과가 발견되었습니다. MGIE는 또한 정확한 시각적 이미지와 지정된 대상을 대상으로 수정하여 최고의 성능을 얻습니다(예: 더 높은 82.2 DINO 시각적 유사성 및 더 높은 30.4 CTS 전역 자막 정렬).

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

특정 목적을 위한 지침 기반 이미지 편집을 연구하기 위해 표 2는 각 데이터 세트의 모델을 미세 조정합니다. EVR 및 GIER의 경우 모든 모델이 Photoshop 스타일 편집 작업에 맞게 개선되었습니다. MGIE는 편집의 모든 측면에서 LGIE를 지속적으로 능가합니다. 이는 또한 표현 지침을 사용한 학습이 이미지 편집을 효과적으로 향상시킬 수 있으며 시각적 인식이 최대 향상을 위한 명시적인 지침을 얻는 데 중요한 역할을 한다는 것을 보여줍니다.

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

α_X와 α_V 간의 절충. 이미지 편집에는 두 가지 목표가 있습니다. 즉, 대상을 명령으로 조작하고 입력 이미지의 나머지 부분을 유지하는 것입니다. 그림 3은 명령(α_X)과 입력 일관성(α_V) 사이의 균형 곡선을 보여줍니다. 본 연구에서는 α_X를 7.5로 고정하였고 α_V는 [1.0, 2.2] 범위에서 변화하였다. α_V가 클수록 편집 결과는 입력과 유사하지만 명령과의 일관성은 떨어집니다. X축은 CLIP 방향 유사성, 즉 편집 결과가 명령과 얼마나 일치하는지를 계산하고, Y축은 CLIP 시각적 인코더와 입력 이미지 간의 특징 유사성을 계산합니다. 특정 표현 지침을 사용하면 실험이 모든 설정에서 InsPix2Pix보다 성능이 뛰어납니다. 또한 MGIE는 명시적이고 시각적으로 관련 있는 지침을 통해 학습하여 전반적인 개선을 달성할 수 있습니다. 이는 더 큰 입력 또는 편집 관련성이 필요한지 여부에 관계없이 강력한 개선을 지원합니다.

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

절제 연구

또한 연구원들은 명령 표현에 있어 서로 다른 아키텍처인 FZ, FT 및 E2E의 성능을 고려하기 위해 절제 실험도 수행했습니다. 결과에 따르면 MGIE는 FZ, FT, E2E에서 지속적으로 LGIE를 능가하는 것으로 나타났습니다. 이는 중요한 시각적 인식을 갖춘 표현 지침이 모든 절제 설정에서 일관된 이점을 갖는다는 것을 의미합니다.

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

MLLM 부트스트래핑이 왜 유용한가요? 그림 5는 입력 또는 실측 대상 이미지와 표현 명령 간의 CLIP-Score 값을 보여줍니다. 입력 이미지의 CLIP-S 점수가 높을수록 지침이 편집 소스와 관련이 있음을 나타내고, 대상 이미지와의 정렬이 향상되어 명확하고 관련성이 높은 편집 지침을 제공합니다. 표시된 것처럼 MGIE는 입력/목표와 더 일치하며, 이는 표현 지침이 유용한 이유를 설명합니다. 예상 결과에 대한 명확한 설명을 통해 MGIE는 이미지 편집에서 가장 큰 개선을 이룰 수 있습니다.

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

인간의 평가. 연구진은 자동 지표 외에도 수동 평가도 수행했습니다. 그림 6은 생성된 표현 명령어의 품질을 보여주며, 그림 7은 InsPix2Pix, LGIE, MGIE의 이미지 편집 결과를 명령어 추종, 실측 관련성, 전반적인 품질 측면에서 비교합니다.

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

추론 효율성. MGIE는 이미지 편집을 위해 MLLM을 사용하지만 간결한 표현 지침(토큰 32개 미만)만 도입하므로 효율성은 InsPix2Pix와 비슷합니다. 표 4에는 NVIDIA A100 GPU의 추론 시간 비용이 나열되어 있습니다. 단일 입력의 경우 MGIE는 10초 안에 편집 작업을 완료할 수 있습니다. 데이터 병렬 처리가 많을수록 필요한 시간은 비슷합니다(배치 크기 8에서 37초). 단 하나의 GPU(40GB)로 전체 프로세스를 완료할 수 있습니다.

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

질적 비교. 그림 8은 사용된 모든 데이터 세트를 시각적으로 비교한 것이며 그림 9는 LGIE 또는 MGIE의 표현 명령을 추가로 비교한 것입니다.

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?

프로젝트 홈페이지에서 연구원은 더 많은 데모도 제공합니다(https://mllm-ie.github.io/). 보다 자세한 연구 내용은 원문을 참고하시기 바랍니다.

위 내용은 희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제