최근 OpenAI가 출시한 DALLE-2와 Google이 출시한 Imagen은 놀라운 텍스트-이미지 생성 효과를 달성하여 광범위한 관심을 끌었으며 많은 흥미로운 애플리케이션을 탄생시켰습니다. 텍스트를 이미지로 변환하는 생성은 다중 모드 이미지 합성 및 편집 분야의 일반적인 작업입니다. 최근 막스 플랑크 연구소, 난양 기술 연구소 및 기타 기관의 연구자들은 다중 모드 이미지 합성 및 편집이라는 대규모 분야의 연구 상태와 향후 개발에 대한 자세한 조사 및 분석을 수행했습니다.
- 논문 주소: https://arxiv.org/pdf/2112.13592.pdf
- 프로젝트 주소: https://github.com/fnzhan/MISE
첫 번째 장에서는 다중 모달 이미지 합성 및 편집 작업의 중요성과 전반적인 개발, 그리고 이 논문의 기여와 전체 구조를 설명합니다.
두 번째 장에서는 이미지 합성 및 편집을 안내하는 데이터 양식을 기반으로 보다 일반적으로 사용되는 시각적 안내(예: 의미 맵, 핵심 포인트 맵, 에지 맵), 텍스트 안내 및 음성을 소개합니다. 지침 장면 그래프는 해당 모달 데이터와 통합 표현 프레임워크를 안내하고 처리합니다.
제3장에서는 영상 합성 및 편집의 모델 프레임워크에 따라 GAN 기반 방법, 자기회귀 방법, 확산 모델 방법, NeRF(Neural Radiation Field) 방법 등 현재의 다양한 방법을 분류합니다.
GAN 기반 방법은 일반적으로 조건부 GAN과 무조건 GAN 반전을 사용하므로 본 논문에서는 이 범주를 모달 내 조건(예: 의미 맵, 에지 맵), 크로스 -모달 조건 모달 조건(예: 텍스트 및 음성) 및 GAN 반전(통합 양식)에 대해 자세히 설명합니다.
GAN 기반 방법에 비해 자기회귀 모델 방법은 다중 모드 데이터를 보다 자연스럽게 처리할 수 있으며 현재 인기 있는 Transformer 모델을 활용할 수 있습니다. 자동회귀 방법은 일반적으로 먼저 벡터 양자화 인코더를 학습하여 이미지를 토큰 시퀀스로 개별적으로 표현한 다음 자동회귀적으로 토큰 분포를 모델링합니다. 텍스트, 음성 등의 데이터를 토큰으로 표현하고 자기회귀 모델링의 조건으로 사용할 수 있으므로 다양한 다중 모드 이미지 합성 및 편집 작업을 하나의 프레임워크로 통합할 수 있습니다.
최근에는 널리 사용되는 확산 모델이 다중 모드 합성 및 편집 작업에도 널리 사용됩니다. 예를 들어 놀라운 DALLE-2와 Imagen은 모두 확산 모델을 기반으로 구현됩니다. GAN과 비교하여 확산 생성 모델은 정적 훈련 목표 및 쉬운 확장성과 같은 몇 가지 좋은 속성을 가지고 있습니다. 본 논문에서는 조건부 확산 모델과 사전 학습된 확산 모델을 기반으로 기존 방법을 세부적으로 분류하고 분석합니다.
위의 방법은 주로 2D 이미지의 다중 모드 합성 및 편집에 중점을 둡니다. 최근 NeRF(Neural Radiation Fields)의 급속한 발전으로 인해 3D 인식을 위한 다중 모드 합성 및 편집이 점점 더 많은 주목을 받고 있습니다. 3D 인식을 위한 다중 모드 합성 및 편집은 다중 뷰 일관성을 고려해야 하기 때문에 더욱 어려운 작업입니다. 이 논문은 단일 장면 최적화 NeRF, 생성 NeRF 및 NeRF 반전의 세 가지 방법에 대한 기존 작업을 분류하고 요약합니다.
이번 리뷰에서는 위의 네 가지 모델 방법을 비교하고 논의합니다. 전반적으로 현재의 최첨단 모델은 GAN보다 자기회귀 및 확산 모델을 선호합니다. 다중 모드 합성 및 편집 작업에 NeRF를 적용하면 이 분야 연구를 위한 새로운 창이 열립니다.
4장에서 이 리뷰는 다중 모달 합성 및 편집 분야에서 인기 있는 데이터 세트와 해당 모달 주석을 통합하고 각 양식의 일반적인 작업(의미적 이미지 합성, 텍스트- 이미지 합성, 음성 안내 이미지 편집)은 현재 방법의 정량적 비교를 제시합니다.
5장에서 이 리뷰에서는 대규모 다중 모드 데이터 세트, 정확하고 신뢰할 수 있는 평가 지표, 효율적인 네트워크 아키텍처 및 3D 인식 개발 방향을 포함하여 이 분야의 현재 과제와 미래 방향을 논의하고 분석합니다.
6장과 7장에서는 이 분야의 잠재적인 사회적 영향에 대해 자세히 설명하고 각각 기사의 내용과 기여를 요약합니다.
위 내용은 다중 모드 이미지 합성 및 편집은 막스 플랑크 연구소, 난양 기술 연구소 등이 상세한 리뷰를 발표할 정도로 인기가 높습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 할 일

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

최근 Enterprise Analytics 플랫폼 Alteryx의 CEO 인 Andy MacMillan과의 대화는 AI 혁명 에서이 비판적이면서도 저평가 된 역할을 강조했습니다. MacMillan에서 설명했듯이 원시 비즈니스 데이터와 AI-Ready Informat의 격차


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

WebStorm Mac 버전
유용한 JavaScript 개발 도구

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.
