찾다
기술 주변기기일체 포함전 세계가 주목하는 '제목 3' : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

최근에는 손을 흔들고 가랑이를 반쯤 벌리고 리드미컬한 음악을 맞추는 '제목 3'에 대해 많이 들어보셨을 것입니다.

AI가 비슷한 춤을 만들어낸다면 어떻게 될까요? 아래 사진처럼 현대인과 종이인 모두 획일적인 움직임을 하고 있습니다. 여러분이 짐작하지 못할 수도 있는 것은 이것이 사진에서 생성된 댄스 비디오라는 것입니다.

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

캐릭터 움직임이 더 어려워지고 생성된 비디오도 매우 매끄러워집니다(맨 오른쪽):

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

메시와 아이언맨을 움직이게 하는 것은 쉽습니다:

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다


전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

다양한 애니메이션 소녀들도 있습니다.

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

이러한 효과는 어떻게 달성되나요? 계속 읽어보세요

캐릭터 애니메이션은 원본 캐릭터 이미지를 원하는 포즈 순서에 따라 사실적인 동영상으로 변환하는 과정입니다. 이 작업은 온라인 소매, 엔터테인먼트 비디오, 예술 창작, 가상 캐릭터 등 많은 잠재적인 응용 분야를 가지고 있습니다.

GAN 기술의 출현 이후 연구자들은 이미지를 애니메이션으로 변환하고 완성하는 방법을 지속적으로 심층적으로 탐구해 왔습니다. 포즈 전송 방법. 그러나 생성된 이미지나 영상에는 여전히 국부적 왜곡, 흐릿한 디테일, 의미적 불일치, 시간적 불안정성 등의 문제가 있어 이러한 방법의 적용을 방해하고 있습니다.

Ali 연구진은 Animate Anybody라는 방법을 제안하여 캐릭터 이미지를 변환하는 방법을 제안했습니다. 원하는 포즈 순서를 따르는 애니메이션 비디오로. 이 연구에서는 Stable Diffusion 네트워크 설계와 사전 훈련된 가중치를 채택하고 다중 프레임 입력

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

  • 논문 주소: https://arxiv.org/pdf/2311.17117에 맞게 노이즈 제거 UNet을 수정했습니다. pdf
  • 프로젝트 주소: https://humanaigc.github.io/animate-anyone/

연구에서는 일관된 모습을 유지하기 위해 ReferenceNet을 도입했습니다. 네트워크는 대칭형 UNet 구조를 채택하고 참조 이미지의 공간적 세부 정보를 캡처하는 것을 목표로 합니다. 각 해당 UNet 블록 계층에서 이 연구는 공간 주의 메커니즘을 사용하여 ReferenceNet의 기능을 잡음 제거 UNet에 통합합니다. 이 아키텍처를 통해 모델은 일관된 특징 공간에서 참조 이미지와의 관계를 포괄적으로 학습할 수 있습니다.

포즈 제어성을 보장하기 위해 이 연구에서는 포즈를 효과적으로 제어할 수 있는 경량 포즈 가이드를 설계했습니다. 신호는 노이즈 제거 프로세스에 통합됩니다. 시간적 안정성을 달성하기 위해 이 논문에서는 시간적 레이어를 도입하여 여러 프레임 간의 관계를 모델링함으로써 연속적이고 부드러운 시간적 모션 프로세스를 시뮬레이션하는 동시에 시각적 품질의 고해상도 세부 정보를 유지합니다.

Animate Anybody는 그림 1과 같이 다양한 캐릭터에 대한 애니메이션 결과를 보여주는 5K 캐릭터 비디오 클립의 내부 데이터 세트에 대해 교육을 받았습니다. 이전 방법과 비교할 때 이 문서의 방법에는 몇 가지 확실한 장점이 있습니다.

  • 우선, 영상 속 등장인물의 등장의 공간적, 시간적 일관성을 효과적으로 유지합니다.
  • 두 번째로 생성되는 고화질 비디오에는 시간 지터나 깜박임과 같은 문제가 없습니다.
  • 셋째, 특정 분야에 제한을 받지 않고 모든 캐릭터 이미지를 동영상으로 애니메이션화할 수 있습니다.

이 문서는 두 가지 특정 인간 비디오 합성 벤치마크(UBC Fashion Video Dataset 및 TikTok Dataset)에서 평가되었습니다. 결과는 Animate Anybody가 SOTA 결과를 달성했음을 보여줍니다. 또한, 본 연구에서는 Animate Anybody 방식을 대규모 데이터로 훈련된 일반적인 이미지-비디오 방식과 비교하여 Animate Anybody가 캐릭터 애니메이션에서 탁월한 기능을 입증했음을 보여주었습니다.

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

Animate Anybody 다른 방법과 비교:

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

방법 소개

이 문서의 처리 방법은 그림 2에 나와 있습니다. 네트워크의 원래 입력 다중 프레임 노이즈로 구성됩니다. 잡음 제거 효과를 달성하기 위해 연구자들은 동일한 프레임워크와 블록 단위를 사용하고 SD에서 훈련 가중치를 상속하는 SD 설계 기반 구성을 채택했습니다. 구체적으로 이 방법에는 세 가지 핵심 부분이 포함됩니다. 즉, 참조 이미지 캐릭터의 외관 특성을 인코딩하는

  • ReferenceNet
  • 캐릭터 움직임을 제어하기 위해 동작 제어 신호를 인코딩하는 포즈 가이드(포즈 가이드) ;
  • 시간적 레이어(시간적 레이어), 캐릭터 행동의 연속성을 보장하기 위해 시간적 관계를 인코딩합니다.

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

ReferenceNet

ReferenceNet은 참조 이미지 특징 추출 네트워크이며 프레임워크는 잡음 제거 UNet과 거의 동일하며 시간 계층만 다릅니다. 따라서 ReferenceNet은 잡음 제거 UNet과 유사한 원래 SD 가중치를 상속하며 각 가중치 업데이트는 독립적으로 수행됩니다. 연구원들은 ReferenceNet의 기능을 노이즈 제거 UNet에 통합하는 방법을 설명합니다.

ReferenceNet은 두 가지 장점을 갖도록 설계되었습니다. 첫째, ReferenceNet은 원시 SD의 사전 훈련된 이미지 특징 모델링 기능을 활용하여 잘 초기화된 기능을 생성할 수 있습니다. 둘째, ReferenceNet과 잡음 제거 UNet은 본질적으로 동일한 네트워크 구조와 공유 초기화 가중치를 가지므로 잡음 제거 UNet은 ReferenceNet에서 동일한 기능 공간에 연결된 기능을 선택적으로 학습할 수 있습니다.

자세 가이드

다시 작성된 내용은 다음과 같습니다. 이 경량 자세 가이드는 4개의 컨볼루션 레이어(4×4 커널, 2×2 스트라이드)를 사용하며 채널 수는 각각 16, 32, 64입니다. , 128은 [56]의 조건부 인코더와 유사하며 기본 노이즈와 동일한 해상도로 포즈 이미지를 정렬하는 데 사용됩니다. 처리된 포즈 이미지는 잠재 잡음에 추가된 후 처리를 위해 잡음 제거 UNet에 입력됩니다. 포즈 가이드는 가우시안 가중치로 초기화되고 최종 매핑 레이어에서 컨볼루션 0을 사용합니다.

임시 레이어

임시 레이어의 디자인은 AnimateDiff에서 영감을 받았습니다. 특징 맵 x∈R^b×t×h×w×c에 대해 연구자는 먼저 이를 x∈R^(b×h×w)×t×c로 변형한 후 Temporal attention을 수행합니다. 차원 t의 Self-Attention. 시간 계층의 특징은 잔여 연결을 통해 원래 특징에 병합됩니다. 이 설계는 아래의 2단계 학습 방법과 일치합니다. 시간 레이어는 노이즈 제거 UNet의 Res-Trans 블록 내에서만 사용됩니다.

훈련 전략

훈련 과정은 두 단계로 나뉩니다.

재작성된 콘텐츠: 훈련의 첫 번째 단계에서는 단일 비디오 프레임이 훈련에 사용됩니다. 잡음 제거 UNet 모델에서 연구원들은 임시 계층을 일시적으로 제외하고 단일 프레임 잡음을 입력으로 사용했습니다. 동시에 참조 네트워크와 태도 가이드도 훈련됩니다. 참조 이미지는 전체 비디오 클립에서 무작위로 선택됩니다. 그들은 사전 훈련된 가중치를 사용하여 잡음 제거 UNet 및 ReferenceNet 모델을 초기화했습니다. 포즈 가이드는 0 컨볼루션을 사용하는 최종 투영 레이어를 제외하고 가우스 가중치로 초기화됩니다. VAE 인코더 및 디코더와 CLIP 이미지 인코더의 가중치는 변경되지 않습니다. 이 단계의 최적화 목표는 참조 이미지와 대상 포즈를 고려하여 고품질 애니메이션 이미지를 생성하는 것입니다

두 번째 단계에서 연구원들은 이전에 훈련된 모델에 시간 계층을 도입하고 AnimateDiff를 사용하여 훈련된 모델을 사전 초기화했습니다. 무게. 모델에 대한 입력은 24프레임 비디오 클립으로 구성됩니다. 이 단계에서는 시간 계층만 훈련되고 네트워크의 다른 부분의 가중치는 고정됩니다.

실험 및 결과

질적 결과: 그림 3에서 볼 수 있듯이 이 방법을 사용하면 전신 인물 사진, 반신 인물 사진, 만화 캐릭터, 인간형 캐릭터 등 모든 캐릭터의 애니메이션을 제작할 수 있습니다. 이 방법은 고화질의 사실적인 인체 디테일을 생성할 수 있습니다. 참조 이미지와의 시간적 일관성을 유지하고 큰 움직임이 있는 경우에도 프레임 간 시간적 연속성을 나타냅니다.

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

패션 영상 합성. 패션 비디오 합성의 목표는 구동되는 포즈 시퀀스를 사용하여 패션 사진을 사실적인 애니메이션 비디오로 변환하는 것입니다. 실험은 각각 약 350개의 프레임을 포함하는 500개의 훈련 비디오와 100개의 테스트 비디오로 구성된 UBC 패션 비디오 데이터세트에서 수행됩니다. 정량적 비교는 표 1에 나와 있습니다. 본 논문의 방법이 다른 방법에 비해 우수함을 결과에서 확인할 수 있으며, 특히 영상 측정 지표에서는 뚜렷한 단서를 보여주고 있다.

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

정성적 비교는 그림 4에 나와 있습니다. 공정한 비교를 위해 연구원들은 DreamPose의 오픈 소스 코드를 사용하여 샘플 미세 조정 없이 결과를 얻었습니다. 패션 영상 분야에서는 의류 디테일에 대한 요구 사항이 매우 엄격합니다. 그러나 DreamPose와 BDMM으로 생성된 영상은 의상 디테일의 일관성을 유지하지 못하고 색상과 미세한 구조적 요소에 상당한 오류가 나타납니다. 대조적으로, 이 방법으로 생성된 결과는 의류 세부 사항의 일관성을 보다 효과적으로 유지할 수 있습니다.

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

휴먼 댄스 제너레이션은 사실적인 댄스 장면의 이미지를 애니메이션화하여 인간 댄스를 생성하는 것을 목표로 하는 연구입니다. 연구원들은 340개의 교육 비디오와 100개의 테스트 비디오가 포함된 TikTok 데이터 세트를 사용했습니다. 그들은 DisCo의 데이터 세트 분할 방법에 따라 10개의 TikTok 스타일 비디오가 포함된 동일한 테스트 세트를 사용하여 정량적 비교를 수행했습니다. 본 논문의 방법이 가장 좋은 결과를 달성했다는 것을 표 2에서 볼 수 있다. DisCo는 모델의 일반화 능력을 향상시키기 위해 인간 속성 사전 학습을 결합하고 수많은 이미지 쌍을 사용하여 모델을 사전 학습합니다. 이에 비해 다른 연구자들은 TikTok 데이터 세트로만 교육을 받았지만 결과는 여전히 DisCo

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

DisCo보다 더 좋았습니다. DisCo와의 정성적 비교는 그림 5에 나와 있습니다. 장면의 복잡성을 고려할 때 DisCo의 방법에서는 사람 전경 마스크를 생성하기 위해 SAM을 추가로 사용해야 합니다. 대조적으로, 우리의 방법은 명시적인 인간 마스크 학습 없이도 모델이 사전 인간 분할 없이 피사체의 움직임에서 전경-배경 관계를 파악할 수 있음을 보여줍니다. 또한, 복잡한 댄스 시퀀스에서 모델은 동작 전반에 걸쳐 시각적 연속성을 유지하는 데 뛰어나며 다양한 캐릭터 모습을 처리하는 데 있어 더욱 견고함을 보여줍니다.

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

이미지 - 비디오에 대한 보편적인 접근 방식. 현재 많은 연구에서 대규모 훈련 데이터를 기반으로 강력한 생성 기능을 갖춘 비디오 확산 모델을 제안했습니다. 연구원들은 비교를 위해 가장 잘 알려져 있고 가장 효과적인 이미지-비디오 방법 중 두 가지인 AnimateDiff와 Gen2를 선택했습니다. 이 두 가지 방법은 포즈 제어를 수행하지 않기 때문에 연구진은 참조 이미지의 외관 충실도를 유지하는 능력만 비교했습니다. 그림 6에서 볼 수 있듯이 현재의 이미지-비디오 접근 방식은 많은 수의 캐릭터 동작을 생성하는 데 어려움을 겪고 있으며 비디오 전반에 걸쳐 장기적인 모양 일관성을 유지하는 데 어려움을 겪고 있어 일관된 캐릭터 애니메이션에 대한 효과적인 지원을 방해합니다.

전 세계가 주목하는 제목 3 : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다

자세한 내용은 원본을 확인해주세요

위 내용은 전 세계가 주목하는 '제목 3' : 메시, 아이언맨, 2차원 여성도 쉽게 다룰 수 있다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
LLM에서 도구 호출LLM에서 도구 호출Apr 14, 2025 am 11:28 AM

대형 언어 모델 (LLM)은 인기가 높아졌으며, 도구 전달 기능은 단순한 텍스트 생성을 넘어 기능을 극적으로 확장했습니다. 이제 LLM은 동적 UI 생성 및 자율적 인 A와 같은 복잡한 자동화 작업을 처리 할 수 ​​있습니다.

ADHD 게임, 건강 도구 및 AI 챗봇이 글로벌 건강을 변화시키는 방법ADHD 게임, 건강 도구 및 AI 챗봇이 글로벌 건강을 변화시키는 방법Apr 14, 2025 am 11:27 AM

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다

AI에 대한 UN 입력 : 우승자, 패자 및 기회AI에 대한 UN 입력 : 우승자, 패자 및 기회Apr 14, 2025 am 11:25 AM

UNCTAD의 사무 총장 인 Rebeca Grynspan은“역사는 기술 진보가 경제 성장을 유발하거나 공평한 소득 분배를 보장하거나 포용적인 인간 발전을 촉진하지는 않습니다.

생성 AI를 통한 협상 기술 ​​학습생성 AI를 통한 협상 기술 ​​학습Apr 14, 2025 am 11:23 AM

쉽게 생성 AI를 협상 교사 및 스파링 파트너로 사용하십시오. 그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 AI의 최신 Forbes 열 범위의 일부입니다.

Ted는 Openai, Google, 메타가 법정으로 공개됩니다.Ted는 Openai, Google, 메타가 법정으로 공개됩니다.Apr 14, 2025 am 11:22 AM

밴쿠버에서 개최 된 TED2025 컨퍼런스는 어제 4 월 11 일 36 번째 판을 마무리했습니다. Sam Altman, Eric Schmidt 및 Palmer Luckey를 포함한 60 개 이상의 국가에서 80 명의 스피커를 선보였습니다. 테드의 주제 인“인류를 다시 상상했다”는 재단사가 만들어졌다

Joseph Stiglitz는 AI 독점권 속에서 임시 불평등을 경고합니다.Joseph Stiglitz는 AI 독점권 속에서 임시 불평등을 경고합니다.Apr 14, 2025 am 11:21 AM

Joseph Stiglitz는 2001 년에 유명한 경제학자이자 노벨 경제학상을 수상했습니다. Stiglitz는 AI가 기존의 불평등과 통합 된 권력을 몇몇 지배적 인 기업의 손에 악화시킬 수 있으며 궁극적으로 경제를 훼손 할 수 있다고 주장합니다.

그래프 데이터베이스 란 무엇입니까?그래프 데이터베이스 란 무엇입니까?Apr 14, 2025 am 11:19 AM

그래프 데이터베이스 : 관계를 통한 데이터 관리 혁명 데이터가 확장되고 그 특성이 다양한 필드에서 발전함에 따라 그래프 데이터베이스는 상호 연결된 데이터를 관리하기위한 변환 솔루션으로 떠오르고 있습니다. 전통적인 것과는 달리

LLM 라우팅 : 전략, 기술 및 파이썬 구현LLM 라우팅 : 전략, 기술 및 파이썬 구현Apr 14, 2025 am 11:14 AM

대형 언어 모델 (LLM) 라우팅 : 지능형 작업 분포를 통한 성능 최적화 LLM의 빠르게 진화하는 환경은 각각 독특한 강점과 약점을 가진 다양한 모델을 제시합니다. 일부는 Creative Content Gen에서 탁월합니다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구