>  기사  >  기술 주변기기  >  비디오 세대의 새로운 혁신: PixelDance, 복잡한 움직임과 멋진 특수 효과를 쉽게 표현

비디오 세대의 새로운 혁신: PixelDance, 복잡한 움직임과 멋진 특수 효과를 쉽게 표현

WBOY
WBOY앞으로
2023-11-24 15:10:591310검색

최근에는 계속해서 헤드라인을 장악하고 있는 널리 시청되는 대규모 언어 모델 외에도 비디오 생성 기술도 계속해서 큰 발전을 이루었습니다. 많은 회사에서 새로운 모델을 속속 출시했습니다

우선, Runway는 최초로 비디오 생성 분야를 개척한 선두 업체 중 하나로서 Gen-2 모델을 업그레이드하여 시선을 사로잡는 영화 같은 고화질을 구현했습니다. 동시에 비디오 생성의 일관성도 크게 향상되었습니다.

하지만 이러한 일관성 향상은 비디오 역학을 희생한 것으로 보입니다. Gen-2의 공식 프로모션 영상을 보면 여러 개의 짧은 클립이 모아져 있음에도 불구하고 각 클립의 역동성이 상대적으로 약해 캐릭터나 동물, 사물의 명확한 동작과 움직임을 포착하기 어렵다는 점을 알 수 있습니다.

최근 메타에서는 영상세대 모델 에뮤비디오도 출시했습니다. Emu Video의 공식 사례에서 볼 수 있듯이 Gen-2에 비해 동영상의 역동성이 크게 향상되었지만 여전히 단순한 동작으로 제한됩니다.

비디오 세대의 새로운 혁신: PixelDance, 복잡한 움직임과 멋진 특수 효과를 쉽게 표현

빈센트의 클래식 그래프 모델인 Stable Diffusion을 개발한 회사 Stability.ai도 최근 오픈소스 비디오 생성 모델인 SVD(Stable Video Diffusion)를 출시하여 업계에서 많은 관심과 논의를 불러일으켰습니다. 오픈 소스 커뮤니티. SVD의 효과는 Gen-2의 효과와 비슷합니다. 테스트 샘플에서 SVD로 생성된 비디오의 역학이 상대적으로 부족하다는 것을 알 수 있습니다.

비디오 세대의 새로운 혁신: PixelDance, 복잡한 움직임과 멋진 특수 효과를 쉽게 표현

SVD에서 생성된 현재 비디오의 역동성이 부족하다는 점을 SVD 논문에서 지적했습니다.

위의 예는 매우 일관되고 풍부하고 역동적인 비디오를 생성하여 비디오 콘텐츠를 진정으로 만들 수 있음을 보여줍니다. 이동, 그것은 현재 영상 생성 분야의 가장 큰 도전입니다.

이와 관련하여 최신 연구 결과인 PixelDance는 생성된 결과의 역동성이 기존의 다른 모델보다 훨씬 우수하여 업계의 주목을 받았습니다.

비디오 세대의 새로운 혁신: PixelDance, 복잡한 움직임과 멋진 특수 효과를 쉽게 표현

유명 AI 블로거 @_akhaliq가 트위터에서 전달한 PixelDance 뉴스는 공식 홈페이지에서 거의 80,000회에 달하는 조회수를 기록했습니다

비디오 세대의 새로운 혁신: PixelDance, 복잡한 움직임과 멋진 특수 효과를 쉽게 표현

비디오 세대의 새로운 혁신: PixelDance, 복잡한 움직임과 멋진 특수 효과를 쉽게 표현

비디오 세대의 새로운 혁신: PixelDance, 복잡한 움직임과 멋진 특수 효과를 쉽게 표현

sdance.github .io), PixelDance는 두 가지 비디오 생성 모드를 제공합니다.

선택할 수 있는 모드는 두 가지가 있으며, 첫 번째는 기본 모드입니다. 이 모드에서 사용자는 안내 이미지와 텍스트 설명만 제공하면 되며 PixelDance는 매우 일관되고 역동적인 비디오를 생성할 수 있습니다. 안내 그림은 실제 사진일 수도 있고, 기존의 텍스트 생성 이미지 모델로 생성될 수도 있습니다. 표시된 결과를 보면 PixelDance는 실제 스타일, 애니메이션 스타일, 2차원 스타일, 마법 스타일로 모두 해결할 수 있습니다. , 캐릭터 움직임, 표정, 카메라 원근감 조절, 특수효과 움직임, 픽셀댄스도 아주 잘 완성할 수 있습니다. 내가 말할 수 있는 건 tql뿐이다!

두 번째는 사용자에게 상상력과 창의력을 발휘할 수 있는 더 많은 공간을 제공하는 고급 매직 모드입니다. 이 모드에서 사용자는 두 가지 안내 사진과 텍스트 설명을 제공해야 하며, 이를 통해 더 어려운 비디오 콘텐츠를 더 잘 생성할 수 있습니다. 이 웹사이트에서는 매직 모드로 만든 다양한 멋진 특수 효과 장면을 보여줍니다. 비디오 세대의 새로운 혁신: PixelDance, 복잡한 움직임과 멋진 특수 효과를 쉽게 표현

또한 공식 홈페이지에서는 100% PixelDance를 사용해 제작된 3분짜리 단편 영화도 공개하고 있습니다

매우 충격적인 점은 PixelDance를 사용하면 사용자가 상상한 스토리에 따라 모든 장면과 그에 상응하는 액션을 만들어낼 수 있다는 것입니다. 실제 장면(예: 이집트, 만리장성 등)이든 상상의 장면(예: 외계 행성)이든 PixelDance는 풍부한 디테일과 액션은 물론 다양한 특수 효과 장면까지 포함하는 비디오를 생성할 수 있습니다.

주인공 북극곰씨의 검은 모자와 빨간 나비넥타이가 다양한 장면에서 잘 유지되고 있습니다. 이제 긴 비디오를 생성하는 것은 더 이상 관련 없는 짧은 비디오 클립을 단순히 연결하는 문제가 아닙니다!

이러한 뛰어난 비디오 생성 효과를 달성하기 위해 복잡한 데이터 세트와 대규모 모델 교육에 의존하지 않습니다. PixelDance는 위의 효과를 달성하기 위해 공개 WebVid-10M 데이터 세트에서 1.5B 크기 모델만 사용했습니다. .

비디오 세대의 새로운 혁신: PixelDance, 복잡한 움직임과 멋진 특수 효과를 쉽게 표현

문서 주소: https://arxiv.org/abs/2311.10982

원래 의미를 바꾸지 않고 내용을 다시 작성하고 중국어로 다시 작성하십시오. 데모를 받으려면 다음 웹사이트를 방문하십시오: https ://makepixelsdance.io

해당 논문 "Make Pixels Dance: High-Dynamic Video Generation"에서 저자는 비디오 생성이 좋은 결과를 얻기 어려운 이유를 다음과 같이 지적했습니다. 세대는 훨씬 더 큰 기능 공간을 가지고 있으며, 액션의 다양성은 훨씬 더 강력한 기능입니다. 이는 기존 비디오 생성 방법이 효과적인 시간 영역 동작 정보를 학습하는 것을 어렵게 만듭니다. 생성된 비디오는 화질이 높지만 그 역학은 매우 제한적입니다.

위 문제에 대응하여 PixelDance에서는 모델이 동영상의 동적 정보에 더욱 주의를 기울이고 학습할 수 있도록 텍스트 안내 + 첫 번째 및 마지막 프레임 그림 안내 기반의 동영상 생성 방법을 제안합니다.

비디오 생성에서 첫 번째 프레임 이미지는 전체 비디오 콘텐츠의 프레임워크와 자료를 제공합니다. 동시에 이전 비디오 클립의 마지막 프레임을 다음 클립의 첫 번째 프레임에 대한 가이드로 사용하여 더 긴 비디오를 생성할 수 있습니다. 비디오 텍스트 설명은 비디오 작업의 특정 콘텐츠를 설명합니다. 마지막 프레임 사진 안내는 영상 생성 과정의 종료 상태 정보를 제공합니다. 저자는 모델이 상대적으로 거친 이미지를 지침으로 받아들일 수 있는 적응 방법을 제안하며, 이를 통해 사용자는 기본 이미지 편집 도구를 사용하여 최종 프레임 이미지 지침을 얻을 수 있습니다

공식 웹사이트의 정보 표시는 여전히 활성화되어 있습니다. 모델효과는 누구나 체험해볼 수 있는 모델이 2~3개월 내로 출시될 예정이다. 현재 저자는 모든 사람이 테스트하고 싶은 샘플을 보낼 수 있도록 지원하는 방법도 제공합니다. 현재 일부 사용자 테스트 샘플이 공식 웹사이트에 공개되었습니다:

비디오 세대의 새로운 혁신: PixelDance, 복잡한 움직임과 멋진 특수 효과를 쉽게 표현

PixelDance에서는 당신은 상상력이 풍부하기 때문에 힘이 있으면 누구나 "백만 달러짜리 특수 효과 마스터"가 될 수 있습니다!

위 내용은 비디오 세대의 새로운 혁신: PixelDance, 복잡한 움직임과 멋진 특수 효과를 쉽게 표현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제