찾다
기술 주변기기일체 포함Bytedance는 방금 AI 비디오를 마음으로 불렀습니다! -Mehnihuman 1

Bytedance의 획기적인 Omnihuman-1 프레임 워크는 인간 애니메이션에 혁명을 일으킨다! 최근의 연구 논문에 자세히 설명 된이 새로운 모델은 확산 변압기 아키텍처를 활용하여 단일 이미지 및 오디오 입력에서 엄청나게 현실적인 휴먼 비디오를 생성합니다. 복잡한 설정을 잊어 버리십시오 - 옴니 누만은 프로세스를 단순화하고 우수한 결과를 제공합니다. 세부 사항으로 뛰어 들어 봅시다.

목차

기존 애니메이션 모델의 한계 Omnihuman-1 솔루션 : 다중 모달 접근 샘플 omnihuman-1 비디오 모델 교육 및 건축

omni-conditions 교육 전략
    실험적 검증 및 성능
  • 절제 연구 : 훈련 과정 최적화
  • 확장 된 시각적 결과 : 다양성을 보여줍니다
  • 결론
  • 기존 인간 애니메이션 모델의 한계
  • 현재 인간 애니메이션 모델은 종종 한계로 고통 받고 있습니다. 그들은 종종 작고 전문화 된 데이터 세트에 의존하여 품질이 낮고 융통성이없는 애니메이션을 만듭니다. 많은 사람들이 다양한 상황에서 일반화로 어려움을 겪고 현실감과 유동성이 부족합니다. 단일 입력 방식 (예 : 텍스트 또는 이미지 만)에 대한 의존은 인간 운동과 표현의 뉘앙스를 포착하는 능력을 심각하게 제한합니다.
  • Omnihuman-1 솔루션
  • Omnihuman-1은 다중 모달 접근 방식으로 이러한 과제를 정면으로 해결합니다. 텍스트, 오디오 및 포즈 정보를 컨디셔닝 신호로 통합하여 상황에 따라 풍부하고 사실적인 애니메이션을 만듭니다. 혁신적인 Omni-Conditions Design은 참조 이미지에서 주제 정체성과 배경 세부 사항을 보존하여 일관성을 보장합니다. 고유 한 교육 전략은 데이터 활용을 극대화하여 과적으로 과적으로 성능을 향상시키고 성능을 향상시킵니다.
  • 샘플 omnihuman-1 비디오 Omnihuman-1은 이미지와 오디오에서 현실적인 비디오를 생성합니다. 다양한 시각적 및 오디오 스타일을 처리하여 모든 종횡비 및 신체 비율로 비디오를 제작합니다. 결과 애니메이션은 상세한 움직임, 조명 및 질감을 자랑합니다. (참고 : 참조 이미지는 간결성에 대해 생략되지만 요청시 사용할 수 있습니다.)
  • 말하기
  • 브라우저는 비디오 태그를 지원하지 않습니다.
  • 노래
  • 브라우저는 비디오 태그를 지원하지 않습니다.

다양성 브라우저는 비디오 태그를 지원하지 않습니다. 손이있는 Body Body Case

브라우저는 비디오 태그를 지원하지 않습니다.

모델 훈련 및 건축 Omnihuman-1의 훈련은 다중 조건 확산 모델을 활용합니다. 핵심은 미리 훈련 된 해초 모델 (MMDIT 아키텍처)이며, 처음에는 일반 텍스트 비디오 쌍에 대해 교육을 받았습니다. 그런 다음 텍스트, 오디오 및 포즈 신호를 통합하여 인간 비디오 생성에 적합합니다. 인과 적 3D 변형 자동 인코 코더 (3DVAE)는 비디오를 효율적인 비난을 위해 잠재적 인 공간으로 투사합니다. 아키텍처는 기준 이미지에서 주제 정체성과 배경을 보존하기 위해 비난 과정을 영리하게 재사용합니다. 모델 아키텍처 다이어그램

옴니 조건 훈련 전략

이 3 단계 프로세스는 확산 모델을 점진적으로 개선합니다. 모션 상관 강도 (약한)에 따라 조절 방식 (텍스트, 오디오, 포즈)을 순차적으로 소개합니다. 이를 통해 각 양식에서 균형 잡힌 기여를 보장하여 애니메이션 품질을 최적화합니다. 오디오 컨디셔닝은 기능 추출을 위해 WAV2VEC를 사용하고 포즈 컨디셔닝은 포즈 히트 맵을 통합합니다.

실험적 검증 및 성능 ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

이 논문은 대규모 데이터 세트 (18.7k 시간의 인간 관련 데이터)를 사용하여 엄격한 실험적 검증을 제시합니다. Omnihuman-1은 다양한 메트릭 (IQA, ASE, SYNC-C, FID, FVD)에서 기존 방법을 능가하여 다양한 입력 구성을 처리 할 때 우수한 성능과 다양성을 보여줍니다.

절제 연구 : 훈련 과정 최적화

절제 연구는 각 양식에 대한 다른 훈련 데이터 비율의 영향을 탐구합니다. 오디오 및 포즈 데이터에 대한 최적의 비율을 보여주고 현실주의 및 동적 범위의 균형을 유지합니다. 이 연구는 또한 정체성과 시각적 충실도를 보존하기위한 충분한 참조 이미지 비율의 중요성을 강조합니다. 시각화는 다양한 오디오 및 포즈 조건 비율의 효과를 분명히 보여줍니다.

확장 된 시각적 결과 : 다목적 성을 보여줍니다

확장 된 시각적 결과는 다양한 스타일, 객체 상호 작용 및 포즈 중심 시나리오를 처리 할 수있는 능력을 강조하고 다양한 고품질 애니메이션을 생성하는 Omnihuman-1의 능력을 보여줍니다. ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

결론

Omnihuman-1은 인간 비디오 생성에서 중요한 도약을 나타냅니다. 제한된 입력과 멀티 모달 기능에서 사실적인 애니메이션을 만들 수있는 능력은 정말 놀라운 성과입니다. 이 모델은 디지털 애니메이션 분야에 혁명을 일으킬 준비가되어 있습니다.

위 내용은 Bytedance는 방금 AI 비디오를 마음으로 불렀습니다! -Mehnihuman 1의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
Sam Altman과 다른 사람들이 이제 Vibes를 AI의 최신 진행에 대한 새로운 게이지로 사용하는 이유Sam Altman과 다른 사람들이 이제 Vibes를 AI의 최신 진행에 대한 새로운 게이지로 사용하는 이유May 06, 2025 am 11:12 AM

AI 필드의 평가 지표로서 "VIBES"의 사용이 상승하는 것을 논의합시다. 이 분석은 AI 발전에 대한 진행중인 Forbes 열의 일부이며 AI 개발의 복잡한 측면을 탐색합니다 (여기 링크 참조). AI 평가의 분위기 트레이디

Waymo Factory 내부에서 Robotaxi Future를 구축합니다Waymo Factory 내부에서 Robotaxi Future를 구축합니다May 06, 2025 am 11:11 AM

Waymo 's Arizona Factory : 대량 생산 자율 주행 재규어 및 그 이상 애리조나 주 피닉스 근처에 위치한 Waymo는 자율적 인 재규어 I-Pace Electric SUV를 생산하는 최첨단 시설을 운영하고 있습니다. 이 239,000 평방 피트 규모의 공장이 문을 열었습니다

내부 S & P Global의 핵심 AI와의 데이터 중심 변환내부 S & P Global의 핵심 AI와의 데이터 중심 변환May 06, 2025 am 11:10 AM

S & P Global의 최고 디지털 솔루션 책임자 인 Jigar Kocherlakota는 회사의 AI 여정, 전략적 인수 및 미래 중심의 디지털 혁신에 대해 논의합니다. 혁신적인 리더십 역할과 미래의 준비 팀 코카 랄라코타의 역할

슈퍼-애플의 상승 : 디지털 생태계에서 번성하기위한 4 단계슈퍼-애플의 상승 : 디지털 생태계에서 번성하기위한 4 단계May 06, 2025 am 11:09 AM

앱에서 생태계까지 : 디지털 환경 탐색 디지털 혁명은 소셜 미디어와 AI를 훨씬 넘어서고 있습니다. 우리는 "Everything Apps"의 부상을 목격하고 있습니다. 샘 a

마스터 카드 및 비자 잠금 해제 AI 요원마스터 카드 및 비자 잠금 해제 AI 요원May 06, 2025 am 11:08 AM

Mas Visa의 AI 기반 거래 기능은 헤드 라인을 만들었지 만 Mastercard는 대리인 지불을 발표했습니다.

대담한 뒷받침 : Future Ventures의 혁신적인 혁신 플레이 북대담한 뒷받침 : Future Ventures의 혁신적인 혁신 플레이 북May 06, 2025 am 11:07 AM

Future Ventures Fund IV : 소설 기술에 대한 $ 200m 베팅 Future Ventures는 최근 초과 구매 펀드 IV를 마감하여 총 2 억 달러를 마감했습니다. Steve Jurvetson, Maryanna Saenko 및 Nico Enriquez가 관리하는이 새로운 펀드는 중요한 Inv를 나타냅니다.

AI를 사용하면 회사가 SEO에서 GEO로 전환합니다.AI를 사용하면 회사가 SEO에서 GEO로 전환합니다.May 05, 2025 am 11:09 AM

AI 애플리케이션이 폭발적으로 증가함에 따라 기업은 기존 검색 엔진 최적화 (SEO)에서 생성 엔진 최적화 (GEO)로 이동하고 있습니다. Google은 변화를 이끌고 있습니다. "AI 개요"기능은 10 억 명 이상의 사용자에게 제공되어 사용자가 링크를 클릭하기 전에 전체 답변을 제공합니다. [^2] 다른 참가자들도 빠르게 상승하고 있습니다. Chatgpt, Microsoft Coplot 및 Perplexity는 전통적인 검색 결과를 완전히 우회하는 새로운 "답변 엔진"범주를 만들고 있습니다. 이 AI 생성 답변에 비즈니스가 나타나지 않으면 잠재 고객이 전통적인 검색 결과에서 높은 순위를 차지한 경우에도 잠재 고객이 귀하를 찾지 못할 수 있습니다. SEO에서 GEO까지 - 이것은 정확히 무엇을 의미합니까? 수십 년 동안

이 경로 중 어느 경로에 대한 큰 베팅은 오늘날의 AI가 소중한 AGI가되도록 밀어 넣을 것입니다.이 경로 중 어느 경로에 대한 큰 베팅은 오늘날의 AI가 소중한 AGI가되도록 밀어 넣을 것입니다.May 05, 2025 am 11:08 AM

인공 일반 정보 (AGI)의 잠재적 경로를 탐색합시다. 이 분석은 AI 전진에 대한 진행중인 Forbes 칼럼의 일부이며, AGI 및 인공 초 지성 (ASI)을 달성하는 복잡성을 탐구합니다. (관련 예술 참조

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.