Rumah >Peranti teknologi >AI >Bytedance hanya membuat video AI minda meniup! - Omnihuman 1

Bytedance hanya membuat video AI minda meniup! - Omnihuman 1

Jennifer Aniston
Jennifer Anistonasal
2025-03-06 12:09:17393semak imbas

rangka kerja omnihuman-1 Bytedance merevolusi animasi manusia! Model baru ini, terperinci dalam kertas penyelidikan baru -baru ini, memanfaatkan seni bina pengubah penyebaran untuk menghasilkan video manusia yang sangat realistik dari satu imej dan input audio. Lupakan persediaan kompleks - Omnihuman memudahkan proses dan memberikan hasil yang lebih baik. Mari kita menyelam ke dalam butiran.

Jadual Kandungan

  • Batasan model animasi sedia ada
  • Penyelesaian Omnihuman-1: Pendekatan Multi-Modal
  • Contoh video omnihuman-1
  • latihan model dan seni bina
  • Strategi Latihan Omni-Conditions
  • Pengesahan dan Prestasi Eksperimen
  • Kajian ablasi: mengoptimumkan proses latihan
  • Hasil visual yang dilanjutkan: Menunjukkan fleksibiliti
  • Kesimpulan

Batasan model animasi manusia sedia ada

Model animasi manusia semasa sering mengalami batasan. Mereka sering bergantung pada dataset kecil, khusus, yang mengakibatkan animasi yang berkualiti rendah dan tidak fleksibel. Ramai perjuangan dengan generalisasi merentasi pelbagai konteks, kurang realisme dan ketidakstabilan. Ketergantungan pada modaliti input tunggal (mis., Hanya teks atau imej) dengan teruk mengehadkan keupayaan mereka untuk menangkap nuansa pergerakan dan ekspresi manusia.

Penyelesaian Omnihuman-1

Omnihuman-1 menangani cabaran-cabaran ini dengan pendekatan berbilang modal. Ia mengintegrasikan teks, audio, dan menimbulkan maklumat sebagai isyarat penyaman, mewujudkan animasi yang kaya dan realistik secara konteks. Reka bentuk omni-conditions yang inovatif mengekalkan identiti subjek dan butiran latar belakang dari imej rujukan, memastikan konsistensi. Strategi latihan yang unik memaksimumkan penggunaan data, mencegah prestasi yang berlebihan dan meningkatkan prestasi.

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

Contoh video omnihuman-1

omnihuman-1 menghasilkan video yang realistik dari hanya imej dan audio. Ia mengendalikan pelbagai gaya visual dan audio, menghasilkan video dalam sebarang nisbah aspek dan bahagian badan. Animasi yang dihasilkan mempunyai gerakan, pencahayaan, dan tekstur terperinci. (Nota: Imej rujukan ditinggalkan untuk keringkasan tetapi tersedia atas permintaan.)

bercakap

Penyemak imbas anda tidak menyokong tag video.

menyanyi

Penyemak imbas anda tidak menyokong tag video.

Kepelbagaian

Penyemak imbas anda tidak menyokong tag video.

kes separuh dengan tangan

Penyemak imbas anda tidak menyokong tag video.

Latihan dan Senibina Model

Latihan Omnihuman-1 memanfaatkan model penyebaran pelbagai syarat. Inti adalah model rumpai laut pra-terlatih (MMDIT Architecture), yang pada mulanya dilatih pada pasangan teks-video umum. Ini kemudian disesuaikan untuk penjanaan video manusia dengan mengintegrasikan isyarat teks, audio, dan menimbulkan isyarat. Autoencoder variasi 3D kausal (3DVAE) memproyeksikan video ke dalam ruang laten untuk mengutuk yang cekap. Senibina dengan bijak menggunakan semula proses denoising untuk mengekalkan identiti subjek dan latar belakang dari imej rujukan.

Gambar rajah arkitek model

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

Strategi Latihan Omni-Conditions

Proses tiga peringkat ini secara progresif menyempurnakan model penyebaran. Ia memperkenalkan modaliti penyaman (teks, audio, pose) secara berurutan, berdasarkan kekuatan korelasi gerakan mereka (lemah hingga kuat). Ini memastikan sumbangan seimbang dari setiap modaliti, mengoptimumkan kualiti animasi. Pengkondisian Audio menggunakan WAV2VEC untuk pengekstrakan ciri, dan Pose Conditioning mengintegrasikan Pose Heatmaps.

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

Pengesahan dan Prestasi Eksperimen

Kertas ini membentangkan pengesahan eksperimen yang ketat menggunakan dataset besar (18.7k jam data yang berkaitan dengan manusia). OmniHuman-1 mengatasi kaedah sedia ada di pelbagai metrik (IQA, ASE, Sync-C, FID, FVD), menunjukkan prestasi dan fleksibiliti unggulnya dalam mengendalikan konfigurasi input yang berbeza.

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1 kajian ablation: mengoptimumkan proses latihan

Kajian ablasi meneroka kesan nisbah data latihan yang berbeza untuk setiap modaliti. Ia mendedahkan nisbah optimum untuk data audio dan menimbulkan data, mengimbangi realisme dan pelbagai dinamik. Kajian ini juga menyoroti kepentingan nisbah imej rujukan yang mencukupi untuk mengekalkan identiti dan kesetiaan visual. Visualisasi dengan jelas menunjukkan kesan nisbah keadaan audio dan pose yang berbeza -beza.

Hasil visual yang dilanjutkan: Menunjukkan fleksibiliti ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

Hasil visual yang dilanjutkan mempamerkan keupayaan Omnihuman-1 untuk menghasilkan animasi yang pelbagai dan berkualiti tinggi, menonjolkan keupayaannya untuk mengendalikan pelbagai gaya, interaksi objek, dan senario yang didorong oleh Pose.

Kesimpulan

omnihuman-1 mewakili lonjakan yang ketara ke hadapan dalam generasi video manusia. Keupayaannya untuk mencipta animasi yang realistik dari input terhad dan keupayaan multi-modal menjadikannya pencapaian yang benar-benar luar biasa. Model ini bersedia untuk merevolusikan bidang animasi digital.

Atas ialah kandungan terperinci Bytedance hanya membuat video AI minda meniup! - Omnihuman 1. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn