Bytedance hanya membuat video AI minda meniup!

Rumah

Peranti teknologi

Bytedance hanya membuat video AI minda meniup! - Omnihuman 1

Jennifer Aniston

Mar 06, 2025 pm 12:09 PM

rangka kerja omnihuman-1 Bytedance merevolusi animasi manusia! Model baru ini, terperinci dalam kertas penyelidikan baru -baru ini, memanfaatkan seni bina pengubah penyebaran untuk menghasilkan video manusia yang sangat realistik dari satu imej dan input audio. Lupakan persediaan kompleks - Omnihuman memudahkan proses dan memberikan hasil yang lebih baik. Mari kita menyelam ke dalam butiran.

Jadual Kandungan

Batasan model animasi sedia ada
Penyelesaian Omnihuman-1: Pendekatan Multi-Modal
Contoh video omnihuman-1
latihan model dan seni bina
Strategi Latihan Omni-Conditions
Pengesahan dan Prestasi Eksperimen
Kajian ablasi: mengoptimumkan proses latihan
Hasil visual yang dilanjutkan: Menunjukkan fleksibiliti
Kesimpulan

Batasan model animasi manusia sedia ada

Model animasi manusia semasa sering mengalami batasan. Mereka sering bergantung pada dataset kecil, khusus, yang mengakibatkan animasi yang berkualiti rendah dan tidak fleksibel. Ramai perjuangan dengan generalisasi merentasi pelbagai konteks, kurang realisme dan ketidakstabilan. Ketergantungan pada modaliti input tunggal (mis., Hanya teks atau imej) dengan teruk mengehadkan keupayaan mereka untuk menangkap nuansa pergerakan dan ekspresi manusia.

Penyelesaian Omnihuman-1

Omnihuman-1 menangani cabaran-cabaran ini dengan pendekatan berbilang modal. Ia mengintegrasikan teks, audio, dan menimbulkan maklumat sebagai isyarat penyaman, mewujudkan animasi yang kaya dan realistik secara konteks. Reka bentuk omni-conditions yang inovatif mengekalkan identiti subjek dan butiran latar belakang dari imej rujukan, memastikan konsistensi. Strategi latihan yang unik memaksimumkan penggunaan data, mencegah prestasi yang berlebihan dan meningkatkan prestasi.

Contoh video omnihuman-1

omnihuman-1 menghasilkan video yang realistik dari hanya imej dan audio. Ia mengendalikan pelbagai gaya visual dan audio, menghasilkan video dalam sebarang nisbah aspek dan bahagian badan. Animasi yang dihasilkan mempunyai gerakan, pencahayaan, dan tekstur terperinci. (Nota: Imej rujukan ditinggalkan untuk keringkasan tetapi tersedia atas permintaan.)

bercakap

Penyemak imbas anda tidak menyokong tag video.

menyanyi

Penyemak imbas anda tidak menyokong tag video.

Kepelbagaian

Penyemak imbas anda tidak menyokong tag video.

kes separuh dengan tangan

Penyemak imbas anda tidak menyokong tag video.

Latihan dan Senibina Model

Latihan Omnihuman-1 memanfaatkan model penyebaran pelbagai syarat. Inti adalah model rumpai laut pra-terlatih (MMDIT Architecture), yang pada mulanya dilatih pada pasangan teks-video umum. Ini kemudian disesuaikan untuk penjanaan video manusia dengan mengintegrasikan isyarat teks, audio, dan menimbulkan isyarat. Autoencoder variasi 3D kausal (3DVAE) memproyeksikan video ke dalam ruang laten untuk mengutuk yang cekap. Senibina dengan bijak menggunakan semula proses denoising untuk mengekalkan identiti subjek dan latar belakang dari imej rujukan.

Gambar rajah arkitek model

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

Strategi Latihan Omni-Conditions

Proses tiga peringkat ini secara progresif menyempurnakan model penyebaran. Ia memperkenalkan modaliti penyaman (teks, audio, pose) secara berurutan, berdasarkan kekuatan korelasi gerakan mereka (lemah hingga kuat). Ini memastikan sumbangan seimbang dari setiap modaliti, mengoptimumkan kualiti animasi. Pengkondisian Audio menggunakan WAV2VEC untuk pengekstrakan ciri, dan Pose Conditioning mengintegrasikan Pose Heatmaps.

Pengesahan dan Prestasi Eksperimen

Kertas ini membentangkan pengesahan eksperimen yang ketat menggunakan dataset besar (18.7k jam data yang berkaitan dengan manusia). OmniHuman-1 mengatasi kaedah sedia ada di pelbagai metrik (IQA, ASE, Sync-C, FID, FVD), menunjukkan prestasi dan fleksibiliti unggulnya dalam mengendalikan konfigurasi input yang berbeza.

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1 kajian ablation: mengoptimumkan proses latihan

Kajian ablasi meneroka kesan nisbah data latihan yang berbeza untuk setiap modaliti. Ia mendedahkan nisbah optimum untuk data audio dan menimbulkan data, mengimbangi realisme dan pelbagai dinamik. Kajian ini juga menyoroti kepentingan nisbah imej rujukan yang mencukupi untuk mengekalkan identiti dan kesetiaan visual. Visualisasi dengan jelas menunjukkan kesan nisbah keadaan audio dan pose yang berbeza -beza.

Hasil visual yang dilanjutkan: Menunjukkan fleksibiliti ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

Hasil visual yang dilanjutkan mempamerkan keupayaan Omnihuman-1 untuk menghasilkan animasi yang pelbagai dan berkualiti tinggi, menonjolkan keupayaannya untuk mengendalikan pelbagai gaya, interaksi objek, dan senario yang didorong oleh Pose.

Kesimpulan

omnihuman-1 mewakili lonjakan yang ketara ke hadapan dalam generasi video manusia. Keupayaannya untuk mencipta animasi yang realistik dari input terhad dan keupayaan multi-modal menjadikannya pencapaian yang benar-benar luar biasa. Model ini bersedia untuk merevolusikan bidang animasi digital.

Atas ialah kandungan terperinci Bytedance hanya membuat video AI minda meniup! - Omnihuman 1. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Mengapa Sam Altman dan Lain -lain kini menggunakan getaran sebagai tolok baru untuk kemajuan terkini di AIMay 06, 2025 am 11:12 AM

Mari kita bincangkan peningkatan penggunaan "getaran" sebagai metrik penilaian dalam bidang AI. Analisis ini adalah sebahagian daripada lajur Forbes saya yang berterusan mengenai kemajuan AI, meneroka aspek kompleks pembangunan AI (lihat pautan di sini). Getaran dalam penilaian AI Tradi

Di dalam kilang Waymo membina masa depan robotaxiMay 06, 2025 am 11:11 AM

Kilang Arizona Waymo: Jaguars Memandu Sendiri Massa dan Beyond Terletak berhampiran Phoenix, Arizona, Waymo mengendalikan kemudahan canggih yang menghasilkan armada SUV elektrik Jaguar I-Pace autonomi. Kilang 239,000 kaki persegi ini, dibuka

Di dalam S & P Global Transformasi yang Didorong Data dengan AI di TerasMay 06, 2025 am 11:10 AM

Pegawai Penyelesaian Digital Ketua S & P Global, Jigar Kocherlakota, membincangkan perjalanan AI syarikat, pengambilalihan strategik, dan transformasi digital yang fokus pada masa depan. Peranan Kepimpinan Transformatif dan Pasukan Siap Masa Depan Peranan Kocherlakota

Kebangkitan Super-Apps: 4 langkah untuk berkembang dalam ekosistem digitalMay 06, 2025 am 11:09 AM

Dari aplikasi ke ekosistem: Menavigasi landskap digital Revolusi digital melangkaui media sosial dan AI. Kami menyaksikan kebangkitan "segala aplikasi" -ekosistem digital yang mengintegrasikan semua aspek kehidupan. Sam a

MasterCard dan Visa melepaskan ejen AI untuk berbelanja untuk andaMay 06, 2025 am 11:08 AM

Bayar Ejen MasterCard: Pembayaran berkuasa AI merevolusikan perdagangan Walaupun keupayaan urus niaga AI yang berkuasa Visa menjadi tajuk utama, MasterCard telah melancarkan Bayar Ejen, sistem pembayaran Ai-asli yang lebih maju yang dibina atas tokenisasi, kepercayaan, dan agentik

Backing the Bold: Buku Play Inovasi Transformatif Ventures Masa DepanMay 06, 2025 am 11:07 AM

Dana Ventures Masa Depan IV: Taruhan $ 200 juta pada Teknologi Novel Ventures masa depan baru -baru ini menutup dana yang dilburkan IVnya, berjumlah $ 200 juta. Dana baru ini, yang dikendalikan oleh Steve Jurvetson, Maryanna Saenko, dan Nico Enriquez, mewakili Inv yang penting

Ketika penggunaan AI, syarikat beralih dari SEO ke GEOMay 05, 2025 am 11:09 AM

Dengan letupan aplikasi AI, perusahaan beralih dari pengoptimuman enjin carian tradisional (SEO) kepada pengoptimuman enjin generatif (GEO). Google mengetuai peralihan. Ciri "AI Gambaran Keseluruhan" telah berkhidmat lebih dari satu bilion pengguna, memberikan jawapan penuh sebelum pengguna mengklik pada pautan. [^2] Peserta lain juga meningkat dengan pesat. Chatgpt, Microsoft Copilot dan kebingungan mencipta kategori "enjin jawapan" baru yang sepenuhnya memintas hasil carian tradisional. Sekiranya perniagaan anda tidak muncul dalam jawapan yang dihasilkan oleh AI ini, pelanggan berpotensi tidak dapat menemui anda-walaupun anda berpangkat tinggi dalam hasil carian tradisional. Dari SEO ke GEO - apa sebenarnya maksudnya? Selama beberapa dekad

Pertaruhan besar di mana laluan ini akan mendorong AI hari ini untuk menjadi AGI yang berhargaMay 05, 2025 am 11:08 AM

Mari kita meneroka jalan yang berpotensi untuk kecerdasan umum buatan (AGI). Analisis ini adalah sebahagian daripada lajur Forbes saya yang berterusan mengenai kemajuan AI, menyelidiki kerumitan mencapai AGI dan Superintelligence Buatan (ASI). (Lihat Seni Berkaitan

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

3 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

3 minggu yang laluByDDD

<🎜>: Rails Dead - Cara menjinakkan serigala

4 minggu yang laluByDDD

Tahap kekuatan untuk setiap musuh & raksasa di R.E.P.O.

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

2 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),