cari
RumahPeranti teknologiAIPemilik atas telah mula bermain-main dengan sumber terbuka Tencent 'AniPortrait' untuk membenarkan foto menyanyi dan bercakap.

Model AniPortrait adalah sumber terbuka dan boleh dimainkan secara bebas.


"Alat produktiviti baharu untuk Zon Hantu Xiaopozhan

Baru-baru ini, projek baharu yang dikeluarkan oleh Tencent Open Source telah menerima penilaian sebegitu. Projek ini ialah AniPortrait, yang menjana potret animasi berkualiti tinggi berdasarkan audio dan imej rujukan.

Tanpa berlengah lagi, mari kita lihat demo yang mungkin diberi amaran oleh surat peguam: Pemilik atas telah mula bermain-main dengan sumber terbuka Tencent AniPortrait untuk membenarkan foto menyanyi dan bercakap.
Imej anime juga boleh bercakap dengan mudah: Pemilik atas telah mula bermain-main dengan sumber terbuka Tencent AniPortrait untuk membenarkan foto menyanyi dan bercakap. baru sahaja dibuat dalam talian

beberapa hari, dan ia telah pun Ia telah menerima pujian yang meluas: bilangan Bintang GitHub telah melebihi 2,800. Pemilik atas telah mula bermain-main dengan sumber terbuka Tencent AniPortrait untuk membenarkan foto menyanyi dan bercakap.

Mari kita lihat inovasi AniPortrait. Pemilik atas telah mula bermain-main dengan sumber terbuka Tencent AniPortrait untuk membenarkan foto menyanyi dan bercakap.

  • Tajuk kertas: AniPortrait: Sintesis Dipacu Audio bagi Animasi Potret Fotorealistik
  • Alamat kertas: https://arxiv.org/pdf/2403.17
  • .pdf
    :Co. /arxiv.org/pdf/2403.17694.pdf /github.com/Zejun-Yang/AniPortrait

AniPortrait

modul Audio yang dipromosikan
Lmk dan Lmk2Video.
Audio2Lmk digunakan untuk mengekstrak jujukan Mercu Tanda, yang boleh menangkap ekspresi muka dan pergerakan bibir yang kompleks daripada input audio. Lmk2Video menggunakan jujukan Mercu Tanda ini untuk menjana video potret berkualiti tinggi yang stabil sementara dan konsisten.

Rajah 1 memberikan gambaran keseluruhan rangka kerja AniPortrait. Pemilik atas telah mula bermain-main dengan sumber terbuka Tencent AniPortrait untuk membenarkan foto menyanyi dan bercakap.

🎜🎜
Audio2Lmk

Untuk urutan klip pertuturan, matlamat di sini ialah untuk meramalkan urutan mata 3D yang sepadan dan turutan gerak isyarat.

Pasukan menggunakan wav2vec terlatih untuk mengekstrak ciri audio. Model ini membuat generalisasi dengan baik dan boleh mengecam sebutan dan intonasi dengan tepat dalam audio - penting untuk menghasilkan animasi muka yang realistik. Dengan mengeksploitasi ciri pertuturan teguh yang diperolehi, ia boleh ditukar dengan cekap menjadi jerat muka 3D menggunakan seni bina ringkas yang terdiri daripada dua lapisan fc. Pasukan memerhatikan bahawa reka bentuk yang ringkas dan mudah ini bukan sahaja memastikan ketepatan tetapi juga meningkatkan kecekapan proses inferens.

Dalam tugas menukar audio kepada gerak isyarat, rangkaian tulang belakang yang digunakan oleh pasukan masih wav2vec yang sama. Walau bagaimanapun, berat rangkaian ini berbeza daripada rangkaian modul audio-ke-mesh. Ini kerana gerak isyarat lebih berkait rapat dengan irama dan pic dalam audio, manakala tugas audio-ke-grid memfokuskan pada fokus yang berbeza (sebutan dan intonasi). Untuk mengambil kira kesan keadaan sebelumnya, pasukan menggunakan penyahkod transformer untuk menyahkod urutan pose. Dalam proses ini, modul menggunakan mekanisme perhatian silang untuk menyepadukan ciri audio ke dalam penyahkod. Untuk dua modul di atas, fungsi kehilangan yang digunakan untuk latihan ialah kehilangan L1 yang mudah.

Selepas mendapatkan jujukan mesh dan pose, gunakan unjuran perspektif untuk menukarnya menjadi jujukan tanda tanda muka 2D. Mercu Tanda ini ialah isyarat input untuk peringkat seterusnya. . Proses animasi ini menjajarkan gerakan dengan jujukan Mercu Tanda sambil mengekalkan rupa yang konsisten dengan imej rujukan. Idea yang diterima pakai oleh pasukan adalah untuk mewakili animasi potret sebagai urutan bingkai potret.

Reka bentuk struktur rangkaian Lmk2Video ini diilhamkan oleh AnimateAnyone. Rangkaian tulang belakang ialah SD1.5, yang menyepadukan modul gerakan temporal yang secara berkesan menukar input hingar berbilang bingkai ke dalam urutan bingkai video.

Selain itu, mereka juga menggunakan ReferenceNet, yang juga menggunakan struktur SD1.5 Fungsinya adalah untuk mengekstrak maklumat penampilan imej rujukan dan mengintegrasikannya ke dalam rangkaian tulang belakang. Reka bentuk strategik ini memastikan Face ID kekal konsisten sepanjang video keluaran.

Tidak seperti AnimateAnyone, ini meningkatkan kerumitan reka bentuk PoseGuider. Versi asal baru sahaja menyepadukan beberapa lapisan konvolusi, dan kemudian ciri Mercu Tanda digabungkan dengan ciri terpendam lapisan input rangkaian tulang belakang. Pasukan Tencent mendapati bahawa reka bentuk asas ini tidak dapat menangkap pergerakan bibir yang kompleks. Oleh itu, mereka menggunakan strategi berbilang skala ControlNet: menyepadukan ciri Mercu Tanda skala yang sepadan ke dalam modul rangkaian tulang belakang yang berbeza. Walaupun terdapat peningkatan ini, bilangan parameter dalam model akhir masih agak rendah.

Pasukan juga memperkenalkan satu lagi peningkatan: menggunakan Tanda Tanda imej rujukan sebagai input tambahan. Modul silang perhatian PoseGuider memudahkan interaksi antara tanda tempat rujukan dan tanda tempat sasaran dalam setiap bingkai. Proses ini menyediakan rangkaian dengan petunjuk tambahan yang membolehkannya memahami hubungan antara tanda tempat muka dan penampilan, yang boleh membantu animasi potret menjana pergerakan yang lebih tepat.

Eksperimen

Butiran pelaksanaan
Rangkaian tulang belakang yang digunakan dalam peringkat Audio2Lmk adalah wa Alat yang digunakan untuk mengekstrak jerat 3D dan pose 6D ialah MediaPipe. Data latihan Audio2Mesh datang daripada set data dalaman Tencent, yang mengandungi hampir sejam data pertuturan berkualiti tinggi daripada satu pembesar suara.

Untuk memastikan kestabilan jaringan 3D yang diekstrak oleh MediaPipe, kedudukan kepala pelaku adalah stabil dan menghadap kamera semasa rakaman. Latihan Audio2Pose menggunakan HDTF. Semua operasi latihan dilakukan pada A100 tunggal, menggunakan pengoptimum Adam, dan kadar pembelajaran ditetapkan kepada 1e-5.

Proses Lmk2Video menggunakan kaedah latihan dua langkah.

Fasa langkah awal memfokuskan pada latihan rangkaian tulang belakang ReferenceNet dan komponen 2D PoseGuider, tanpa mengira modul gerakan. Dalam langkah seterusnya, semua komponen lain akan dibekukan untuk memberi tumpuan kepada latihan modul gerakan. Untuk melatih model, dua set data video muka berkualiti tinggi berskala besar digunakan di sini: VFHQ dan CelebV-HQ. Semua data dihantar melalui MediaPipe untuk mengekstrak tanda tempat muka 2D. Untuk meningkatkan kepekaan rangkaian terhadap pergerakan bibir, pendekatan pasukan adalah untuk menganotasi bibir atas dan bawah dengan warna yang berbeza apabila memaparkan imej pose berdasarkan Mercu Tanda 2D.

Semua imej telah diubah saiznya kepada 512x512.Model ini dilatih menggunakan 4 GPU A100, dengan setiap langkah mengambil masa 2 hari. Pengoptimum ialah AdamW dan kadar pembelajaran ditetapkan pada 1e-5.

Hasil eksperimen

Seperti yang ditunjukkan dalam Rajah 2, animasi yang diperolehi melalui kaedah baharu adalah cemerlang dalam kualiti dan realisme.

Pemilik atas telah mula bermain-main dengan sumber terbuka Tencent AniPortrait untuk membenarkan foto menyanyi dan bercakap.

Selain itu, pengguna boleh mengedit perwakilan 3D di tengah untuk mengubah suai output akhir. Sebagai contoh, pengguna boleh mengekstrak Mercu Tanda daripada sumber dan mengubah suai maklumat ID mereka untuk mencapai pembiakan muka, seperti yang ditunjukkan dalam video berikut: Pemilik atas telah mula bermain-main dengan sumber terbuka Tencent AniPortrait untuk membenarkan foto menyanyi dan bercakap.Sila rujuk kertas asal untuk mendapatkan butiran lanjut.

Atas ialah kandungan terperinci Pemilik atas telah mula bermain-main dengan sumber terbuka Tencent 'AniPortrait' untuk membenarkan foto menyanyi dan bercakap.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:机器之心. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Bahaya Tersembunyi Penggunaan Dalaman AI: Jurang Tadbir Urus dan Risiko BencanaBahaya Tersembunyi Penggunaan Dalaman AI: Jurang Tadbir Urus dan Risiko BencanaApr 28, 2025 am 11:12 AM

Penyebaran dalaman yang tidak terkawal sistem AI yang canggih menimbulkan risiko yang signifikan, menurut laporan baru dari Apollo Research. Kekurangan pengawasan ini, lazim di kalangan firma AI utama, membolehkan hasil yang berpotensi bencana, mulai dari UNCON

Membina polygraph AIMembina polygraph AIApr 28, 2025 am 11:11 AM

Pengesan kebohongan tradisional sudah lapuk. Bergantung pada penunjuk yang disambungkan oleh gelang tangan, pengesan kebohongan yang mencetak tanda -tanda penting subjek dan tindak balas fizikal tidak tepat dalam mengenal pasti kebohongan. Inilah sebabnya mengapa keputusan pengesanan kebohongan biasanya tidak diterima pakai oleh mahkamah, walaupun ia telah membawa kepada banyak orang yang tidak bersalah yang dipenjara. Sebaliknya, kecerdasan buatan adalah enjin data yang kuat, dan prinsip kerja adalah untuk memerhatikan semua aspek. Ini bermakna saintis boleh menggunakan kecerdasan buatan kepada aplikasi yang mencari kebenaran melalui pelbagai cara. Satu pendekatan adalah untuk menganalisis tindak balas penting orang yang diinterogasi seperti pengesan dusta, tetapi dengan analisis perbandingan yang lebih terperinci dan tepat. Pendekatan lain adalah menggunakan markup linguistik untuk menganalisis apa yang orang katakan dan menggunakan logik dan penalaran. Seperti kata pepatah, satu pembohongan membiak kebohongan yang lain, dan akhirnya

Adakah AI dibersihkan untuk berlepas dalam industri aeroangkasa?Adakah AI dibersihkan untuk berlepas dalam industri aeroangkasa?Apr 28, 2025 am 11:10 AM

Industri aeroangkasa, perintis inovasi, memanfaatkan AI untuk menangani cabaran yang paling rumit. Kerumitan Peningkatan Penerbangan Moden memerlukan automasi dan keupayaan perisikan masa nyata AI untuk keselamatan yang dipertingkatkan, dikurangkan oper

Menonton Perlumbaan Robot Spring BeijingMenonton Perlumbaan Robot Spring BeijingApr 28, 2025 am 11:09 AM

Perkembangan pesat robotik telah membawa kita kajian kes yang menarik. Robot N2 dari Noetix beratnya lebih dari 40 paun dan tinggi 3 kaki dan dikatakan dapat backflip. Robot G1 Unitree berat kira -kira dua kali saiz N2 dan kira -kira 4 kaki tinggi. Terdapat juga banyak robot humanoid yang lebih kecil yang menyertai pertandingan ini, dan terdapat juga robot yang didorong ke hadapan oleh peminat. Tafsiran data Setengah maraton menarik lebih daripada 12,000 penonton, tetapi hanya 21 robot humanoid yang mengambil bahagian. Walaupun kerajaan menegaskan bahawa robot yang mengambil bahagian menjalankan "latihan intensif" sebelum pertandingan, tidak semua robot menyelesaikan keseluruhan persaingan. Champion - Tiangong Ult Dibangunkan oleh Pusat Inovasi Robot Humanoid Beijing

Perangkap Cermin: Etika AI dan keruntuhan imaginasi manusiaPerangkap Cermin: Etika AI dan keruntuhan imaginasi manusiaApr 28, 2025 am 11:08 AM

Kecerdasan buatan, dalam bentuknya sekarang, tidak benar -benar pintar; Ia mahir meniru dan menyempurnakan data sedia ada. Kami tidak mewujudkan kecerdasan buatan, tetapi sebaliknya kesimpulan buatan -merapikan yang memproses maklumat, sementara manusia su

New Google Leak mendedahkan kemas kini ciri Google Photos yang bergunaNew Google Leak mendedahkan kemas kini ciri Google Photos yang bergunaApr 28, 2025 am 11:07 AM

Laporan mendapati bahawa antara muka yang dikemas kini disembunyikan dalam kod untuk Google Photos Android versi 7.26, dan setiap kali anda melihat foto, satu baris lakaran muka yang baru dikesan dipaparkan di bahagian bawah skrin. Thumbnail wajah baru adalah tag nama yang hilang, jadi saya mengesyaki anda perlu mengkliknya secara individu untuk melihat lebih banyak maklumat mengenai setiap orang yang dikesan. Buat masa ini, ciri ini tidak memberikan maklumat selain daripada orang -orang yang ditemui oleh Google Foto dalam imej anda. Ciri ini belum tersedia, jadi kami tidak tahu bagaimana Google akan menggunakannya dengan tepat. Google boleh menggunakan gambar kecil untuk mempercepatkan mencari lebih banyak gambar orang terpilih, atau boleh digunakan untuk tujuan lain, seperti memilih individu untuk mengedit. Mari tunggu dan lihat. Buat masa ini

Panduan untuk Finetuning Pengukuhan - Analytics VidhyaPanduan untuk Finetuning Pengukuhan - Analytics VidhyaApr 28, 2025 am 09:30 AM

Penguatkuasaan penguatkuasaan telah mengguncang pembangunan AI dengan mengajar model untuk menyesuaikan berdasarkan maklum balas manusia. Ia menggabungkan asas pembelajaran yang diawasi dengan kemas kini berasaskan ganjaran untuk menjadikannya lebih selamat, lebih tepat, dan benar-benar membantu

Let's Dance: Gerakan berstruktur untuk menyempurnakan jaring saraf manusia kitaLet's Dance: Gerakan berstruktur untuk menyempurnakan jaring saraf manusia kitaApr 27, 2025 am 11:09 AM

Para saintis telah mengkaji secara meluas rangkaian saraf manusia dan mudah (seperti yang ada di C. elegans) untuk memahami fungsi mereka. Walau bagaimanapun, soalan penting timbul: Bagaimana kita menyesuaikan rangkaian saraf kita sendiri untuk berfungsi dengan berkesan bersama -sama dengan novel AI s

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

SublimeText3 versi Inggeris

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

MantisBT

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

SecLists

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.