Rumah >Peranti teknologi >AI >MotionClone: Tiada latihan diperlukan, pengklonan satu klik pergerakan video

MotionClone: Tiada latihan diperlukan, pengklonan satu klik pergerakan video

PHPzasal: 2024-07-18 17:06:121002semak imbas

MotionClone: Tiada latihan diperlukan, pengklonan satu klik pergerakan video

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Tiada latihan atau penalaan halus diperlukan atau pergerakan badan tempatan dengan satu klik untuk menyelesaikannya. MotionClone: Tiada latihan diperlukan, pengklonan satu klik pergerakan video

Kertas: https://arxiv.org/abs/2406.05338
Laman utama: https://bujiazi.github.io/motionclone.github.io/
github.com/Bujiazi/MotionClone

Artikel ini mencadangkan rangka kerja baharu yang dipanggil MotionClone Memandangkan sebarang video rujukan, maklumat gerakan yang sepadan boleh diekstrak tanpa latihan model atau maklumat gerakan ini secara langsung boleh membimbing penjanaan baharu video bersama dengan gesaan teks untuk mencapai video yang dihasilkan teks dengan gerakan tersuai (text2video).

MotionClone: Tiada latihan diperlukan, pengklonan satu klik pergerakan video

Berbanding dengan penyelidikan terdahulu, MotionClone mempunyai kelebihan berikut:

Tiada latihan atau penalaan halus diperlukan: Kaedah sebelumnya biasanya memerlukan model latihan untuk mengekod isyarat gerakan atau model resapan video penalaan halus agar sesuai dengan corak gerakan tertentu . Model latihan untuk mengekod isyarat gerakan mempunyai keupayaan generalisasi yang lemah untuk bergerak di luar domain latihan, dan memperhalusi model penjanaan video sedia ada boleh merosakkan kualiti penjanaan video asas model asas. MotionClone tidak memerlukan pengenalan sebarang latihan tambahan atau penalaan halus, meningkatkan keupayaan generalisasi gerakan sambil mengekalkan kualiti penjanaan model asas ke tahap yang terbaik.
Kualiti gerakan yang lebih tinggi: Sukar untuk model video Wensheng sumber terbuka sedia ada untuk menjana pergerakan yang besar dan munasabah memperkenalkan panduan gerakan perhatian pemasaan komponen utama untuk meningkatkan amplitud gerakan video yang dijana dengan berkesan sambil memastikan pergerakan yang rasional.
Hubungan kedudukan spatial yang lebih baik: Untuk mengelakkan ketidakpadanan semantik spatial yang mungkin disebabkan oleh pengklonan gerakan langsung, MotionClone mencadangkan panduan maklumat semantik spatial berdasarkan topeng perhatian silang untuk membantu dalam maklumat semantik spatial dan maklumat spatiotemporal yang betul gandingan.

Maklumat gerakan dalam modul perhatian temporal

MotionClone: Tiada latihan diperlukan, pengklonan satu klik pergerakan video

Dalam kerja video janaan teks, modul perhatian temporal (Perhatian Temporal) digunakan secara meluas untuk memodelkan korelasi antara bingkai video. Memandangkan skor perhatian (skor peta perhatian) dalam modul perhatian temporal mencirikan korelasi antara bingkai, idea intuitif ialah sama ada sambungan antara bingkai boleh direplikasi dengan mengekang skor perhatian supaya konsisten sepenuhnya untuk mencapai pengklonan gerakan.

Walau bagaimanapun, eksperimen mendapati bahawa menyalin terus peta perhatian yang lengkap (kawalan biasa) hanya boleh mencapai pemindahan gerakan yang sangat kasar Ini kerana kebanyakan pemberat dalam perhatian sepadan dengan bunyi atau maklumat gerakan yang sangat halus, yang sukar untuk Digabungkan. ini dengan senario baharu yang ditentukan teks, sebaliknya, mengaburkan panduan pergerakan yang berpotensi berkesan.

Untuk menyelesaikan masalah ini, MotionClone memperkenalkan mekanisme panduan perhatian temporal komponen utama (Panduan perhatian temporal utama), yang hanya menggunakan komponen utama dalam perhatian temporal untuk membimbing penjanaan video secara jarang, dengan itu menapis bunyi dan pergerakan halus. kesan maklumat membolehkan pengklonan gerakan yang berkesan dalam senario baharu yang ditentukan oleh teks.

MotionClone: Tiada latihan diperlukan, pengklonan satu klik pergerakan video

Pembetulan semantik spatial

Panduan gerakan perhatian temporal komponen utama boleh mencapai pengklonan gerakan video rujukan, tetapi ia tidak dapat memastikan subjek yang bergerak konsisten dengan niat pengguna, yang akan mengurangkan kualiti penjanaan video . Dalam sesetengah kes, ia mungkin menyebabkan terkehel subjek yang bergerak.

Untuk menyelesaikan masalah di atas, MotionClone memperkenalkan mekanisme bimbingan semantik spatial (panduan semantik sedar lokasi), membahagikan kawasan latar belakang depan dan belakang video melalui Topeng Perhatian Silang, dan menjaminnya dengan mengekang maklumat semantik masing-masing daripada latar belakang hadapan dan belakang video Susun atur rasional semantik spatial menggalakkan gandingan gerakan temporal dan semantik spatial yang betul.

Butiran pelaksanaan MotionClone

MotionClone: Tiada latihan diperlukan, pengklonan satu klik pergerakan video

🎜

DDIM Inversion: MotionClone menggunakan DDIM Inversion untuk menyongsangkan video rujukan input ke dalam ruang terpendam untuk melaksanakan pengekstrakan komponen utama perhatian sementara bagi video rujukan.
Peringkat bimbingan: Semasa setiap denoising, MotionClone pada masa yang sama memperkenalkan panduan gerakan perhatian temporal komponen utama dan panduan maklumat semantik spatial, yang bekerjasama untuk menyediakan gerakan komprehensif dan panduan semantik untuk penjanaan video yang boleh dikawal.
Topeng Gaussian: Dalam mekanisme bimbingan semantik spatial, fungsi kernel Gaussian digunakan untuk mengaburkan topeng perhatian silang untuk menghapuskan pengaruh maklumat struktur yang berpotensi.

30 video daripada set data DAVIS telah digunakan untuk ujian. Keputusan eksperimen menunjukkan bahawa MotionClone telah mencapai peningkatan yang ketara dalam kesesuaian teks, ketekalan masa dan penunjuk tinjauan pengguna berbilang, mengatasi kaedah pemindahan gerakan sebelumnya. Keputusan khusus ditunjukkan dalam jadual di bawah.

MotionClone: Tiada latihan diperlukan, pengklonan satu klik pergerakan video

Perbandingan hasil penjanaan MotionClone dan kaedah migrasi gerakan sedia ada ditunjukkan dalam rajah di bawah. Dapat dilihat bahawa MotionClone mempunyai prestasi yang terkemuka.

MotionClone: Tiada latihan diperlukan, pengklonan satu klik pergerakan video

Ringkasnya, MotionClone ialah rangka kerja pemindahan gerakan baharu yang boleh mengklon gerakan secara berkesan dalam video rujukan kepada adegan baharu yang ditentukan oleh kata gesaan yang diberikan pengguna tanpa latihan atau penalaan halus penyelesaian penyesuaian gerakan untuk model video Vincent sedia ada.

MotionClone memperkenalkan panduan maklumat gerakan komponen utama yang cekap dan panduan semantik spatial atas dasar mengekalkan kualiti penjanaan model asas sedia ada, yang meningkatkan konsistensi gerakan dengan video rujukan dengan ketara sambil memastikan keupayaan penjajaran semantik dengan teks mencapai penjanaan video berkualiti tinggi dan boleh dikawal.

Selain itu, MotionClone boleh menyesuaikan secara langsung kepada model komuniti yang kaya untuk mencapai penjanaan video yang pelbagai, dan mempunyai kebolehskalaan yang sangat tinggi.

Atas ialah kandungan terperinci MotionClone: Tiada latihan diperlukan, pengklonan satu klik pergerakan video. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

map location github https

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Lagu baru untuk manusia meniru AI, AI: Apabila ia datang kepada kegilaan, anda adalah bapa sayaArtikel seterusnya：Lagu baru untuk manusia meniru AI, AI: Apabila ia datang kepada kegilaan, anda adalah bapa saya

Artikel berkaitan

Lihat lagi