Rumah  >  Artikel  >  Peranti teknologi  >  Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

WBOY
WBOYke hadapan
2023-04-11 21:04:111797semak imbas

AIGC mempunyai keajaiban baharu!

Tiada tangan K, tangkapan kebiasaan atau tangkapan cahaya diperlukan hanya menyediakan video dan perisian tangkapan gerakan AI ini boleh mengeluarkan pergerakan secara automatik. Hanya dalam beberapa minit, animasi manusia maya siap.

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Bukan sahaja pergerakan rangka besar anggota badan, malah butiran tangan boleh ditangkap dengan tepat.

Selain video paparan tunggal, ia juga boleh menyokong video berbilang paparan Berbanding dengan perisian tangkapan gerakan lain yang hanya menyokong pengecaman monokular, perisian ini boleh memberikan kualiti tangkapan gerakan yang lebih tinggi.

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Pada masa yang sama, perisian ini juga menyokong penyuntingan dan pengubahsuaian titik penting badan manusia yang diiktiraf, kelancaran, butiran jejak, dsb. Ia boleh memenuhi segala-galanya daripada pengalaman minat pemain biasa kepada keperluan profesional pemain tegar.

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Ini adalah AIxPose yang NetEase Interactive Entertainment AI Lab telah berakar umbi selama bertahun-tahun, digabungkan dengan maklum balas seni profesional , pengoptimuman berulang berterusan dan pembangunan rendah perisian tangkapan gerakan video. Dilaporkan bahawa perisian itu telah memproses lebih daripada berpuluh-puluh jam sumber video dan telah digunakan dalam proses pengeluaran animasi plot permainan, animasi tarian popular dan sumber lain. Ia telah disahkan oleh projek sebenar bahawa animasi tarian 1 minit mungkin mengambil masa lebih daripada 20 hari untuk dihasilkan dengan tangan, tetapi hanya mengambil masa 3 hari untuk menghasilkan dengan bantuan AIxPose, dan keseluruhan proses dipendekkan sebanyak lebih daripada 80%.

Baru-baru ini, NetEase Interactive Entertainment AI Lab telah menyusun kertas kerja "Learning Analytical Posterior Probability" berdasarkan pengalamannya dalam membangunkan perisian ini dan kerja penyelidikan berkaitan dalam bidang tangkapan gerakan untuk Human Mesh Pemulihan" telah diterima oleh CVPR 2023, persidangan penglihatan komputer teratas.

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

  • Alamat laman utama: https://netease-gameai.github.io/ProPose/
  • Alamat kertas: https://netease-gameai.github.io/ProPose/static/assets/CVPR2023_ProPose.pdf

Kertas kerja ini secara inovatif mencadangkan ProPose, teknologi tangkapan gerakan video berdasarkan kebarangkalian posterior, yang boleh mencapai anggaran pose manusia tiga dimensi yang tepat di bawah tetapan berbeza seperti imej tunggal dan gabungan berbilang sensor. Ketepatan teknikal adalah 19% lebih tinggi daripada kaedah probabilistik garis dasar menggunakan priors dan mengatasi kaedah lalu pada set data awam 3DPW, Human3.6M dan AGORA. Selain itu, untuk tugas gabungan berbilang sensor, teknologi ini juga boleh mencapai ketepatan yang lebih tinggi daripada model garis dasar tanpa mengubah suai tulang belakang rangkaian saraf kerana pengenalan sensor baharu.

Latar Belakang Teknikal

Tugas penyelidikan ini adalah untuk meramal postur dan bentuk manusia (human mesh recovery, hmr) daripada imej RGB Kaedah sedia ada boleh diringkaskan dua Kategori: kaedah langsung dan kaedah tidak langsung. Kaedah langsung menggunakan rangkaian saraf untuk mengundur perwakilan putaran sendi manusia hujung-ke-hujung (seperti sudut paksi, matriks putaran, vektor 6D, dll.), manakala kaedah tidak langsung meramalkan beberapa perwakilan pertengahan (seperti tiga- titik utama dimensi, segmentasi, dsb.), dan kemudian melepasi perantaraan ini Menunjukkan bahawa putaran sendi diperolehi.

Walau bagaimanapun, kedua-dua jenis kaedah mempunyai beberapa masalah. Untuk kaedah langsung, kerana kaedah jenis ini memerlukan rangkaian untuk mempelajari secara langsung perwakilan abstrak seperti putaran, berbanding dengan mata pelajaran utama dan segmentasi, putaran pembelajaran agak sukar, jadi hasil output oleh rangkaian kadang-kadang sukar untuk diselaraskan dengan imej dan tidak boleh diselesaikan Beberapa pergerakan besar, seperti kaki kanan di baris pertama dalam gambar di bawah (a) tidak boleh dipanjangkan sepenuhnya. Sebaliknya, kaedah tidak langsung secara amnya menghasilkan ketepatan yang lebih tinggi, tetapi prestasi kaedah jenis ini sangat bergantung pada ketepatan perwakilan pertengahan Apabila perwakilan perantaraan menghasilkan ralat akibat hingar, adalah mudah untuk putaran akhir kelihatan agak jelas. ralat, seperti yang ditunjukkan di sebelah kiri baris kedua dalam (b) di bawah.

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Selain kaedah penentuan yang disebutkan di atas, terdapat juga beberapa kaedah untuk memodelkan ketidakpastian postur manusia dengan mempelajari taburan kebarangkalian tertentu, dengan itu Ambil bunyi bising diambil kira untuk meningkatkan keteguhan sistem. Pada masa ini, kaedah pemodelan kebarangkalian utama termasuk taburan Gaussian multivariate, aliran normal, pemodelan tersirat rangkaian saraf, dsb., tetapi taburan kebarangkalian pada bukan SO (3) ini tidak boleh benar-benar mencerminkan ketidakpastian putaran sendi. Sebagai contoh, apabila ketidakpastian adalah besar, andaian lineariti tempatan bagi taburan Gaussian pada SO (3) tidak berlaku. Kerja baru-baru ini secara langsung menggunakan rangkaian untuk mempelajari parameter taburan matriks Fisher Walaupun ini adalah taburan pada SO (3), kaedah pembelajaran kaedah ini adalah serupa dengan kaedah langsung, dan prestasi penumpuan tidak boleh dibandingkan dengan. kaedah tidak langsung yang sedia ada.

Untuk mengambil kira ketepatan dan keteguhan yang tinggi serta meningkatkan prestasi kaedah kebarangkalian, ProPose memperoleh kebarangkalian analitikal posterior putaran sendi, yang bukan sahaja boleh mendapat manfaat daripada perubahan yang dibawa. oleh pembolehubah pemerhatian yang berbeza Dengan ketepatan yang tinggi, ia juga boleh mengukur ketidakpastian dan mengurangkan kesan hingar pada algoritma sebanyak mungkin. Seperti yang ditunjukkan dalam rajah di bawah, untuk imej input, ProPose boleh mengukur ketidakpastian putaran sendi dalam pelbagai arah melalui taburan kebarangkalian keluaran pada tahap tertentu, seperti putaran tangan kanan di sepanjang paksi lengan, arah lengan kiri dihayun ke atas dan ke bawah, dan betis kiri Tahap jarak, dsb.

Pelaksanaan Teknikal

Pemodelan Manusia

Kajian ini menjalankan pembinaan kebarangkalian modul postur manusia , matlamatnya adalah untuk mencari kebarangkalian posterior p (R|d,⋯) putaran sendi R di bawah beberapa pembolehubah yang diperhatikan (seperti orientasi tulang d, dsb.).

Khususnya, memandangkan putaran sendi badan manusia terletak pada SO (3), dan orientasi tulang unit sendi kanak-kanak berbanding dengan sendi induk terletak pada S^2 , ia boleh berdasarkan dua ini Menganalisis taburan kebarangkalian pada manifold.

Pertama sekali, taburan Fisher matriks MF (⋅) pada SO (3) boleh digunakan sebagai taburan terdahulu bagi putaran sendi R, seperti yang ditunjukkan dalam formula berikut, F ∈R^(3×3 ) ialah parameter taburan, c (F) ialah pemalar penormalan, dan tr mewakili surih matriks.

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Seperti yang ditunjukkan dalam formula berikut, F boleh diselesaikan secara langsung untuk min M dan istilah pengagregatan yang mewakili darjah pengagregatan pengedaran melalui penguraian SVD K. Antaranya, Δ=diag (1,1,|UV|) ialah matriks ortogon pepenjuru, yang digunakan untuk memastikan penentu M ialah 1, supaya ia boleh jatuh dalam kumpulan ortogonal khas.

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Kedua, memandangkan orientasi tulang boleh dikira melalui putaran sendi, putaran sendi R boleh dianggap sebagai Pembolehubah tersirat, orientasi tulang d digunakan sebagai pembolehubah pemerhatian Di bawah keadaan R yang diberikan, orientasi unit d pada S^2 mematuhi taburan von Mises-Fisher:

. Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Antaranya, κ∈R dan d∈S^2 ialah istilah pengagregatan dan min bagi taburan masing-masing, l ialah orientasi tulang unit dalam postur rujukan (seperti sebagai T-pose), dan secara teorinya memenuhi Rl= d, iaitu, orientasi tulang rujukan dipindahkan ke orientasi tulang semasa melalui putaran sendi.

Menggunakan teori Bayesian, memandangkan taburan terdahulu p (R) dan fungsi kemungkinan p (d|R), taburan posterior putaran sendi bersyarat pada orientasi tulang boleh dikira. . Bentuk analitik bagi kebarangkalian posterior p (R|d):

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Daripada ini kita boleh membuat kesimpulan: kebarangkalian posterior p ( R|d) juga mematuhi taburan matriks Fisher, dan parameternya dikemas kini dari F ke F^'=F+κdl^T.

Kebarangkalian posterior di atas hanya menganggap orientasi rangka manusia sebagai kuantiti cerapan Begitu juga, ia juga boleh dilanjutkan kepada kuantiti cerapan arah lain d_i atau kuantiti cerapan putaran D_j (yang boleh. dijana oleh penderia lain), seperti IMU, dsb.), kebarangkalian posterior analitikal diperoleh dalam bentuk umum berikut:

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

di mana κ_i dan K_j ialah istilah pengagregatan. g (⋅) ialah pemetaan dalam bentuk IK, yang boleh menukar cerapan arah kepada anggaran putaran Ia boleh menerima pakai bentuk termudah seperti g (d_i)=dl^T. Z_1 dan Z_3 masing-masing mewakili set cerapan arah dan cerapan putaran.

Ciri-ciri

Bahagian ini menjelaskan lagi bahawa taburan kebarangkalian posterior mempunyai kebarangkalian yang lebih tinggi daripada taburan kebarangkalian terdahulu. tahap pengagregatan.

Bahagian di atas memperkenalkan bentuk analisis kebarangkalian posterior putaran sendi manusia, yang dicirikan oleh parameter baharu F'. Parameter posterior F^' boleh difahami dari perspektif lain, iaitu F^' ialah hasil darab bagi istilah min M yang sama dengan F dan istilah agregasi baharu K^':

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Di mana M^T dl^T=ll^T ialah matriks simetri sebenar peringkat 1, dan K juga ialah matriks simetri nyata, iaitu sebutan agregasi posterior K' juga merupakan matriks simetri sebenar. Mengikut teorem interleaving tentang matriks simetri nyata dalam analisis matriks, boleh didapati bahawa nilai eigen λ_i' K' dan nilai eigen λ_i K mempunyai hubungan ketaksamaan berikut:

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Memandangkan bahawa nilai eigen bagi istilah pengagregatan adalah bersamaan dengan nilai tunggal parameter pengedaran, dan nilai tunggal parameter pengedaran boleh mencerminkan keyakinan pengedaran, boleh disimpulkan bahawa apabila jangka kemungkinan adalah bukan sifar, nisbah anggaran posterior Anggaran terdahulu lebih tertumpu dan boleh cepat menumpu kepada mod yang diutamakan oleh fungsi kemungkinan, menjadikannya lebih mudah untuk dipelajari.

Selain kaedah kebarangkalian terdahulu, satu lagi kaedah penanda aras utama ialah menggunakan kinematik songsang (IK) untuk mengira terus putaran melalui orientasi tulang Gambar berikut boleh menunjukkan secara visual bahagian belakang Perbandingan antara kaedah IK probabilistik dan deterministik.

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Gambar di atas mengambil sendi siku manusia sebagai contoh. Paksi koordinat tiga dimensi sebenar mewakili nilai sebenar, dan paksi koordinat tiga dimensi telus mewakili nilai anggaran. Baris pertama mewakili kaedah IK deterministik Kaedah pemodelan di sebalik kaedah ini ialah vektor yang mewakili orientasi tulang Apabila orientasi tulang dianggarkan dengan tepat, baki satu darjah kebebasan (putaran) boleh dikurangkan kepada bulatan (dalam rajah. ) Bulatan bertitik pada bola); apabila orientasi tulang dianggarkan tidak tepat, ia akan menyebabkan semua anggaran yang mungkin menyimpang daripada nilai sebenar. Baris kedua mewakili model kebarangkalian posterior kajian ini, yang merupakan gabungan pelbagai jenis model Kawasan merah pada sfera mewakili kebarangkalian putaran tertentu Walaupun terdapat ralat dalam anggaran orientasi tulang , kaedah ini mungkin mengembalikannya kepada nilai sebenar, kerana bunyi orientasi tulang boleh dikurangkan sebanyak mungkin dengan pemerhatian apriori atau lain.

Rajah rangka rangkaian dan fungsi kehilangan

Berdasarkan teori dan terbitan yang dinyatakan di atas, angka berikut boleh secara langsung gambarajah bingkai yang dibina. Rangkaian berbilang cawangan digunakan untuk menganggarkan parameter pengedaran sebelumnya F, titik kunci tiga dimensi J (dari mana orientasi tulang d dikira), dan parameter bentuk β daripada imej tunggal. Kebarangkalian posterior dikira melalui peraturan Bayes, dan akhirnya anggaran postur boleh diperolehi daripada pengedaran posterior untuk mengeluarkan mesh manusia.

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Pemilihan fungsi kehilangan adalah agak mudah dan merupakan jumlah wajaran bagi empat kekangan berikut, di mana L_J mewakili kekangan titik utama dan L_β mewakili kekangan parameter bentuk L_θ mewakili kekangan parameter sikap dalam bentuk matriks, dan L_s mewakili kekangan sikap selepas pensampelan taburan. Mengenai kekangan pada taburan, MAP tidak digunakan secara langsung di sini kerana kestabilan berangka parameter normalisasi dipertimbangkan. Mengenai strategi pensampelan, sama seperti kerja sebelumnya, taburan Fisher matriks ditukar kepada taburan Bingham setara dalam bentuk kuaternion, dan kemudian diperoleh melalui pensampelan penolakan, di mana taburan yang disyorkan untuk pensampelan penolakan menggunakan taburan Gaussian pusat sudut.

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Hasil eksperimen

Dalam bahagian eksperimen, kajian ini menjalankan perbandingan kuantitatif dengan kaedah lepas pada set data awam Human3.6M, 3DPW, AGORA, dan TotalCapture. Dapat dilihat bahawa kaedah kajian ini mengatasi banyak kaedah sebelumnya. Dua baris kelabu terakhir dalam jadual di sebelah kanan bawah ialah kerja tempoh yang sama, dan disenaraikan di sini untuk kesempurnaan senarai.

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Rajah berikut menunjukkan Kualitatif SOTA sedia ada perbandingan kaedah HybrIK, PARE, dan CLIFF menunjukkan bahawa ProPose boleh mencapai hasil yang lebih baik dalam beberapa situasi oklusi.

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Jadual berikut menunjukkan satu siri eksperimen ablasi, terutamanya menunjukkan ketepatan dan keteguhan ProPose. Kaedah penanda aras termasuk tidak menggunakan titik utama tiga dimensi, tidak menggunakan prior, tidak menggunakan prior semasa ujian, memilih ciri di lokasi berbeza dalam rangkaian tulang belakang, dll. Jadual di sebelah kiri di bawah mengesahkan sepenuhnya bahawa taburan kebarangkalian posterior yang dicadangkan mempunyai lebih tinggi ketepatan. Jadual di sebelah kanan di bawah menunjukkan perbandingan keteguhan kepada hingar antara kaedah posterior dan kaedah IK deterministik Dapat dilihat bahawa kaedah posterior boleh menahan gangguan bunyi pada tahap yang lebih besar.

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik

Selain tugasan hmr di atas, penyelidikan ini juga memfokuskan kepada pelbagai -tugas gabungan sensor Penilaian telah dijalankan pada perkara di atas, dan kesan pandangan tunggal dan gabungan IMU diberikan di bawah.

Atas ialah kandungan terperinci Kecekapan pengeluaran animasi meningkat sebanyak 80%! Perisian AI ini merealisasikan tangkapan gerakan video berketepatan tinggi dengan satu klik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam