Rumah >Peranti teknologi >AI >CVPR'24 Highlight |. Satu rangka kerja untuk menjana pergerakan watak, turun ke pergerakan tangan

CVPR'24 Highlight |. Satu rangka kerja untuk menjana pergerakan watak, turun ke pergerakan tangan

王林
王林asal
2024-07-17 02:09:301047semak imbas
CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pengarang artikel ini, Jiang Nan, ialah pelajar kedoktoran tahun kedua di Sekolah Perisikan, Universiti Peking, dengan pengajar Profesor Zhu Yixin, dan Dr Huang Siyuan dari Institut Kecerdasan Buatan Am Beijing bersama-sama menjalankan kerja penyelidikan. Penyelidikannya memfokuskan pada pemahaman interaksi manusia-objek dan penjanaan tindakan manusia digital, dan beliau telah menerbitkan beberapa kertas kerja di persidangan teratas seperti ICCV, CVPR dan ECCV.

Dalam beberapa tahun kebelakangan ini, penyelidikan tentang penjanaan aksi watak telah mencapai kemajuan yang ketara dan telah mendapat perhatian meluas dalam banyak bidang, seperti penglihatan komputer, grafik komputer, robotik dan interaksi manusia-komputer. Walau bagaimanapun, kebanyakan kerja sedia ada hanya menumpukan pada tindakan itu sendiri, dan penyelidikan menggunakan kedua-dua kategori adegan dan tindakan sebagai kekangan masih di peringkat awal.

Untuk menyelesaikan masalah ini, Institut Kecerdasan Buatan Am Beijing, bersama penyelidik dari Universiti Peking dan Institut Teknologi Beijing, mencadangkan rangka kerja penjanaan tindakan menggunakan model penyebaran bersyarat autoregresif untuk mencapai sebenar, semantik dan tindakan yang mematuhi adegan Dan penjanaan tindakan tanpa had panjang. Selain itu, artikel itu mengeluarkan set data interaksi adegan watak berskala besar TRUMANS, yang mengandungi maklumat anotasi yang tepat dan kaya untuk aksi watak dan adegan tiga dimensi.

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

  • Pautan kertas: https://arxiv.org/pdf/2403.08629
  • Laman utama projek: https://jnnan.github.io/trumans/
  • dan pautan data ://github.com/jnnan/trumans_utils

Gambaran keseluruhan penyelidikan

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

                                                                                            dataset TRUMANS

's merupakan bahagian interaksi harian manusia dengan objek yang penting dalam interaksi setiap hari aktiviti, seperti duduk di atas kerusi, mengambil botol, atau membuka laci. Pada masa kini, simulasi pergerakan badan manusia telah menjadi tugas penting dalam bidang penglihatan komputer, grafik komputer, robotik, dan interaksi manusia-komputer. Matlamat teras penjanaan gerakan manusia adalah untuk mencipta corak dinamik yang semula jadi, realistik dan pelbagai. Peningkatan teknologi pembelajaran mendalam telah membawa kepada perkembangan pesat kaedah penjanaan tindakan manusia. Kejayaan besar dalam teknologi pemodelan tubuh manusia juga telah memudahkan untuk membina pangkalan data tindakan manusia yang besar. Berdasarkan perkembangan ini, teknologi penjanaan tindakan manusia yang dipacu data telah mendapat perhatian yang semakin meningkat daripada komuniti penyelidikan sejak beberapa tahun kebelakangan ini.

Pada masa ini, kebanyakan kaedah penjanaan tindakan menggunakan semantik sebagai pembolehubah kawalan Penyelidikan mengenai penjanaan tindakan di bawah objek interaktif yang diberikan [1] dan adegan [2] masih di peringkat awal, terutamanya disebabkan oleh kekurangan kualiti tinggi. imej badan manusia. Set data interaksi aksi dan adegan. Set data adegan sebenar sedia ada masih kurang dari segi kualiti tangkapan gerakan manusia. Walaupun set data tangkapan gerakan yang direkodkan dengan peranti seperti VICON boleh membawa peningkatan kualiti, set data ini tidak mempunyai kepelbagaian interaksi objek manusia dalam adegan 3D. Baru-baru ini, set data sintetik menggunakan teknologi simulasi maya telah menarik perhatian penyelidik kerana kosnya yang rendah dan kebolehsuaian yang tinggi.

Mensasarkan kelemahan kaedah sedia ada, kertas kerja ini mencadangkan rangka kerja penjanaan tindakan yang menggabungkan maklumat adegan dan semantik Ia didorong oleh model penyebaran autoregresif dan boleh menjana tindakan yang diberikan kategori tindakan dan titik laluan kepada kekangan tempat kejadian. Untuk mendapatkan data tindakan dalam adegan, kerja ini mengeluarkan set data interaksi watak-adegan baharu TRUMANS, yang mengandungi 15 jam data tindakan yang ditangkap di dunia nyata dan disintesis ke dalam adegan maya 3D, meliputi bilik tidur, restoran, pejabat, dsb. . 100 konfigurasi adegan. TRUMANS merangkumi rangkaian tingkah laku harian yang komprehensif termasuk mencari laluan, manipulasi objek dan interaksi dengan objek tegar dan bersuara.

Rangka kerja penjanaan tindakan

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

                                                                                                                                                                                                                                                                                                                                                                                                                                                        

Kaedah yang dicadangkan dalam kajian ini menggunakan pendekatan autoregresif untuk menjana tindakan sekeping demi sekeping. Tindakan awal dalam segmen berasal dari penghujung segmen sebelumnya, dan tindakan seterusnya dihasilkan oleh model resapan. Untuk menjadikan tindakan yang dihasilkan mematuhi kekangan adegan, penulis mencadangkan perceptron adegan tempatan berdasarkan grid pendudukan ruang, yang mengekodkan ciri-ciri persekitaran berhampiran penghujung setiap tindakan dan memasukkannya ke dalam keadaan penjanaan tindakan. model. Untuk memasukkan label tindakan bingkai demi bingkai sebagai keadaan yang boleh dikawal, pengekod maklumat tindakan menyepadukan maklumat temporal ke dalam segmen tindakan, membenarkan model menerima arahan pada bila-bila masa dan menjana gerakan yang mematuhi label tindakan yang diberikan.

Kaedah yang dicadangkan dalam artikel ini boleh menyokong kekangan trajektori laluan dan kawalan kedudukan sendi yang tepat. Memandangkan kaedah dalam kertas kerja ini menggunakan mekanisme penjanaan segmen demi segmen autoregresif, laluan dan kekangan bersama boleh dicapai dengan menetapkan submatlamat untuk setiap segmen penjanaan tindakan. Untuk kawalan gerakan berjalan, setiap submatlamat menerangkan kedudukan pratetap pelvis watak pada satah mendatar pada penghujung segmen semasa. Berdasarkan maklumat adegan antara kedudukan mula dan akhir segmen semasa, model menjana pergerakan seluruh badan termasuk trajektori gerakan pelvis. Sebagai contoh, apabila subtarget berada di atas kerusi, watak itu perlu duduk. Untuk tindakan yang melibatkan genggaman objek, teknik yang sama digunakan untuk kawalan kedudukan tangan. Contohnya, apabila menjana tindakan seperti meraih botol atau menolak pintu, kedudukan sendi tangan ditetapkan sebagai sub-sasaran, dan pengguna menetapkan kedudukan yang diingini pada objek. Model ini menghilangkan bunyi bising pada sendi dan mengisi seluruh gerakan manusia. Sentuhan berbutir halus selanjutnya dicapai dengan mengoptimumkan kedudukan relatif tangan ke objek.

Perceptron adegan tempatan digunakan untuk mendapatkan maklumat geometri pemandangan tempatan dan menggunakannya sebagai syarat untuk penjanaan gerakan. Khususnya, berdasarkan senario, grid penghunian global pertama kali dijana dan setiap sel diberikan nilai Boolean yang menunjukkan sama ada ia boleh dicapai, dengan 1 menunjukkan boleh dicapai dan 0 menunjukkan tidak boleh dicapai. Grid penghunian tempatan ialah grid tiga dimensi yang berpusat pada subsasaran bahagian gelung semasa, dalam julat menegak dari 0 hingga 1.8 meter, berorientasikan untuk sejajar dengan arah yaw pelvis watak dalam bingkai pertama. Nilai grid penghunian tempatan diperoleh dengan menanyakan grid penghunian global. Kertas kerja ini mencadangkan penggunaan Pengubah Penglihatan (ViT) untuk mengekod grid voxel. Token dibina dengan membahagikan grid penghunian tempatan di sepanjang satah xy, menganggap paksi-z sebagai saluran ciri, dan memasukkan token ini ke dalam model ViT. Output adegan yang dikodkan ViT digunakan sebagai syarat untuk model penjanaan tindakan.

Berbeza daripada kaedah sebelumnya yang menjana urutan tindakan lengkap berdasarkan huraian tindakan tunggal, kertas kerja ini menggunakan label tindakan sebagai syarat bingkai demi bingkai apabila menjana tindakan jangka panjang. Dalam model ini, tindakan tertentu boleh melangkaui satu bahagian kitaran dan diteruskan dalam beberapa bahagian kitaran. Oleh itu model perlu memahami kemajuan pelaksanaan tindakan. Untuk menangani isu ini, kajian ini memperkenalkan pengecam kemajuan untuk menyokong pelabelan kategori tindakan bingkai demi bingkai. Kaedah pelaksanaan khusus adalah untuk menambah nombor antara 0 dan 1 yang berkembang secara linear dengan masa untuk setiap interaksi lengkap pada teg tindakan berbilang panas asal. Operasi sedemikian membolehkan model mengatasi tindakan yang merangkumi berbilang bahagian gelung dan meningkatkan integriti semantik dan kesinambungan urutan tindakan yang dijana.

Dataset

Dari segi data, artikel ini mengeluarkan set data interaksi watak-adegan baharu TRUMANS, yang mereplikasi adegan sintetik 3D dengan tepat ke dalam kualiti dan persekitaran fizikal, dengan kedua-dua data termasuk kualiti dan skala 15 jam tangkapan gerakan manusia urutan panjang, menyokong 100 adegan dalaman, termasuk bilik tidur, ruang tamu, pejabat, dsb. Walaupun adegan adalah sintetik, penulis memastikan bahawa interaksi antara orang dan objek kekal semula jadi dan tepat melalui pemulihan teliti setiap adegan sintetik. Tindakan TRUMANS meliputi tingkah laku manusia setiap hari, termasuk mencari laluan, menggenggam dan interaksi dengan objek tegar dan bersuara. Untuk meningkatkan lagi kebolehskalaan data, artikel ini menggunakan kaedah peningkatan data berdasarkan data sedia ada, supaya objek dalam set data boleh menukar kedudukan dan saiznya dalam julat tertentu dan tindakan watak dikemas kini secara automatik untuk dipadankan dengan perubahan. Rajah 3. Set data tangkapan gerakan TRUMANS的 Rajah 4. Laraskan tindakan secara automatik mengikut saiz objek yang berubah-ubah, dan kembangkan skala data dengan cekap

Keputusan eksperimen

penggunaan kaedah penjanaan tindakan Below adalah dicadangkan dalam artikel ini.

(1) Berdasarkan perkara utama laluan yang diberikan, kaedah ini boleh menjana aksi berjalan dalam pelbagai adegan, dan watak-watak mempunyai maklum balas semula jadi terhadap halangan di tempat kejadian.
(2) Kaedah dalam artikel ini sesuai untuk menangkap dan menghasilkan tindakan interaktif objek kecil pegang tangan. Sebagai contoh, dekati dan ambil botol air yang diletakkan di atas meja, dan buat isyarat air minuman. Semasa proses penyiapan, tindakan perlu diselaraskan mengikut susun atur pemandangan.
(3) Berdasarkan trajektori pergerakan tangan yang diberikan, hasilkan aksi seluruh badan yang memenuhi trajektori dan tidak bercanggah dengan objek di tempat kejadian.成 Rajah 5. Kepelbagaian penjanaan aksi

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

Rajah 6. Diberi pergerakan seluruh badan trajektori pergerakan tangan dan adegan 7. Penjanaan aksi interaktif objek kecil pegang tangan

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动. untuk mengukur prestasi kaedah ini, penulis membina dua set sistem penilaian berdasarkan sama ada objek interaktif boleh alih atau tidak. Untuk objek interaktif statik, tindakan yang dinilai dalam artikel ini termasuk duduk, berbaring dan berjalan di tempat kejadian. Penunjuk penilaian tertumpu terutamanya pada sama ada tindakan melintasi tempat kejadian dan gelongsor kaki, serta penilaian subjektif subjek terhadap kualiti penjanaan. Untuk objek interaktif dinamik, artikel ini memfokuskan pada proses memahami dan tindakan interaktif seterusnya. Indeks penilaian mengukur sama ada tindakan itu mematuhi kategori tertentu, kepelbagaian tindakan, tahap kehausan acuan, dan penilaian subjektif subjek. Selain itu, kajian ini membandingkan kualiti penjanaan tindakan yang diperoleh melalui latihan dengan TRUMANS dan set data PROX dan GRAB sedia ada. Keputusan eksperimen mengesahkan keunggulan kaedah yang dicadangkan dalam artikel ini dan peningkatan kualiti keseluruhan yang dibawa oleh data TRUMANS kepada tugas penjanaan interaksi adegan watak.态 Jadual 1-2 Interaksi interaktif dengan objek statik untuk menjana hasil dalam kaedah yang berbeza dan keputusan latihan set data

.

Atas ialah kandungan terperinci CVPR'24 Highlight |. Satu rangka kerja untuk menjana pergerakan watak, turun ke pergerakan tangan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn