Rumah >Peranti teknologi >AI >CVPR 2024 |. Adakah hanya terdapat data satu orang dalam set data video sintetik? M3Act menyelesaikan masalah pelabelan tingkah laku orang ramai

CVPR 2024 |. Adakah hanya terdapat data satu orang dalam set data video sintetik? M3Act menyelesaikan masalah pelabelan tingkah laku orang ramai

王林
王林asal
2024-06-03 22:02:59619semak imbas
CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

  • Pautan kertas: https://arxiv.org/abs/2306.16772
  • pautan Projek
    github.io/M3Act/

Tajuk kertas kerja: M3Act: Belajar daripada Aktiviti Kumpulan Manusia Sintetik

PengenalanMengiktiraf dan memahami tingkah laku orang ramai melalui maklumat visual robot interaktif , pemanduan autonomi, dsb. ialah salah satu teknologi utama, tetapi mendapatkan data anotasi gelagat orang ramai berskala besar telah menjadi halangan dalam pembangunan penyelidikan berkaitan. Pada masa kini, set data sintetik menjadi kaedah yang baru muncul untuk menggantikan data dunia sebenar, tetapi set data sintetik dalam penyelidikan sedia ada tertumpu terutamanya pada anggaran pose dan bentuk badan manusia. Mereka selalunya hanya menyediakan video animasi sintetik
seorang

, yang tidak sesuai untuk tugas pengecaman video CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题orang ramai

.

Dalam artikel ini, penulis mencadangkan M3Act, rangka kerja penjanaan data sintetik yang sesuai untuk tingkah laku orang ramai berbilang kumpulan. Eksperimen menunjukkan bahawa set data sintetik ini boleh meningkatkan prestasi model hiliran dalam penjejakan berbilang orang dan pengecaman aktiviti kumpulan, dan boleh menggantikan lebih daripada 62.5% data sebenar pada tugas DanceTrack, sekali gus mengurangkan kos anotasi data dalam aplikasi dunia sebenar senario. Selain itu, rangka kerja data sintetik ini mencadangkan kelas tugas baharu: penjanaan aktiviti kumpulan 3D yang boleh dikawal. Tugasan ini bertujuan untuk mengawal secara langsung hasil penjanaan aktiviti kawanan menggunakan pelbagai input (kategori aktiviti, saiz kawanan, trajektori, ketumpatan, kelajuan dan input teks). Pengarang mentakrifkan tugas dan metrik dengan teliti dan menyediakan garis dasar dan hasil yang kompetitif.
Penjanaan data

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Dibangunkan berdasarkan enjin Unity, M3Act merangkumi data orang ramai daripada pelbagai jenis tingkah laku, menyediakan imej video yang sangat pelbagai dan realistik serta pelabelan data yang komprehensif. Berbanding dengan set data sintetik lain, M3Act menyediakan data berlabel yang lebih komprehensif, termasuk penanda 2D dan 3D serta label peringkat individu dan peringkat kumpulan yang halus, sekali gus menjadikannya sintesis yang ideal untuk menyokong tugas penyelidikan berbilang orang dan berbilang kumpulan Penjana set data.

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Penjana data termasuk 25 adegan 3D, 104 imej panorama julat dinamik tinggi, 5 tetapan cahaya, 2200 model watak, 384 animasi (14 kategori tindakan) dan 6 jenis aktiviti kumpulan. Proses penjanaan data adalah seperti berikut Pertama, semua parameter dalam senario simulasi ditentukan melalui proses rawak, dan kemudian pemandangan 3D dengan objek latar belakang, lampu dan kamera, dan sekumpulan model watak dengan animasi dijana berdasarkan parameter. . Akhirnya imej RGB dipaparkan dari pelbagai sudut pandangan dan hasil berlabel dieksport. 🎜🎜🎜🎜
Untuk memastikan tahap kepelbagaian yang tinggi dalam data simulasi, M3Act menyediakan rawak untuk hampir semua aspek proses penjanaan data. Ini termasuk bilangan kumpulan dalam adegan, bilangan orang dalam setiap kumpulan, kedudukan kumpulan, susunan orang dalam kumpulan, kedudukan individu, tekstur watak-watak yang tergambar, serta adegan. , keadaan pencahayaan, kedudukan kamera, watak, aktiviti kumpulan, atom Pemilihan aksi dan klip animasi. Setiap aktiviti kumpulan juga dibina sebagai modul berparameter. Parameter ini termasuk bilangan individu dalam kumpulan dan tindakan atom tertentu yang dibenarkan dalam aktiviti kumpulan itu.

Set data hasil akhir terbahagi kepada dua bahagian. Bahagian pertama "M3ActRGB" mengandungi 6000 simulasi aktiviti kumpulan tunggal tetapi berbilang dan 9000 simulasi berbilang kumpulan dan berbilang jenis, dengan jumlah 6 juta imej RGB dan 48 juta kotak sempadan. Bahagian kedua "M3Act3D" mengandungi hanya data 3D. Ia terdiri daripada lebih daripada 65,000 simulasi 150 bingkai bagi satu aktiviti kumpulan berbilang jenis, berjumlah 87.6 jam. Untuk pengetahuan pengarang, saiz kumpulan dan kerumitan interaksi M3Act3D jauh lebih tinggi daripada set data sukan berbilang pemain sebelumnya, menjadikannya set data 3D berskala besar pertama untuk aktiviti kumpulan besar.

Hasil eksperimen

Kesan sebenar M3Act ditunjukkan melalui tiga eksperimen teras: pengesanan berbilang orang, pengecaman aktiviti kumpulan dan penjanaan aktiviti kumpulan yang boleh dikawal.

Eksperimen 1: Penjejakan Berbilang Orang

Kajian mendapati bahawa selepas menambah data sintetik kepada latihan model sedia ada MOTRv2 [1], model itu menunjukkan peningkatan yang ketara dalam semua. , terutamanya dari tempat ke-10 hingga ke-2 dalam ranking pada penunjuk HOTA. Pada masa yang sama, apabila 62.5% daripada data sebenar dalam set latihan digantikan dengan data sintetik, model itu masih boleh mencapai prestasi yang sama. Di samping itu, berbanding dengan sumber data sintetik lain, seperti BEDLAM dan GTA-Humans, M3Act menyediakan peningkatan prestasi yang lebih besar untuk latihan model, menunjukkan bahawa ia lebih sesuai untuk tugas aktiviti kumpulan berbilang orang. Akhir sekali, jadual di bawah menunjukkan hasil latihan model yang berbeza di bawah M3Act. Keputusan menunjukkan bahawa M3Act berkesan dalam pelbagai model. . Apabila jumlah data bertambah, ketepatan pengecaman terus bertambah baik. Apabila menggunakan 100% data sintetik, ketepatan model pengecaman aktiviti kumpulan Komposer [2] meningkat secara purata 4.87% pada peringkat kumpulan dan 7.43% pada peringkat individu, manakala model pengecaman aktiviti kumpulan lain Actor Transformer [3] bertambah baik. pada peringkat kumpulan Peningkatan sebanyak 5.59% dalam ketepatan dilihat pada , dan peningkatan sebanyak 5.43% pada peringkat individu.

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Jadual di bawah menunjukkan ketepatan pengecaman kumpulan pada CAD2 dan Bola Tampar (VD) menggunakan modaliti input yang berbeza. Peningkatan prestasi dalam eksperimen menunjukkan bahawa data sintetik M3Act boleh memanfaatkan tugas hiliran dengan berkesan dan merangkumi model, modaliti input dan set data yang berbeza.

Eksperimen 3: Penjanaan aktiviti kumpulan 3D yang boleh dikawal

Pengarang mencadangkan jenis tugasan baharu: penjanaan aktiviti kumpulan 3D yang boleh dikawal. Tugas ini bertujuan untuk mensintesis satu set tindakan manusia 3D daripada hingar Gaussian berdasarkan label kelas aktiviti yang diberikan dan saiz populasi sewenang-wenangnya. Walaupun kajian sedia ada boleh menjana tindakan berbilang pemain, mereka terhad kepada senario dua orang atau kumpulan dengan bilangan orang yang tetap. Oleh itu, penulis mencadangkan dua kaedah asas. Dalam pendekatan garis dasar pertama, aktiviti kumpulan dilaksanakan dengan berulang kali menggunakan model penyebaran gerakan orang tunggal MDM [4], jadi proses penjanaan untuk setiap individu adalah bebas. Kaedah kedua menambah pengubah interaktif (IFormer) berdasarkan MDM. Oleh kerana pemodelan interaksi manusia, MDM+IFormer dapat menghasilkan aktiviti kumpulan yang diselaraskan dalam satu hantaran ke hadapan.

Pengarang mempertimbangkan penunjuk penilaian berikut pada peringkat kumpulan dan individu: ketepatan pengecaman, jarak awal Frechette (FID), kepelbagaian dan pelbagai mod. Di samping itu, berdasarkan model daya sosial, penulis menambah empat penunjuk berasaskan lokasi pada peringkat kumpulan: kekerapan perlanggaran, daya interaksi tolakan, daya tolakan sentuhan dan daya tolakan jumlah. Keputusan menunjukkan:

  • MDM+IFormer mampu menjana aktiviti kumpulan dengan kedudukan watak yang sejajar. Lihat graf kualitatif di bawah.
  • Kedua-dua kaedah garis dasar boleh menjana pelbagai aktiviti yang sepadan dengan syarat input, tetapi MDM+IFormer mencapai skor FID yang lebih baik.
  • Transformer interaktif dalam MDM+IFormer sangat mengurangkan kekerapan perlanggaran dalam aktiviti kumpulan yang dihasilkan.

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Kesimpulan

Pengarang kertas kerja menunjukkan kelebihan M3Act melalui tiga eksperimen teras serta peningkatan prestasi multi-modal, sebagai tugasan baharu. . Dalam eksperimen mengenai penjejakan berbilang orang dan pengecaman aktiviti kumpulan, mereka mendapati bahawa keupayaan generalisasi model untuk kes ujian yang tidak kelihatan bertambah baik apabila lebih banyak data sintetik ditambah.

Di samping itu, data sintetik dalam M3Act boleh menggantikan beberapa data sebenar dalam medan sasaran tanpa menjejaskan prestasi, yang dijangka mengurangkan keperluan untuk sejumlah besar data sebenar semasa proses latihan, dengan itu mengurangkan kos pengumpulan data dan anotasi. Penemuan ini menunjukkan potensi sampel kecil atau bahkan sifar untuk berhijrah daripada data simulasi kepada data dunia sebenar.

Dalam penjanaan aktiviti kumpulan 3D yang boleh dikawal, walaupun MDM+IFormer hanyalah model asas untuk tugasan ini, ia masih mempelajari peraturan interaksi pergerakan watak dan menjana aktiviti kumpulan yang selaras dengan kawalan. Terutama, walaupun pendekatan generatif pada masa ini mengatasi pendekatan prosedural, mereka menunjukkan potensi untuk mengawal tindakan kumpulan secara langsung daripada pelbagai isyarat (kategori aktiviti, saiz kumpulan, trajektori, ketumpatan, kelajuan dan input teks). Apabila ketersediaan data meningkat dan keupayaan model generatif bertambah baik pada masa hadapan, penulis meramalkan bahawa kaedah generatif akhirnya akan mengambil alih dan menjadi lebih meluas digunakan dalam interaksi sosial dan aktiviti manusia kolektif.

Walaupun kerumitan gelagat kumpulan dalam set data M3Act mungkin dihadkan oleh peraturan heuristik dalam proses penjanaan data, M3Act menyediakan fleksibiliti yang ketara dalam menyepadukan aktiviti kumpulan baharu agar sesuai dengan sebarang tugas hiliran tertentu. Kumpulan baharu ini boleh berasal daripada peraturan heuristik berpandukan pakar, peraturan yang dijana oleh model bahasa besar atau output model generatif aktiviti kumpulan 3D yang boleh dikawal. Tambahan pula, pengarang kertas itu mengiktiraf perbezaan domain yang wujud antara data sintetik dan dunia sebenar. Dengan penambahan aset dalam penjana data dalam keluaran masa hadapan, adalah mungkin untuk meningkatkan keupayaan generalisasi model dan mengurangkan perbezaan ini.

[1] Yuang Zhang, Tiancai Wang dan Xiangyu Zhang Motrv2: Bootstrap penjejakan berbilang objek dari hujung ke hujung oleh pengesan objek terlatih dalam Prosiding Persidangan IEEE/CVF Pengiktirafan, halaman 22056–22065, 2023.
[2] Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Peter Kapadia penaakulan aktiviti kumpulan dalam video dengan modaliti titik kunci sahaja Prosiding Persidangan Eropah ke-17 mengenai Visi Komputer (ECCV 2022), 2022.
[3] Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, dan Cees . . Pelakon-pengubah bentuk untuk pengiktirafan aktiviti kumpulan dalam Prosiding Persidangan IEEE/CVF mengenai Visi Komputer dan Pengecaman Corak, muka surat 839–848, 2020.
[4] Guy Tevet, Sigal Yonab Shafir, Daniel Cohen-Or, dan Amit H Bermano model penyebaran gerakan manusia arXiv arXiv:2209.14916, 2022.
.

Atas ialah kandungan terperinci CVPR 2024 |. Adakah hanya terdapat data satu orang dalam set data video sintetik? M3Act menyelesaikan masalah pelabelan tingkah laku orang ramai. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn