


Tugas penjanaan tindakan manusia bertujuan untuk menjana urutan tindakan manusia yang realistik untuk memenuhi keperluan hiburan, realiti maya, robotik dan bidang lain. Kaedah penjanaan tradisional termasuk langkah-langkah seperti penciptaan aksara 3D, animasi bingkai kunci dan tangkapan gerakan, yang mempunyai banyak batasan, seperti memakan masa, memerlukan pengetahuan teknikal profesional, melibatkan sistem dan perisian yang mahal, dan kemungkinan keserasian antara sistem perisian dan perkakasan yang berbeza. Isu seksual dsb. Dengan perkembangan pembelajaran mendalam, orang ramai mula cuba menggunakan model generatif untuk mencapai penjanaan automatik urutan tindakan manusia, contohnya, dengan memasukkan penerangan teks dan memerlukan model menjana urutan tindakan yang sepadan dengan keperluan teks. Apabila model resapan diperkenalkan ke dalam medan, ketekalan tindakan yang dihasilkan dengan teks yang diberikan terus bertambah baik.
Namun, walaupun sifat semula jadi tindakan yang dihasilkan telah dipertingkatkan, masih terdapat jurang yang besar di antaranya dan keperluan penggunaan. Untuk meningkatkan lagi keupayaan algoritma penjanaan gerakan manusia, kertas kerja ini mencadangkan algoritma ReMoDiffuse (Rajah 1) berdasarkan MotionDiffuse [1]. Dengan menggunakan strategi perolehan semula, kami menemui sampel rujukan yang sangat relevan dan menyediakan ciri rujukan yang terperinci untuk menjana urutan tindakan berkualiti tinggi
Pautan kertas: https://arxiv.org/pdf/2304.01116 .pdf
Pautan GitHub: https://github.com/mingyuan-zhang/ReMoDiffuse
Laman utama projek: https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html
Rajah 1. Gambaran Keseluruhan ReMoDiffuse
Pengenalan kaedah
Proses utama ReMoDiffuse.proses utama ReMoDiffuse. Dalam peringkat perolehan semula, ReMoDiffuse menggunakan teknologi perolehan semula hibrid untuk mendapatkan semula sampel yang kaya dengan maklumat daripada pangkalan data berbilang modal luaran berdasarkan teks input pengguna dan jangkaan panjang jujukan tindakan, memberikan panduan yang berkuasa untuk penjanaan tindakan. Dalam peringkat penyebaran, ReMoDiffuse menggunakan maklumat yang diperoleh dalam peringkat perolehan semula untuk menjana urutan gerakan yang konsisten secara semantik dengan input pengguna melalui struktur model yang cekapUntuk memastikan perolehan semula yang cekap, ReMoDiffuse mereka bentuk aliran data berikut dengan teliti untuk peringkat perolehan semula (Rajah 2):Terdapat tiga jenis data yang terlibat dalam proses mendapatkan semula, iaitu teks input pengguna, jangkaan panjang urutan tindakan dan pangkalan data berbilang modal luaran yang mengandungi berbilang pasangan
. Apabila mendapatkan semula sampel yang paling berkaitan, ReMoDiffuse menggunakan formula untuk mengira persamaan antara sampel dalam setiap pangkalan data dan input pengguna. Item pertama di sini adalah untuk mengira persamaan kosinus antara teks input pengguna dan teks entiti pangkalan data menggunakan pengekod teks model CLIP [2] pra-latihan, dan item kedua mengira perbezaan antara panjang jujukan tindakan yang dijangkakan. dan panjang jujukan tindakan entiti pangkalan data Perbezaan relatif diambil sebagai persamaan kinematik. Selepas mengira skor persamaan, ReMoDiffuse memilih sampel k teratas dengan persamaan yang serupa dengan sampel yang diambil dan mengekstrak ciri teks dan ciri tindakan
. Kedua-dua ini, bersama-sama dengan ciri
yang diekstrak daripada input teks oleh pengguna, berfungsi sebagai isyarat input ke peringkat penyebaran untuk membimbing penjanaan tindakan.
Rajah 2: Fasa pengambilan semula ReMoDiffuse
Proses resapan (Rajah 3.c) terdiri daripada dua bahagian: proses hadapan dan proses songsang. Dalam proses ke hadapan, ReMoDiffuse secara beransur-ansur menambah hingar Gaussian pada data gerakan asal dan akhirnya menukarkannya kepada hingar rawak. Proses songsang memfokuskan pada penyingkiran hingar dan menghasilkan sampel gerakan yang realistik. Bermula daripada hingar Gaussian rawak, ReMoDiffuse menggunakan Modul Modulasi Semantik (SMT) (Rajah 3.a) pada setiap langkah proses songsang untuk menganggarkan taburan sebenar dan mengeluarkan bunyi secara beransur-ansur berdasarkan isyarat bersyarat. Modul SMA dalam SMT di sini akan menyepadukan semua maklumat keadaan ke dalam ciri jujukan yang dijana, iaitu modul teras yang dicadangkan dalam artikel ini
Rajah 3: Peringkat penyebaran ReMoDiffuse
dengan mengagregatkan maklumat keadaan. Dalam rangka kerja ini:
yang kami jangka akan jana berdasarkan maklumat bersyarat. Vektor 2.K berfungsi sebagai mekanisme pengindeksan yang mempertimbangkan pelbagai faktor secara menyeluruh, termasuk ciri jujukan tindakan semasa
, input ciri semantik oleh pengguna
dan ciri
dan
yang diperoleh daripada sampel pengambilan semula. Antaranya,
mewakili ciri penerangan teks yang diperoleh daripada sampel perolehan semula. Kaedah pembinaan yang komprehensif ini memastikan keberkesanan vektor K dalam proses pengindeksan.
🎜Vektor 3.V menyediakan ciri sebenar yang diperlukan untuk menjana tindakan. Sama seperti vektor K, vektor V mengambil kira sampel perolehan semula, input pengguna dan urutan tindakan semasa. Memandangkan tiada korelasi langsung antara ciri penerangan teks bagi sampel yang diambil dan tindakan yang dijana, kami memilih untuk tidak menggunakan ciri ini semasa mengira vektor V untuk mengelakkan gangguan maklumat yang tidak diperlukan🎜Digabungkan dengan mekanisme templat perhatian global Perhatian Cekap, lapisan SMA menggunakan maklumat tambahan daripada sampel perolehan semula, maklumat semantik teks pengguna dan maklumat ciri urutan yang akan dinafikan untuk mewujudkan satu siri templat global yang komprehensif , supaya semua maklumat keadaan boleh diserap sepenuhnya oleh urutan yang akan dijana.
Untuk menulis semula kandungan, teks asal perlu ditukar kepada bahasa Cina. Inilah rupanya selepas menulis semula: Reka Bentuk Penyelidikan dan Hasil Eksperimen
Kami menilai ReMoDiffuse pada dua set data, HumanML3D [4] dan KIT-ML [5]. Keputusan percubaan (Jadual 1 dan 2) menunjukkan prestasi hebat dan kelebihan rangka kerja ReMoDiffuse kami yang dicadangkan dari perspektif ketekalan teks dan kualiti tindakan
Jadual 1. Prestasi kaedah berbeza pada set ujian HumanML3D
Jadual 2. Prestasi kaedah berbeza pada set ujian KIT-ML
Berikut adalah beberapa contoh yang menunjukkan prestasi berkuasa ReMoDiffuse 4). (Rajah Berbanding dengan kaedah sebelumnya, contohnya, memandangkan teks "Seseorang melompat dalam bulatan," hanya ReMoDiffuse yang dapat menangkap gerakan "melompat" dan laluan "bulatan" dengan tepat. Ini menunjukkan bahawa ReMoDiffuse dapat menangkap butiran teks dengan berkesan dan menyelaraskan kandungan dengan tempoh gerakan yang diberikan
Rajah 4. Perbandingan urutan tindakan yang dijana oleh ReMoDiffuse dengan urutan tindakan yang dihasilkan oleh kaedah lain
Figure 5: Pengagihan hasil tinjauan pengguna
Citation
ming Yuan Zhang, Cai Zhonggang, Pan Liang, Hong Fangzhou, Guo Xinying, Yang Lei dan Liu Ziwei. Motiondiffuse: Penjanaan gerakan manusia dipacu teks berdasarkan model resapan. pracetak arXiv arXiv:2208.15001, 2022
[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin al. Pemindahan Jack model visual daripada penyeliaan bahasa semula jadi. arXiv arXiv:2103.00020, 2021.
[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, dan Hongsheng Li Perhatian yang cekap Persidangan musim sejuk IEEE/CVF mengenai aplikasi penglihatan komputer, halaman 3531–3539, 2021.
[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li dan Li Cheng Menjana pelbagai dan gerakan manusia 3d semula jadi daripada teks. Dalam Prosiding Persidangan IEEE/CVF mengenai Visi Komputer dan Pengecaman Corak, halaman 5152–5161, 2022.
Kandungan yang perlu ditulis semula ialah: [5] Matthias Plappert, Christian Mandery dan Tamim Asfour. "Set Data Bahasa Motor". Big Data, 4(4):236-252, 2016
[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or dan Amit H Bermano model penyebaran gerakan manusia Persidangan Antarabangsa mengenai Perwakilan Pembelajaran, 2022.
🎜Atas ialah kandungan terperinci ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Para saintis telah mengkaji secara meluas rangkaian saraf manusia dan mudah (seperti yang ada di C. elegans) untuk memahami fungsi mereka. Walau bagaimanapun, soalan penting timbul: Bagaimana kita menyesuaikan rangkaian saraf kita sendiri untuk berfungsi dengan berkesan bersama -sama dengan novel AI s

Gemini Google Advanced: Tahap Langganan Baru di Horizon Pada masa ini, mengakses Gemini Advanced memerlukan pelan premium AI $ 19.99/bulan. Walau bagaimanapun, laporan Pihak Berkuasa Android menunjukkan perubahan yang akan datang. Kod dalam google terkini p

Walaupun gembar -gembur di sekitar keupayaan AI maju, satu cabaran penting bersembunyi dalam perusahaan AI perusahaan: kesesakan pemprosesan data. Walaupun CEO merayakan kemajuan AI, jurutera bergelut dengan masa pertanyaan yang perlahan, saluran paip yang terlalu banyak, a

Dokumen pengendalian tidak lagi hanya mengenai pembukaan fail dalam projek AI anda, ia mengenai mengubah kekacauan menjadi kejelasan. Dokumen seperti PDF, PowerPoints, dan perkataan banjir aliran kerja kami dalam setiap bentuk dan saiz. Mengambil semula berstruktur

Memanfaatkan kuasa Kit Pembangunan Ejen Google (ADK) untuk membuat ejen pintar dengan keupayaan dunia sebenar! Tutorial ini membimbing anda melalui membina ejen perbualan menggunakan ADK, menyokong pelbagai model bahasa seperti Gemini dan GPT. W

Ringkasan: Model bahasa kecil (SLM) direka untuk kecekapan. Mereka lebih baik daripada model bahasa yang besar (LLM) dalam persekitaran yang kurang sensitif, masa nyata dan privasi. Terbaik untuk tugas-tugas berasaskan fokus, terutamanya di mana kekhususan domain, kawalan, dan tafsiran lebih penting daripada pengetahuan umum atau kreativiti. SLMs bukan pengganti LLM, tetapi mereka sesuai apabila ketepatan, kelajuan dan keberkesanan kos adalah kritikal. Teknologi membantu kita mencapai lebih banyak sumber. Ia sentiasa menjadi promoter, bukan pemandu. Dari era enjin stim ke era gelembung internet, kuasa teknologi terletak pada tahap yang membantu kita menyelesaikan masalah. Kecerdasan Buatan (AI) dan AI Generatif Baru -baru ini tidak terkecuali

Memanfaatkan kekuatan Google Gemini untuk Visi Komputer: Panduan Komprehensif Google Gemini, chatbot AI terkemuka, memanjangkan keupayaannya di luar perbualan untuk merangkumi fungsi penglihatan komputer yang kuat. Panduan ini memperincikan cara menggunakan

Landskap AI pada tahun 2025 adalah elektrik dengan kedatangan Flash Gemini 2.0 Google dan Openai's O4-mini. Model-model canggih ini, yang dilancarkan minggu-minggu, mempunyai ciri-ciri canggih yang setanding dan skor penanda aras yang mengagumkan. Perbandingan mendalam ini


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

SublimeText3 Linux versi baharu
SublimeText3 Linux versi terkini

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

mPDF
mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),
