ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini-AI-php.cn

ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 27, 2023 pm 09:29 PM

bermula

Tugas penjanaan tindakan manusia bertujuan untuk menjana urutan tindakan manusia yang realistik untuk memenuhi keperluan hiburan, realiti maya, robotik dan bidang lain. Kaedah penjanaan tradisional termasuk langkah-langkah seperti penciptaan aksara 3D, animasi bingkai kunci dan tangkapan gerakan, yang mempunyai banyak batasan, seperti memakan masa, memerlukan pengetahuan teknikal profesional, melibatkan sistem dan perisian yang mahal, dan kemungkinan keserasian antara sistem perisian dan perkakasan yang berbeza. Isu seksual dsb. Dengan perkembangan pembelajaran mendalam, orang ramai mula cuba menggunakan model generatif untuk mencapai penjanaan automatik urutan tindakan manusia, contohnya, dengan memasukkan penerangan teks dan memerlukan model menjana urutan tindakan yang sepadan dengan keperluan teks. Apabila model resapan diperkenalkan ke dalam medan, ketekalan tindakan yang dihasilkan dengan teks yang diberikan terus bertambah baik.

Namun, walaupun sifat semula jadi tindakan yang dihasilkan telah dipertingkatkan, masih terdapat jurang yang besar di antaranya dan keperluan penggunaan. Untuk meningkatkan lagi keupayaan algoritma penjanaan gerakan manusia, kertas kerja ini mencadangkan algoritma ReMoDiffuse (Rajah 1) berdasarkan MotionDiffuse [1]. Dengan menggunakan strategi perolehan semula, kami menemui sampel rujukan yang sangat relevan dan menyediakan ciri rujukan yang terperinci untuk menjana urutan tindakan berkualiti tinggi

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

Pautan kertas: https://arxiv.org/pdf/2304.01116 .pdf
Pautan GitHub: https://github.com/mingyuan-zhang/ReMoDiffuse
Laman utama projek: https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

difusi secara cermat model dengan strategi pencarian semula yang inovatif, ReMoDiffuse memberi nafas baharu kepada penjanaan tindakan manusia berpandukan teks. Dengan struktur model yang disusun dengan teliti, ReMoDiffuse bukan sahaja dapat mencipta urutan tindakan yang kaya, pelbagai dan sangat realistik, tetapi juga boleh memenuhi keperluan tindakan dengan pelbagai panjang dan berbutir-butir dengan berkesan. Eksperimen membuktikan bahawa ReMoDiffuse berprestasi baik pada berbilang penunjuk utama dalam bidang penjanaan tindakan, dengan ketara mengatasi algoritma sedia ada.

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Rajah 1. Gambaran Keseluruhan ReMoDiffuse

Pengenalan kaedah

Proses utama ReMoDiffuse.proses utama ReMoDiffuse. Dalam peringkat perolehan semula, ReMoDiffuse menggunakan teknologi perolehan semula hibrid untuk mendapatkan semula sampel yang kaya dengan maklumat daripada pangkalan data berbilang modal luaran berdasarkan teks input pengguna dan jangkaan panjang jujukan tindakan, memberikan panduan yang berkuasa untuk penjanaan tindakan. Dalam peringkat penyebaran, ReMoDiffuse menggunakan maklumat yang diperoleh dalam peringkat perolehan semula untuk menjana urutan gerakan yang konsisten secara semantik dengan input pengguna melalui struktur model yang cekap

Untuk memastikan perolehan semula yang cekap, ReMoDiffuse mereka bentuk aliran data berikut dengan teliti untuk peringkat perolehan semula (Rajah 2):

Terdapat tiga jenis data yang terlibat dalam proses mendapatkan semula, iaitu teks input pengguna, jangkaan panjang urutan tindakan dan pangkalan data berbilang modal luaran yang mengandungi berbilang pasangan

. Apabila mendapatkan semula sampel yang paling berkaitan, ReMoDiffuse menggunakan formula untuk mengira persamaan antara sampel dalam setiap pangkalan data dan input pengguna. Item pertama di sini adalah untuk mengira persamaan kosinus antara teks input pengguna dan teks entiti pangkalan data menggunakan pengekod teks model CLIP [2] pra-latihan, dan item kedua mengira perbezaan antara panjang jujukan tindakan yang dijangkakan. dan panjang jujukan tindakan entiti pangkalan data Perbezaan relatif diambil sebagai persamaan kinematik. Selepas mengira skor persamaan, ReMoDiffuse memilih sampel k teratas dengan persamaan yang serupa dengan sampel yang diambil dan mengekstrak ciri teks ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 dan ciri tindakan . Kedua-dua ini, bersama-sama dengan ciri yang diekstrak daripada input teks oleh pengguna, berfungsi sebagai isyarat input ke peringkat penyebaran untuk membimbing penjanaan tindakan. ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Rajah 2: Fasa pengambilan semula ReMoDiffuse

Proses resapan (Rajah 3.c) terdiri daripada dua bahagian: proses hadapan dan proses songsang. Dalam proses ke hadapan, ReMoDiffuse secara beransur-ansur menambah hingar Gaussian pada data gerakan asal dan akhirnya menukarkannya kepada hingar rawak. Proses songsang memfokuskan pada penyingkiran hingar dan menghasilkan sampel gerakan yang realistik. Bermula daripada hingar Gaussian rawak, ReMoDiffuse menggunakan Modul Modulasi Semantik (SMT) (Rajah 3.a) pada setiap langkah proses songsang untuk menganggarkan taburan sebenar dan mengeluarkan bunyi secara beransur-ansur berdasarkan isyarat bersyarat. Modul SMA dalam SMT di sini akan menyepadukan semua maklumat keadaan ke dalam ciri jujukan yang dijana, iaitu modul teras yang dicadangkan dalam artikel ini

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Rajah 3: Peringkat penyebaran ReMoDiffuse

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

untuk lapisan SMA Rajah 3.b), kami menggunakan mekanisme perhatian yang cekap (Efficient Attention) [3] untuk mempercepatkan pengiraan modul perhatian dan mencipta peta ciri global yang lebih menekankan maklumat global. Peta ciri ini menyediakan petunjuk semantik yang lebih komprehensif untuk urutan tindakan, dengan itu meningkatkan prestasi model. Matlamat teras lapisan SMA adalah untuk mengoptimumkan penjanaan urutan tindakan

dengan mengagregatkan maklumat keadaan. Dalam rangka kerja ini: ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini

Vektor 1.Q secara khusus mewakili urutan tindakan yang dijangkakan

yang kami jangka akan jana berdasarkan maklumat bersyarat. ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini Vektor 2.K berfungsi sebagai mekanisme pengindeksan yang mempertimbangkan pelbagai faktor secara menyeluruh, termasuk ciri jujukan tindakan semasa ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini , input ciri semantik oleh pengguna dan ciri dan yang diperoleh daripada sampel pengambilan semula. Antaranya,

mewakili ciri urutan tindakan yang diperolehi daripada sampel perolehan, dan

mewakili ciri penerangan teks yang diperoleh daripada sampel perolehan semula. Kaedah pembinaan yang komprehensif ini memastikan keberkesanan vektor K dalam proses pengindeksan.

🎜Vektor 3.V menyediakan ciri sebenar yang diperlukan untuk menjana tindakan. Sama seperti vektor K, vektor V mengambil kira sampel perolehan semula, input pengguna dan urutan tindakan semasa. Memandangkan tiada korelasi langsung antara ciri penerangan teks bagi sampel yang diambil dan tindakan yang dijana, kami memilih untuk tidak menggunakan ciri ini semasa mengira vektor V untuk mengelakkan gangguan maklumat yang tidak diperlukan🎜

Digabungkan dengan mekanisme templat perhatian global Perhatian Cekap, lapisan SMA menggunakan maklumat tambahan daripada sampel perolehan semula, maklumat semantik teks pengguna dan maklumat ciri urutan yang akan dinafikan untuk mewujudkan satu siri templat global yang komprehensif , supaya semua maklumat keadaan boleh diserap sepenuhnya oleh urutan yang akan dijana.

Untuk menulis semula kandungan, teks asal perlu ditukar kepada bahasa Cina. Inilah rupanya selepas menulis semula: Reka Bentuk Penyelidikan dan Hasil Eksperimen

Kami menilai ReMoDiffuse pada dua set data, HumanML3D [4] dan KIT-ML [5]. Keputusan percubaan (Jadual 1 dan 2) menunjukkan prestasi hebat dan kelebihan rangka kerja ReMoDiffuse kami yang dicadangkan dari perspektif ketekalan teks dan kualiti tindakan

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Jadual 1. Prestasi kaedah berbeza pada set ujian HumanML3D

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Jadual 2. Prestasi kaedah berbeza pada set ujian KIT-ML

Berikut adalah beberapa contoh yang menunjukkan prestasi berkuasa ReMoDiffuse 4). (Rajah Berbanding dengan kaedah sebelumnya, contohnya, memandangkan teks "Seseorang melompat dalam bulatan," hanya ReMoDiffuse yang dapat menangkap gerakan "melompat" dan laluan "bulatan" dengan tepat. Ini menunjukkan bahawa ReMoDiffuse dapat menangkap butiran teks dengan berkesan dan menyelaraskan kandungan dengan tempoh gerakan yang diberikan

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Rajah 4. Perbandingan urutan tindakan yang dijana oleh ReMoDiffuse dengan urutan tindakan yang dihasilkan oleh kaedah lain

secara visual memaparkan urutan tindakan sepadan yang dihasilkan oleh kaedah Guo et al. [4], MotionDiffuse [1], MDM [6] dan ReMoDiffuse, dan mengumpul pendapat peserta ujian dalam bentuk soal selidik. Taburan keputusan ditunjukkan dalam Rajah 5. Ia boleh dilihat dengan jelas daripada keputusan bahawa dalam kebanyakan kes, peserta ujian percaya bahawa urutan tindakan yang dihasilkan oleh kaedah kami - iaitu, urutan tindakan yang dijana oleh ReMoDiffuse adalah yang paling konsisten dengan penerangan teks yang diberikan antara empat algoritma, dan juga adalah yang paling semula jadi dan licin.

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Figure 5: Pengagihan hasil tinjauan pengguna

Citation

ming Yuan Zhang, Cai Zhonggang, Pan Liang, Hong Fangzhou, Guo Xinying, Yang Lei dan Liu Ziwei. Motiondiffuse: Penjanaan gerakan manusia dipacu teks berdasarkan model resapan. pracetak arXiv arXiv:2208.15001, 2022

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin al. Pemindahan Jack model visual daripada penyeliaan bahasa semula jadi. arXiv arXiv:2103.00020, 2021.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, dan Hongsheng Li Perhatian yang cekap Persidangan musim sejuk IEEE/CVF mengenai aplikasi penglihatan komputer, halaman 3531–3539, 2021.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li dan Li Cheng Menjana pelbagai dan gerakan manusia 3d semula jadi daripada teks. Dalam Prosiding Persidangan IEEE/CVF mengenai Visi Komputer dan Pengecaman Corak, halaman 5152–5161, 2022.

Kandungan yang perlu ditulis semula ialah: [5] Matthias Plappert, Christian Mandery dan Tamim Asfour. "Set Data Bahasa Motor". Big Data, 4(4):236-252, 2016

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or dan Amit H Bermano model penyebaran gerakan manusia Persidangan Antarabangsa mengenai Perwakilan Pembelajaran, 2022.

🎜

Atas ialah kandungan terperinci ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:机器之心. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Let's Dance: Gerakan berstruktur untuk menyempurnakan jaring saraf manusia kitaApr 27, 2025 am 11:09 AM

Para saintis telah mengkaji secara meluas rangkaian saraf manusia dan mudah (seperti yang ada di C. elegans) untuk memahami fungsi mereka. Walau bagaimanapun, soalan penting timbul: Bagaimana kita menyesuaikan rangkaian saraf kita sendiri untuk berfungsi dengan berkesan bersama -sama dengan novel AI s

New Google Leak mendedahkan perubahan langganan untuk Gemini AIApr 27, 2025 am 11:08 AM

Gemini Google Advanced: Tahap Langganan Baru di Horizon Pada masa ini, mengakses Gemini Advanced memerlukan pelan premium AI $ 19.99/bulan. Walau bagaimanapun, laporan Pihak Berkuasa Android menunjukkan perubahan yang akan datang. Kod dalam google terkini p

Bagaimana Pecutan Analisis Data Menyelesaikan Bots Tersembunyi AIApr 27, 2025 am 11:07 AM

Walaupun gembar -gembur di sekitar keupayaan AI maju, satu cabaran penting bersembunyi dalam perusahaan AI perusahaan: kesesakan pemprosesan data. Walaupun CEO merayakan kemajuan AI, jurutera bergelut dengan masa pertanyaan yang perlahan, saluran paip yang terlalu banyak, a

Markitdown MCP boleh menukar mana -mana dokumen ke Markdowns!Apr 27, 2025 am 09:47 AM

Dokumen pengendalian tidak lagi hanya mengenai pembukaan fail dalam projek AI anda, ia mengenai mengubah kekacauan menjadi kejelasan. Dokumen seperti PDF, PowerPoints, dan perkataan banjir aliran kerja kami dalam setiap bentuk dan saiz. Mengambil semula berstruktur

Bagaimana cara menggunakan Google ADK untuk ejen bangunan? - Analytics VidhyaApr 27, 2025 am 09:42 AM

Memanfaatkan kuasa Kit Pembangunan Ejen Google (ADK) untuk membuat ejen pintar dengan keupayaan dunia sebenar! Tutorial ini membimbing anda melalui membina ejen perbualan menggunakan ADK, menyokong pelbagai model bahasa seperti Gemini dan GPT. W

Penggunaan SLM Over LLM untuk Penyelesaian Masalah Berkesan - Analisis VidhyaApr 27, 2025 am 09:27 AM

Ringkasan: Model bahasa kecil (SLM) direka untuk kecekapan. Mereka lebih baik daripada model bahasa yang besar (LLM) dalam persekitaran yang kurang sensitif, masa nyata dan privasi. Terbaik untuk tugas-tugas berasaskan fokus, terutamanya di mana kekhususan domain, kawalan, dan tafsiran lebih penting daripada pengetahuan umum atau kreativiti. SLMs bukan pengganti LLM, tetapi mereka sesuai apabila ketepatan, kelajuan dan keberkesanan kos adalah kritikal. Teknologi membantu kita mencapai lebih banyak sumber. Ia sentiasa menjadi promoter, bukan pemandu. Dari era enjin stim ke era gelembung internet, kuasa teknologi terletak pada tahap yang membantu kita menyelesaikan masalah. Kecerdasan Buatan (AI) dan AI Generatif Baru -baru ini tidak terkecuali

Bagaimana cara menggunakan model Google Gemini untuk tugas penglihatan komputer? - Analytics VidhyaApr 27, 2025 am 09:26 AM

Memanfaatkan kekuatan Google Gemini untuk Visi Komputer: Panduan Komprehensif Google Gemini, chatbot AI terkemuka, memanjangkan keupayaannya di luar perbualan untuk merangkumi fungsi penglihatan komputer yang kuat. Panduan ini memperincikan cara menggunakan

Gemini 2.0 Flash vs O4-Mini: Bolehkah Google lebih baik daripada Openai?Apr 27, 2025 am 09:20 AM

Landskap AI pada tahun 2025 adalah elektrik dengan kedatangan Flash Gemini 2.0 Google dan Openai's O4-mini. Model-model canggih ini, yang dilancarkan minggu-minggu, mempunyai ciri-ciri canggih yang setanding dan skor penanda aras yang mengagumkan. Perbandingan mendalam ini

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 bulan yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang laluByDDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

1 bulan yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

3 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7751

1643

1398

1293

1234