Universiti Sains dan Teknologi Shanghai dan lain-lain mengeluarkan DreamFace: hanya teks boleh menjana 'manusia digital 3D yang hiper-realistik'-AI-php.cn

Universiti Sains dan Teknologi Shanghai dan lain-lain mengeluarkan DreamFace: hanya teks boleh menjana 'manusia digital 3D yang hiper-realistik'

王林

May 17, 2023 am 08:02 AM

lelaki digital

Dengan pembangunan model bahasa besar (LLM), penyebaran (Diffusion) dan teknologi lain, kelahiran produk seperti ChatGPT dan Midjourney telah mencetuskan gelombang baru kegilaan AI, dan AI generatif juga telah menjadi topik yang amat membimbangkan.

Tidak seperti teks dan imej, penjanaan 3D masih dalam peringkat penerokaan teknologi.

Pada penghujung tahun 2022, Google, NVIDIA dan Microsoft telah melancarkan kerja penjanaan 3D mereka sendiri secara berturut-turut, tetapi kebanyakannya adalah berdasarkan ungkapan tersirat Neural Radiation Field (NeRF) dan tidak serasi dengan perisian 3D industri Saluran paip Rendering seperti Unity, Unreal Engine dan Maya tidak serasi.

Walaupun ia ditukar kepada peta geometri dan warna yang dinyatakan oleh Mesh melalui penyelesaian tradisional, ia akan menyebabkan ketepatan yang tidak mencukupi dan kualiti visual yang berkurangan, dan tidak boleh digunakan secara langsung pada pengeluaran filem dan televisyen dan pengeluaran permainan.

Universiti Sains dan Teknologi Shanghai dan lain-lain mengeluarkan DreamFace: hanya teks boleh menjana manusia digital 3D yang hiper-realistik

Tapak web projek: https://sites.google.com/view/dreamface

Alamat kertas: https://arxiv.org/abs/2304.03117

Demo Web: https ://hyperhuman.top

Ruang Muka Peluk: https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar

Untuk menyelesaikan masalah ini, pasukan R&D dari Yingmo Technology dan ShanghaiTech University mencadangkan rangka kerja penjanaan 3D progresif berpandukan teks.

Rangka kerja memperkenalkan set data luaran (termasuk bahan geometri dan PBR) yang mematuhi piawaian pengeluaran CG, dan boleh menjana secara langsung aset 3D yang mematuhi piawaian ini berdasarkan teks pertama untuk menyokong rangka kerja Sedia Pengeluaran A untuk penjanaan aset 3D.

Untuk mencapai manusia digital hiper-realistik 3D yang dipacu penjanaan teks, pasukan itu menggabungkan rangka kerja ini dengan set data manusia digital 3D gred pengeluaran. Kerja ini telah diterima oleh Transactions on Graphics, jurnal antarabangsa teratas dalam bidang grafik komputer, dan akan dibentangkan di SIGGRAPH 2023, persidangan grafik komputer antarabangsa teratas.

DreamFace terutamanya merangkumi tiga modul, penjanaan geometri, penyebaran bahan berasaskan fizik dan penjanaan keupayaan animasi.

Berbanding dengan karya generasi 3D sebelumnya, sumbangan utama karya ini termasuk:

· Cadangan DreamFace Novel ini pendekatan generatif menggabungkan model bahasa visual terkini dengan aset muka boleh animasi dan fizikal, menggunakan pembelajaran progresif untuk memisahkan geometri, rupa dan keupayaan animasi.

· Memperkenalkan reka bentuk penjanaan penampilan dwi saluran, menggabungkan model penyebaran bahan novel dengan model pra-latihan, serentak dalam ruang terpendam dan ruang imej Lakukan pengoptimuman dua peringkat.

· Aset muka menggunakan BlendShapes atau Personalized BlendShapes yang dihasilkan mempunyai keupayaan animasi dan seterusnya menunjukkan penggunaan DreamFace untuk reka bentuk watak semula jadi.

Penjanaan geometri

Modul penjanaan geometri boleh menjana model geometri yang konsisten berdasarkan gesaan teks. Walau bagaimanapun, apabila ia datang untuk menghadapi penjanaan, ini boleh menjadi sukar untuk diawasi dan berkumpul.

Oleh itu, DreamFace mencadangkan rangka kerja pemilihan berdasarkan CLIP (Contrastive Language-Image Pra-Training), yang mula-mula memilih calon terbaik daripada calon sampel rawak dalam ruang parameter geometri muka model geometri kasar yang baik dan kemudian memahat butiran geometri untuk menjadikan model kepala lebih konsisten dengan gesaan teks.

Universiti Sains dan Teknologi Shanghai dan lain-lain mengeluarkan DreamFace: hanya teks boleh menjana manusia digital 3D yang hiper-realistik

Menurut gesaan input, DreamFace menggunakan model CLIP untuk memilih calon geometri kasar dengan skor padanan tertinggi. Seterusnya, DreamFace menggunakan model resapan tersirat (LDM) untuk melakukan pemprosesan Pensampelan Penyulingan Berskor (SDS) pada imej yang diberikan di bawah sudut tontonan rawak dan keadaan pencahayaan.

Ini membolehkan DreamFace menambah butiran muka pada model geometri kasar melalui anjakan bucu dan peta normal yang terperinci, menghasilkan geometri yang sangat terperinci.

Sama seperti model kepala, DreamFace juga membuat pilihan gaya rambut dan warna berdasarkan rangka kerja ini.

Penjanaan resapan bahan berasaskan fizikal

Modul resapan bahan berasaskan fizikal direka untuk meramalkan tekstur muka yang konsisten dengan geometri dan isyarat teks yang diramalkan.

Pertama, DreamFace memperhalusi LDM pra-latihan pada set data bahan UV berskala besar yang dikumpul untuk mendapatkan dua model penyebaran LDM.

Universiti Sains dan Teknologi Shanghai dan lain-lain mengeluarkan DreamFace: hanya teks boleh menjana manusia digital 3D yang hiper-realistik

DreamFace menggunakan skema latihan bersama yang menyelaraskan dua proses penyebaran, satu untuk menafikan secara langsung peta tekstur UV dan satu lagi digunakan untuk mengawasi imej yang diberikan untuk memastikan pembentukan peta UV muka yang betul dan imej yang dihasilkan konsisten dengan isyarat teks.

Untuk mengurangkan masa penjanaan, DreamFace menggunakan peringkat resapan potensi tekstur kasar untuk menyediakan potensi priori untuk penjanaan tekstur terperinci.

Universiti Sains dan Teknologi Shanghai dan lain-lain mengeluarkan DreamFace: hanya teks boleh menjana manusia digital 3D yang hiper-realistik

Untuk memastikan peta tekstur yang dibuat tidak mengandungi ciri atau situasi pencahayaan yang tidak diingini sambil mengekalkan kepelbagaian, reka bentuk A strategi pembelajaran cued.

Pasukan menggunakan dua kaedah untuk menjana peta meresap berkualiti tinggi:

(1) Penalaan Segera. Tidak seperti isyarat teks khusus domain buatan tangan, DreamFace menggabungkan dua isyarat teks berterusan khusus domain Cd dan Cu dengan isyarat teks yang sepadan, yang akan dioptimumkan semasa latihan denoiser U-Net untuk mengelakkan ketidakstabilan dan penulisan gesaan manual yang memakan masa.

(2) Topeng bukan kawasan muka. Proses denoising LDM akan dikekang tambahan oleh topeng bukan kawasan muka untuk memastikan peta meresap yang terhasil tidak mengandungi sebarang unsur yang tidak diingini.

Universiti Sains dan Teknologi Shanghai dan lain-lain mengeluarkan DreamFace: hanya teks boleh menjana manusia digital 3D yang hiper-realistik

Sebagai langkah terakhir, DreamFace menggunakan modul resolusi super untuk menjana tekstur berasaskan fizikal 4K untuk kualiti tinggi rendering.

Universiti Sains dan Teknologi Shanghai dan lain-lain mengeluarkan DreamFace: hanya teks boleh menjana manusia digital 3D yang hiper-realistik

Rangka kerja DreamFace telah mencapai hasil yang cukup baik dalam menjana selebriti dan menjana watak berdasarkan huraian Dalam Kajian Pengguna Diperolehi keputusan yang jauh melebihi kerja sebelumnya. Berbanding dengan kerja sebelumnya, ia juga mempunyai kelebihan yang jelas dalam masa berjalan.

Universiti Sains dan Teknologi Shanghai dan lain-lain mengeluarkan DreamFace: hanya teks boleh menjana manusia digital 3D yang hiper-realistik

Selain itu, DreamFace juga menyokong penyuntingan tekstur menggunakan pembayang dan lakaran. Kesan penyuntingan global seperti penuaan dan solek boleh dicapai dengan terus menggunakan tekstur LDM dan isyarat yang diperhalusi. Dengan menggabungkan lagi topeng atau lakaran, pelbagai kesan boleh dicipta seperti tatu, janggut, dan tanda lahir.

Universiti Sains dan Teknologi Shanghai dan lain-lain mengeluarkan DreamFace: hanya teks boleh menjana manusia digital 3D yang hiper-realistik

Penjanaan keupayaan animasi

Universiti Sains dan Teknologi Shanghai dan lain-lain mengeluarkan DreamFace: hanya teks boleh menjana manusia digital 3D yang hiper-realistik

Model yang dihasilkan oleh DreamFace mempunyai keupayaan animasi. Tidak seperti kaedah berasaskan BlendShapes, kaedah animasi muka saraf DreamFace menghasilkan animasi diperibadikan dengan meramalkan ubah bentuk unik untuk menghidupkan model Neutral yang terhasil.

Pertama, penjana geometri dilatih untuk mempelajari ruang terpendam ungkapan, di mana penyahkod dilanjutkan untuk dikondisikan pada geometri neutral. Kemudian, pengekod ekspresi dilatih lagi untuk mengekstrak ciri ekspresi daripada imej RGB. Oleh itu, DreamFace mampu menjana animasi diperibadikan yang dikondisikan pada bentuk geometri neutral menggunakan imej RGB monokular.

Berbanding DECA yang menggunakan BlendShapes generik untuk kawalan ekspresi, rangka kerja DreamFace memberikan butiran ekspresi yang halus dan mampu menangkap persembahan dengan perincian yang halus.

Kesimpulan

Kertas kerja ini memperkenalkan DreamFace, rangka kerja penjanaan 3D progresif berpandukan teks yang menggabungkan model bahasa visual terkini, model Difusi tersirat dan secara fizikal berasaskan teknik penyebaran bahan.

Inovasi utama DreamFace termasuk penjanaan geometri, penjanaan penyebaran bahan berasaskan fizikal dan penjanaan keupayaan animasi. Berbanding dengan kaedah penjanaan 3D tradisional, DreamFace mempunyai ketepatan yang lebih tinggi, kelajuan larian yang lebih pantas dan keserasian saluran paip CG yang lebih baik.

Rangka kerja penjanaan progresif DreamFace menyediakan penyelesaian yang berkesan untuk menyelesaikan tugas penjanaan 3D yang kompleks dan dijangka mempromosikan penyelidikan dan pembangunan teknologi yang lebih serupa.

Selain itu, penjanaan penyebaran bahan berasaskan fizikal dan penjanaan keupayaan animasi akan menggalakkan aplikasi teknologi penjanaan 3D dalam pengeluaran filem dan televisyen, pembangunan permainan dan industri lain yang berkaitan.

Atas ialah kandungan terperinci Universiti Sains dan Teknologi Shanghai dan lain-lain mengeluarkan DreamFace: hanya teks boleh menjana 'manusia digital 3D yang hiper-realistik'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Carta 10 kuasa bi yang paling banyak digunakan - Analytics VidhyaApr 16, 2025 pm 12:05 PM

Memanfaatkan kekuatan visualisasi data dengan carta Microsoft Power BI Dalam dunia yang didorong oleh data hari ini, dengan berkesan menyampaikan maklumat yang rumit kepada penonton bukan teknikal adalah penting. Visualisasi data jambatan jurang ini, mengubah data mentah i

Sistem Pakar di AIApr 16, 2025 pm 12:00 PM

Sistem Pakar: menyelam yang mendalam ke dalam kuasa membuat keputusan AI Bayangkan mempunyai akses kepada nasihat pakar mengenai apa -apa, dari diagnosis perubatan kepada perancangan kewangan. Itulah kuasa sistem pakar dalam kecerdasan buatan. Sistem ini meniru pro

Tiga coder getaran terbaik memecahkan revolusi AI ini dalam kodApr 16, 2025 am 11:58 AM

Pertama sekali, jelas bahawa ini berlaku dengan cepat. Pelbagai syarikat bercakap mengenai perkadaran kod mereka yang kini ditulis oleh AI, dan ini semakin meningkat pada klip pesat. Terdapat banyak anjakan pekerjaan

Runway AI's Gen-4: Bagaimanakah montaj AI boleh melampaui kebodohanApr 16, 2025 am 11:45 AM

Industri filem, bersama semua sektor kreatif, dari pemasaran digital ke media sosial, berdiri di persimpangan teknologi. Sebagai kecerdasan buatan mula membentuk semula setiap aspek bercerita visual dan mengubah landskap hiburan

Bagaimana untuk mendaftar selama 5 hari kursus percuma ISRO AI? - Analytics VidhyaApr 16, 2025 am 11:43 AM

Kursus Online AI/ML percuma ISRO: Gerbang ke Inovasi Teknologi Geospatial Pertubuhan Penyelidikan Angkasa India (ISRO), melalui Institut Pengesan Jauh India (IIRS), menawarkan peluang yang hebat untuk pelajar dan profesional

Algoritma Carian Tempatan di AIApr 16, 2025 am 11:40 AM

Algoritma Carian Tempatan: Panduan Komprehensif Merancang acara berskala besar memerlukan pengagihan beban kerja yang cekap. Apabila pendekatan tradisional gagal, algoritma carian tempatan menawarkan penyelesaian yang kuat. Artikel ini meneroka pendakian bukit dan simul

Terbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kosApr 16, 2025 am 11:37 AM

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Prompt: CHATGPT menjana pasport palsuApr 16, 2025 am 11:35 AM

Gergasi Chip Nvidia berkata pada hari Isnin ia akan memulakan pembuatan superkomputer AI - mesin yang boleh memproses sejumlah besar data dan menjalankan algoritma kompleks - sepenuhnya dalam A.S. untuk kali pertama. Pengumuman itu datang selepas Presiden Trump Si

See all articles