Rumah >Peranti teknologi >AI >0.5 saat, tiada GPU diperlukan, AI Kestabilan dan imej tunggal sumber terbuka VAST pasukan China untuk menjana model 3D TripoSR
Baru-baru ini, model video Vincent Sora telah mencetuskan gelombang baharu model AI generatif, dan keupayaan pelbagai mod model itu telah menarik perhatian meluas.
Kini, model AI telah membuat penemuan baharu dalam penjanaan kandungan 3D.
Selepas berjaya melancarkan projek penjanaan imej dan penjanaan video, Stability AI, yang mengkhusus dalam penjanaan kandungan visual, kini komited untuk berkembang ke dalam bidang 3D. Berita terkini menunjukkan bahawa syarikat itu telah bekerjasama dengan pasukan China VAST untuk bersama-sama membuka sumber projek model 3D terjana imej tunggal yang dipanggil TripoSR. Langkah ini mengukuhkan lagi kedudukan utama Stability AI dalam bidang penjanaan kandungan digital dan membawa pengguna pengalaman produk yang lebih pelbagai dan inovatif.
TripoSR mampu menjana model 3D berkualiti tinggi daripada satu imej dalam 0.5s dan tidak memerlukan GPU untuk dijalankan.
Kod model TripoSR: https://github.com/VAST-AI-Research/TripoSR
Berat model TripoSR: https://huggingface.co/stabilityai/TripoSR
Demo: https://huggingface.co/spaces/stabilityai/TripoSRSumber terbuka TripoSR membolehkan penyelidik, pembangun dan pekerja kreatif di seluruh dunia mengakses model AI termaju 3D termaju, membolehkan pelbagai syarikat menggunakan kandungan 3D untuk mencipta produk dan perkhidmatan yang lebih kompleks, dan meneroka kemungkinan kreatif baharu dalam industri 3D, mempromosikan pasaran yang lebih aktif dan berdaya saing.性 Carta menunjukkan hubungan antara prestasi 3D F-SCORE (lebih tinggi lebih baik) dan masa penaakulan (lebih rendah lebih baik).
Teknologi penjanaan kandungan 3D telah mengalami perkembangan yang mantap dalam bidang grafik komputer dan penglihatan komputer dalam beberapa tahun kebelakangan ini. Pada tahun lalu atau lebih, terutamanya dengan kemunculan set data 3D awam berskala besar dan kemajuan model generatif yang berkuasa dalam bidang imej dan video 2D, teknologi generatif 3D telah mencapai kemajuan yang luar biasa dan pesat, menarik perhatian meluas daripada industri . Dalam konteks ini, walaupun teknologi berdasarkan pensampelan penyulingan skor (SDS) seperti DreamFusion (yang dicadangkan oleh pasukan Penyelidikan Google) telah membuat penemuan dalam menghasilkan model 3D dari pelbagai perspektif, mereka masih menghadapi masa penjanaan yang panjang dan kesukaran dalam aplikasi praktikal. kawalan berbutir ke atas kekangan seperti model yang dihasilkan.Sebaliknya, penyelesaian teknologi penjanaan berdasarkan set data 3D berskala besar dan seni bina model berskala besar, seperti TripoSR yang dikeluarkan kali ini, menunjukkan keupayaan untuk melatih set data 3D yang berbeza dengan cekap hanya memerlukan Ia memerlukan penaakulan ke hadapan pantas dan kawalan yang mudah dan halus ke atas keputusan model 3D semasa proses penjanaan. Kemunculan teknologi jenis ini bukan sahaja membuka laluan baharu untuk perkembangan pesat teknologi penjanaan 3D, tetapi juga menyediakan kemungkinan baharu untuk aplikasi yang lebih luas dalam industri.
Sumber imej dan data: TripoSR: Pembinaan Semula Objek 3D Pantas daripada Imej Tunggal
Perlu diingat bahawa kali ini, sumber terbuka bersama Stability AI Tripo AI. VAST AI Research, institusi penyelidikan di sebalik Tripo AI, ialah pasukan penyelidikan termaju dalam bidang penjanaan kandungan 3D Ia telah komited untuk sumbangan komuniti sumber terbuka sejak penubuhannya, dan telah berturut-turut membuka sumber kod dan berat yang tinggi. -kerja penyelidikan yang berkualiti seperti Wonder3D, CSD, dan TGS.Tripo ialah model generatif 3D universal yang dilancarkan oleh VAST sejak Disember 2023 (www.tripo3d.ai). Ia boleh menjana model jaring 3D daripada teks atau gambar dalam masa 8 saat, dan memperhalusinya dalam masa 5 minit Kualiti model yang dihasilkan adalah hampir dengan tahap manual dari segi geometri dan bahan. Menurut blog VAST AI Research, perkembangan pesat AI dalam bidang penjanaan 3D memerlukan "pendekatan universal" yang melepaskan diri daripada pergantungan pada pengalaman manusia dan menggunakan data yang lebih besar, model yang lebih berskala dan penggunaan penuh pengkomputeran yang berkuasa kuasa. Datang dan "belajar". "Pendekatan universal" ini harus termasuk penyatuan data latihan untuk pelbagai modaliti, penyatuan keadaan kawalan untuk pelbagai modaliti, dan infrastruktur model generatif yang biasa kepada pelbagai modaliti.
Untuk mencapai matlamat ini, VAST percaya bahawa kerja perlu dilakukan dari tiga arah: perwakilan, model dan data. Antaranya, pilihan "perwakilan" adalah penting untuk mencari perwakilan 3D yang fleksibel dan mesra pengiraan, sambil memastikan keserasian dengan saluran paip grafik yang sedia ada. Selain itu, menerokai "tokenizer 3D" juga merupakan hala tuju yang menjanjikan, menukar perwakilan 3D ke dalam bentuk yang serupa dengan token bahasa, yang boleh membantu menggunakan pemahaman dan model penjanaan sedia ada pada medan 3D. Di peringkat "model", penyelidikan VAST bertujuan untuk menggunakan sepenuhnya pengetahuan sedia ada, garis panduan reka bentuk dan pengalaman latihan model besar dalam modaliti lain untuk meningkatkan keupayaan pembelajaran model untuk data 3D. Cabaran di peringkat "data" tidak boleh diabaikan Kekurangan sumber set data 3D yang berkualiti tinggi, asli dan pelbagai mengehadkan prestasi akhir dan keupayaan generalisasi model. TripoSR membolehkan kami melihat potensi model AI generatif dalam arah 3D, dan kami menantikan lebih banyak penerokaan baharu dalam bidang penjanaan 3D pada tahun 2024. Pautan rujukan:https://stability.ai/news/triposr-3d-generation?utm_source=x&utm_medium=website&utm_campaign=blog
Atas ialah kandungan terperinci 0.5 saat, tiada GPU diperlukan, AI Kestabilan dan imej tunggal sumber terbuka VAST pasukan China untuk menjana model 3D TripoSR. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!