Rumah  >  Artikel  >  Peranti teknologi  >  Keluaran baharu sumber terbuka AI Kestabilan: Penjanaan 3D memperkenalkan model penyebaran video, ketekalan kualiti meningkat, 4090 boleh dimainkan

Keluaran baharu sumber terbuka AI Kestabilan: Penjanaan 3D memperkenalkan model penyebaran video, ketekalan kualiti meningkat, 4090 boleh dimainkan

WBOY
WBOYke hadapan
2024-03-20 14:25:181008semak imbas

Stability AI, syarikat di sebalik Stable Diffusion, telah melancarkan sesuatu yang baharu.

Apa yang dibawa oleh ini ialah kemajuan baharu dalam grafik 3D:

Video 3D (SV3D) Stabil berdasarkan Resapan Video Stabil, yang boleh menjana jerat 3D berkualiti tinggi dengan hanya satu gambar.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Stable Video Diffusion (SVD) ialah model yang dikeluarkan sebelum ini oleh Stability AI untuk menjana video resolusi tinggi. Kemunculan SV3D menandakan kali pertama model penyebaran video telah berjaya digunakan dalam bidang penjanaan 3D.

Secara rasmi menyatakan bahawa berdasarkan ini, SV3D telah meningkatkan kualiti dan ketekalan paparan penjanaan 3D. . melihat butiran kertas.

Menggunakan model resapan video untuk penjanaan 3DStability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Memperkenalkan model resapan video terpendam, tujuan teras SV3D adalah untuk menggunakan ketekalan temporal model video untuk meningkatkan ketekalan penjanaan 3D.

Dan data video itu sendiri juga lebih mudah diperoleh daripada data 3D.

Stability AI menyediakan dua versi SV3D kali ini:

SV3D_u: Jana video orbit berdasarkan satu imej.

  • SV3D_p: Memperluaskan fungsi SV3D_u untuk mencipta video model 3D berdasarkan laluan kamera yang ditentukan.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

    Para penyelidik juga menambah baik teknologi pengoptimuman 3D: menggunakan strategi latihan kasar hingga halus, mengoptimumkan jaringan NeRF dan DMTet untuk menjana objek 3D.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩 Mereka juga mereka bentuk fungsi kehilangan khas yang dipanggil pensampelan penyulingan skor bertopeng (SDS) untuk meningkatkan kualiti dan konsistensi model 3D yang dijana dengan mengoptimumkan kawasan yang tidak dapat dilihat secara langsung dalam data latihan.

Pada masa yang sama, SV3D memperkenalkan model pencahayaan berdasarkan Gaussian sfera untuk memisahkan kesan pencahayaan dan tekstur, dengan berkesan mengurangkan masalah pencahayaan terbina dalam sambil mengekalkan kejelasan tekstur.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Khusus dari segi seni bina, SV3D mengandungi komponen utama berikut:

UNet: SV3D dibina berdasarkan SVD dan mengandungi UNet berbilang lapisan, di mana setiap lapisan mempunyai siri blok sisa (termasuk Lapisan konvolusi 3D) dan dua modul Transformer yang masing-masing memproses maklumat spatial dan temporal.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩Input bersyarat: Imej input dibenamkan ke dalam ruang terpendam melalui pengekod VAE, digabungkan dengan keadaan pendam hingar, dan input ke dalam UNet bersama-sama matriks benam CLIP bagi imej input digunakan sebagai kunci setiap salib modul Transformer -pasangan nilai lapisan perhatian.

Pengekodan trajektori kamera: SV3D mereka bentuk dua jenis trajektori, statik dan dinamik, untuk mengkaji kesan keadaan sikap kamera. Dalam orbit statik, kamera mengelilingi objek pada sudut azimut yang dijarakkan secara tetap dalam orbit dinamik, kamera membenarkan sudut azimut jarak yang tidak teratur dan sudut ketinggian yang berbeza.

  • Maklumat trajektori gerakan kamera dan maklumat masa hingar resapan akan dimasukkan ke dalam modul sisa bersama-sama dan ditukar kepada pembenaman kedudukan sinusoidal Kemudian maklumat terbenam ini akan disepadukan dan diubah secara linear, dan ditambah pada masa hingar pembenaman langkah.
  • Reka bentuk sedemikian bertujuan untuk meningkatkan keupayaan model untuk memproses imej dengan mengawal trajektori kamera dan input hingar dengan halus.

Selain itu, SV3D menggunakan CFG (panduan bebas pengelas) semasa proses penjanaan untuk mengawal ketajaman penjanaan, terutamanya apabila menjana beberapa bingkai terakhir trek, penskalaan CFG segi tiga digunakan untuk mengelakkan penajaman berlebihan .

Para penyelidik melatih SV3D pada set data Objaverse, dengan resolusi imej 575×576 dan medan pandangan 33.8 darjah. Makalah ini mendedahkan bahawa ketiga-tiga model (SV3D_u, SV3D_c, SV3D_p) telah dilatih pada 4 nod selama kira-kira 6 hari, setiap nod dilengkapi dengan 8 80GB A100 GPU.

Hasil eksperimen

Dari segi sintesis perspektif baharu (NVS) dan pembinaan semula 3D, SV3D mengatasi kaedah sedia ada lain dan mencapai SOTA.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Berdasarkan hasil perbandingan kualitatif, paparan berbilang paparan yang dijana oleh SV3D mempunyai butiran yang lebih kaya dan lebih dekat dengan imej input asal. Dalam erti kata lain, SV3D boleh menangkap butiran dengan lebih tepat dan mengekalkan konsistensi apabila melihat perubahan sudut dalam memahami dan membina semula struktur 3D objek.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Hasil sebegini telah membangkitkan emosi ramai netizen:

Boleh dibayangkan dalam tempoh 6-12 bulan akan datang, teknologi generasi 3D akan digunakan dalam permainan dan projek video.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Selalu ada beberapa idea berani di ruang komen...

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Dan projek itu adalah sumber terbuka.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Pautan rujukan:
[1]https://twitter.com/StabilityAI/status/1769817136799855098.
[2]https://stability.ai/news/introducing-stable-video-3d.
[3]https://sv3d.github.io/index.html.

Atas ialah kandungan terperinci Keluaran baharu sumber terbuka AI Kestabilan: Penjanaan 3D memperkenalkan model penyebaran video, ketekalan kualiti meningkat, 4090 boleh dimainkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam