Stable Video 3D membuat penampilan pertama yang mengejutkan: satu imej menghasilkan video 3D tanpa bintik buta dan berat model dibuka-AI-php.cn

Stable Video 3D membuat penampilan pertama yang mengejutkan: satu imej menghasilkan video 3D tanpa bintik buta dan berat model dibuka

王林

Mar 20, 2024 pm 10:31 PM

aidata

Stability AI mempunyai ahli baharu dalam keluarga model besarnya.

Semalam, selepas melancarkan Stable Diffusion dan Stable Video Diffusion, Stability AI membawakan model penjanaan video 3D yang besar "Stable Video 3D" (pendek kata SV3D) kepada komuniti.

Model ini dibina berdasarkan Stable Video Diffusion, kelebihan utamanya ialah ia meningkatkan dengan ketara kualiti penjanaan 3D dan konsistensi berbilang paparan. Berbanding dengan Stable Zero123 sebelumnya yang dilancarkan oleh Stability AI dan sumber terbuka bersama Zero123-XL, kesan model ini lebih baik.

Pada masa ini, Stable Video 3D menyokong kedua-dua penggunaan komersial, yang memerlukan keahlian Stability AI (Keahlian) dan penggunaan bukan komersial, di mana pengguna boleh memuat turun berat model pada Wajah Memeluk.

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

Stability AI menyediakan dua varian model iaitu SV3D_u dan SV3D_p. SV3D_u menjana video orbital berdasarkan input imej tunggal tanpa memerlukan pelarasan kamera, manakala SV3D_p memanjangkan lagi keupayaan penjanaan dengan menyesuaikan imej tunggal dan perspektif orbit, membolehkan pengguna mencipta video 3D di sepanjang laluan kamera yang ditentukan.

Pada masa ini, kertas penyelidikan mengenai Stable Video 3D telah dikeluarkan, dengan tiga pengarang teras.

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

Alamat kertas: https://stability.ai/s/SV3D_report.pdf
Alamat blog: https://stability-ing-s/introducvideo 3d
Huggingface Alamat: https://huggingface.co/stabilityai/sv3d

Tinjauan Teknikal

Stable Video 3D telah mencapai kemajuan yang ketara dalam penjanaan novel 3D terutamanya dalam penjanaan novel synthes , NVS).

Kaedah terdahulu selalunya cenderung untuk menyelesaikan masalah sudut tontonan yang terhad dan input yang tidak konsisten, manakala Video 3D Stabil mampu memberikan pandangan yang koheren dari mana-mana sudut tertentu dan membuat generalisasi dengan baik. Hasilnya, model ini bukan sahaja meningkatkan kebolehkawalan pose tetapi juga memastikan penampilan objek yang konsisten merentas pelbagai paparan, menambah baik lagi isu utama yang mempengaruhi penjanaan 3D yang realistik dan tepat.

Seperti yang ditunjukkan dalam rajah di bawah, berbanding dengan Stable Zero123 dan Zero-XL, Stable Video 3D mampu menjana berbilang paparan novel dengan butiran yang lebih kukuh, lebih setia kepada imej input dan berbilang sudut pandangan yang lebih konsisten.

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

Selain itu, Stable Video 3D memanfaatkan ketekalan berbilang paparannya untuk mengoptimumkan Medan Sinaran Neural 3D (NeRF) untuk meningkatkan kualiti jejaring 3D yang dijana terus daripada paparan baharu.

Untuk tujuan ini, Stability AI mereka bentuk kehilangan pensampelan penyulingan pecahan topeng yang meningkatkan lagi kualiti 3D kawasan ghaib dalam paparan yang diramalkan. Juga untuk mengurangkan isu pencahayaan bakar, Stable Video 3D menggunakan model pencahayaan terpisah yang dioptimumkan dengan bentuk dan tekstur 3D.

Gambar di bawah menunjukkan contoh penjanaan jejaring 3D yang dipertingkatkan melalui pengoptimuman 3D apabila menggunakan model 3D Video Stabil dan outputnya.

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

Gambar di bawah menunjukkan perbandingan hasil jejaring 3D yang dijana menggunakan Stable Video 3D dengan yang dijana oleh EscherNet dan Stable Zero123. Butir -butir Architecture

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

Seni bina model 3D video yang stabil ditunjukkan dalam Rajah 2 di bawah. lapisan Ia juga mengandungi jujukan blok baki dengan lapisan Conv3D, dan dua blok pengubah dengan lapisan perhatian (ruang dan temporal).

Proses khusus adalah seperti berikut:

(i) Padamkan syarat vektor "id fps" dan "id baldi gerakan" kerana ia tiada kaitan dengan Stable Video 3D; imej bersyarat melepasi pengekod VAE Stable Video Diffusion dibenamkan ke dalam ruang pendam dan kemudian disambungkan kepada input keadaan pendam hingar zt pada langkah masa hingar t menuju ke UNet

(iii) Matriks CLIPembedding imej bersyarat disediakan; kepada setiap blok pengubah Lapisan perhatian silang bertindak sebagai kunci dan nilai, dan pertanyaan menjadi ciri lapisan yang sepadan

(iv) Trajektori kamera dimasukkan ke dalam blok sisa sepanjang langkah masa hingar resapan. Sudut pose kamera ei dan ai dan langkah masa hingar t mula-mula dibenamkan ke dalam benam kedudukan sinusoidal, kemudian benam pose kamera digabungkan bersama untuk transformasi linear dan ditambah kepada benam langkah masa hingar, dan akhirnya dimasukkan ke dalam setiap blok baki dan ditambah pada ciri input blok.

Selain itu, Stability AI mereka bentuk orbit statik dan orbit dinamik untuk mengkaji kesan pelarasan pose kamera, seperti ditunjukkan dalam Rajah 3 di bawah.

Pada orbit statik, kamera berputar mengelilingi objek dalam azimut sama jarak menggunakan sudut ketinggian yang sama seperti imej keadaan. Kelemahan ini ialah berdasarkan sudut ketinggian yang dilaraskan, anda mungkin tidak mendapat sebarang maklumat tentang bahagian atas atau bawah objek. Dalam orbit dinamik, sudut azimut boleh menjadi tidak sama, dan sudut ketinggian setiap pandangan juga boleh berbeza. Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

Untuk membina orbit dinamik, Stability AI mencontohi orbit statik, menambah hingar rawak kecil pada azimutnya dan gabungan berwajaran rawak sinusoid dengan frekuensi berbeza pada ketinggiannya. Melakukannya memberikan kelancaran sementara dan memastikan trajektori kamera berakhir di sepanjang azimut dan gelung ketinggian yang sama seperti imej keadaan.

Hasil eksperimen

Stability AI menilai kesan berbilang paparan komposit Video 3D Stabil pada orbit statik dan dinamik pada set data GSO dan OmniObject3D yang tidak kelihatan. Keputusan, ditunjukkan dalam Jadual 1 hingga 4 di bawah, menunjukkan bahawa Video 3D Stabil mencapai prestasi terkini dalam sintesis berbilang paparan novel.

Jadual 1 dan Jadual 3 menunjukkan keputusan Video 3D Stabil berbanding model lain pada orbit statik, menunjukkan walaupun model SV3D_u tanpa pelarasan pose berprestasi lebih baik daripada semua kaedah sebelumnya.

Hasil analisis ablasi menunjukkan bahawa SV3D_c dan SV3D_p mengatasi SV3D_u dalam penjanaan trajektori statik, walaupun trajektori statik dilatih secara eksklusif pada trajektori statik.

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

Jadual 2 dan Jadual 4 di bawah menunjukkan hasil penjanaan orbit dinamik, termasuk model pelarasan pose SV3D_c dan SV3D_p, yang kedua mencapai SOTA pada semua metrik. Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

Hasil perbandingan visual dalam Rajah 6 di bawah menunjukkan lagi bahawa berbanding dengan kerja sebelumnya, imej yang dihasilkan oleh Stable Video 3D adalah lebih terperinci, lebih setia kepada imej bersyarat dan lebih konsisten merentas pelbagai perspektif . Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

Sila rujuk kertas asal untuk butiran lanjut teknikal dan keputusan percubaan. Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

Atas ialah kandungan terperinci Stable Video 3D membuat penampilan pertama yang mengejutkan: satu imej menghasilkan video 3D tanpa bintik buta dan berat model dibuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Panduan komprehensif untuk ekstrapolasiApr 15, 2025 am 11:38 AM

Pengenalan Katakan ada petani yang setiap hari memerhatikan kemajuan tanaman dalam beberapa minggu. Dia melihat kadar pertumbuhan dan mula merenungkan betapa lebih tinggi tumbuhannya dapat tumbuh dalam beberapa minggu lagi. Dari th

Kebangkitan AI lembut dan apa maksudnya untuk perniagaan hari iniApr 15, 2025 am 11:36 AM

Soft AI-yang ditakrifkan sebagai sistem AI yang direka untuk melaksanakan tugas-tugas tertentu yang sempit menggunakan penalaran, pengiktirafan corak, dan pengambilan keputusan yang fleksibel-bertujuan untuk meniru pemikiran seperti manusia dengan merangkul kekaburan. Tetapi apa maksudnya untuk busine

Rangka kerja keselamatan yang berkembang untuk sempadan AIApr 15, 2025 am 11:34 AM

Jawapannya jelas-seperti pengkomputeran awan memerlukan peralihan ke arah alat keselamatan awan asli, AI menuntut satu penyelesaian keselamatan baru yang direka khusus untuk keperluan unik AI. Kebangkitan pengkomputeran awan dan pelajaran keselamatan dipelajari Dalam th

3 cara AI Generatif menguatkan usahawan: berhati -hati dengan purata!Apr 15, 2025 am 11:33 AM

Usahawan dan menggunakan AI dan Generatif AI untuk menjadikan perniagaan mereka lebih baik. Pada masa yang sama, adalah penting untuk mengingati AI generatif, seperti semua teknologi, adalah penguat - menjadikan yang hebat dan yang biasa -biasa saja, lebih buruk. Kajian 2024 yang ketat o

Kursus Pendek Baru mengenai Model Embedding oleh Andrew NgApr 15, 2025 am 11:32 AM

Buka kunci kekuatan model embedding: menyelam jauh ke kursus baru Andrew Ng Bayangkan masa depan di mana mesin memahami dan menjawab soalan anda dengan ketepatan yang sempurna. Ini bukan fiksyen sains; Terima kasih kepada kemajuan dalam AI, ia menjadi R

Adakah halusinasi dalam model bahasa besar (LLMS) tidak dapat dielakkan?Apr 15, 2025 am 11:31 AM

Model bahasa besar (LLM) dan masalah halusinasi yang tidak dapat dielakkan Anda mungkin menggunakan model AI seperti ChatGPT, Claude, dan Gemini. Ini semua contoh model bahasa besar (LLM), sistem AI yang kuat yang dilatih dalam dataset teks besar -besaran ke

Masalah 60% - Bagaimana carian AI mengalir trafik andaApr 15, 2025 am 11:28 AM

Penyelidikan baru-baru ini telah menunjukkan bahawa gambaran AI boleh menyebabkan penurunan 15-64% dalam trafik organik, berdasarkan jenis industri dan carian. Perubahan radikal ini menyebabkan pemasar untuk menimbang semula keseluruhan strategi mereka mengenai penglihatan digital. Yang baru

Makmal Media MIT untuk meletakkan manusia berkembang di tengah -tengah AI R & DApr 15, 2025 am 11:26 AM

Laporan baru -baru ini dari Elon University Imagining the Digital Future Centre meninjau hampir 300 pakar teknologi global. Laporan yang dihasilkan, 'Menjadi Manusia pada tahun 2035', menyimpulkan bahawa kebanyakannya bimbang bahawa penggunaan sistem AI yang mendalam lebih daripada t

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7518

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi