Rumah  >  Artikel  >  Peranti teknologi  >  Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit

Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit

WBOY
WBOYke hadapan
2024-01-10 23:09:511133semak imbas

Hanya mengambil masa dua minit untuk menukar gambar kepada 3D!

Ia juga jenis dengan kualiti tekstur yang tinggi, pelbagai tontonan dan konsistensi yang tinggi. .

); Seterusnya, Repaint123 (

GSDihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit)

Kaedah baharu dipanggil

Repaint123

Idea teras adalah untuk menggabungkan keupayaan penjanaan imej yang berkuasa bagi model penyebaran 2D dengan keupayaan penjajaran tekstur untuk menjana semula yang tinggi. imej berbilang paparan yang berkualiti dan konsisten. Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit

Selain itu, penyelidikan ini juga memperkenalkan kaedah intensiti pengecatan semula adaptif yang sedar keterlihatan untuk kawasan bertindih.

Repaint123 menyelesaikan masalah kaedah sebelumnya seperti sisihan berbilang pandangan yang besar, degradasi tekstur, dan penjanaan perlahan dalam satu gerakan.
Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit

Pada masa ini, kod projek belum dikeluarkan pada GitHub, tetapi 100+ orang telah datang untuk menandakannya:

Apakah rupa Repaint123? Sebelum ini, kaedah menukar imej kepada 3D biasanya menggunakan Score Distillation Sampling (SDS). Walaupun hasil kaedah ini mengagumkan, terdapat beberapa isu seperti ketidakkonsistenan berbilang paparan, terlalu tepu, tekstur terlalu licin dan penjanaan perlahan.

△Dari atas ke bawah: input, Zero123-XL, Magic123, Dream gaussian

Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minitUntuk menyelesaikan masalah ini, penyelidik dari Universiti Peking, Makmal Pengcheng, Universiti Nasional Singapura dan Universiti Wuhan mencadangkan Cat Semula123.

Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minitSecara amnya, Repaint123 mempunyai sumbangan berikut:

(1) Repaint123 boleh menjana jujukan imej berkualiti tinggi dengan mempertimbangkan secara menyeluruh proses lukisan semula yang boleh dikawal daripada imej kepada penjanaan 3D, dan memastikan imej ini konsisten merentas berbilang perspektif.

(2)Repaint123 mencadangkan kaedah garis dasar yang mudah untuk penjanaan 3D paparan tunggal.

Dalam peringkat model kasar, ia menggunakan Zero123 sebagai 3D sebelumnya, digabungkan dengan fungsi kehilangan SDS, untuk menjana model 3D kasar (hanya 1 minit) dengan cepat dengan mengoptimumkan geometri Gaussian Splatting. Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit
Dalam peringkat model halus, ia menggunakan Stable Diffusion sebagai 2D sebelumnya, digabungkan dengan fungsi kehilangan min square error (MSE), untuk menjana model 3D berkualiti tinggi dengan menapis tekstur mesh dengan cepat (juga hanya mengambil masa 1 minit) .

(3) Sebilangan besar eksperimen telah membuktikan keberkesanan kaedah Repaint123. Ia mampu menjana kandungan 3D berkualiti tinggi yang sepadan dengan kualiti penjanaan 2D daripada satu imej dalam masa 2 minit sahaja.

Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit

△Mencapai penjanaan pantas 3D paparan tunggal yang konsisten dan berkualiti tinggi

Mari kita lihat kaedah khusus.

Repaint123 memfokuskan pada mengoptimumkan peringkat penghalusan jejaring, dan arahan penambahbaikan utamanya meliputi dua aspek: menjana jujukan imej berkualiti tinggi dengan ketekalan berbilang paparan dan mencapai pembinaan semula 3D yang pantas dan berkualiti tinggi.

1. Menjana jujukan imej berkualiti tinggi dengan konsisten berbilang paparan

Menjana jujukan imej berkualiti tinggi dengan konsisten berbilang paparan terbahagi kepada tiga bahagian berikut:

Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit
△Penjanaan imej konsisten berbilang paparan proses

Penyongsangan DDIM

Untuk mengekalkan maklumat tekstur frekuensi rendah konsisten 3D yang dijana dalam peringkat model kasar, pengarang menggunakan penyongsangan DDIM untuk menyongsangkan imej ke ruang pendam yang ditentukan, meletakkan asas untuk denoising berikutnya proses, menghasilkan imej Setia dan konsisten.

Penyangkalan yang boleh dikawal

Untuk mengawal ketekalan geometri dan ketekalan tekstur jarak jauh dalam peringkat denoising, penulis memperkenalkan ControlNet, menggunakan peta kedalaman yang diberikan oleh model kasar sebagai prior geometri, dan pada masa yang sama menyuntik ciri Perhatian rujukan imej untuk migrasi tekstur.

Selain itu, untuk melaksanakan panduan tanpa pengelas untuk meningkatkan kualiti imej, kertas kerja menggunakan CLIP untuk mengekod imej rujukan kepada isyarat imej untuk membimbing rangkaian denoising.

Lukis Semula

Lukisan semula progresif bahagian oklusi dan bahagian bertindih Untuk memastikan kawasan bertindih imej bersebelahan dalam jujukan imej diselaraskan pada tahap piksel, penulis mengamalkan strategi lukisan semula tempatan progresif.

Jana kawasan bersebelahan yang harmoni sambil mengekalkan kawasan bertindih tidak berubah, dan secara beransur-ansur memanjangkan hingga 360° dari perspektif rujukan.

Namun, seperti yang ditunjukkan dalam rajah di bawah, penulis mendapati bahawa kawasan bertindih juga perlu diperhalusi, kerana resolusi visual kawasan yang sebelum ini strabismus menjadi lebih besar semasa emmetropia, dan lebih banyak maklumat frekuensi tinggi perlu ditambah.

Selain itu, keamatan penipisan adalah sama dengan 1-cosθ*, di mana θ* ialah nilai maksimum sudut θ antara semua sudut kamera sebelumnya dan vektor normal permukaan yang dilihat, dengan itu melukis semula pertindihan secara adaptif kawasan.

Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit

△Hubungan antara sudut kamera dan keamatan penipisan

Untuk memilih intensiti penipisan yang sesuai untuk memastikan kesetiaan sambil meningkatkan kualiti, penulis menggunakan teorem unjuran dan idea resolusi super imej dan mencadangkan strategi lukis semula sedar keterlihatan yang ringkas dan mudah untuk memperhalusi kawasan yang bertindih.

2. Pembinaan semula 3D yang pantas dan berkualiti tinggi

Seperti yang ditunjukkan dalam rajah di bawah, penulis menggunakan kaedah dua peringkat dalam proses pembinaan semula 3D yang pantas dan berkualiti tinggi. .

Pada masa yang sama, dengan bantuan jujukan imej berkualiti tinggi berbilang paparan yang dijana sebelum ini, pengarang dapat melakukan pembinaan semula tekstur 3D yang pantas menggunakan ralat min kuasa dua yang mudah Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit (MSE)
kerugian.

Ketekalan optimum, kualiti dan kelajuan

Penyelidik membandingkan kaedah pada berbilang tugas penjanaan satu paparan.

△Perbandingan visualisasi generasi 3D paparan tunggal

Pada set data RealFusion15 dan Test-alpha, Repaint123 mencapai keputusan yang paling terkemuka dalam tiga aspek: ketekalan, kualiti dan kelajuan.

Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit

Pada masa yang sama, penulis juga menjalankan eksperimen ablasi terhadap keberkesanan setiap modul yang digunakan di dalam kertas dan kenaikan putaran sudut tontonan:

Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit

dan mendapati bahawa apabila sudut tontonan ialah 60 darjah, prestasi mencapai kemuncak, Walau bagaimanapun, selang sudut tontonan yang berlebihan akan mengurangkan kawasan bertindih dan meningkatkan kemungkinan masalah pelbagai segi, jadi 40 darjah boleh digunakan sebagai selang sudut tontonan yang optimum.

Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit
Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit

Alamat kertas: https://arxiv.org/pdf/2312.13271.pdf

Alamat kod: https://pku-yuangroup.github.io/repaint123/Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit:Alamat projek

https //pku-yuangroup.github.io/repaint123/

Atas ialah kandungan terperinci Dihasilkan oleh Universiti Peking: SOTA terkini dengan kualiti tekstur dan konsistensi berbilang paparan, mencapai penukaran 3D satu imej dalam masa 2 minit. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam