Rumah >Peranti teknologi >AI >Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik

Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBke hadapan: 2023-10-07 09:37:01921semak imbas

1. Latar belakang penyelidikan

Kaedah ini tertumpu terutamanya pada anggaran dalaman ) tugasan, tugasan memasukkan gambar 2D dan mengeluarkan model tiga dimensi pemandangan yang diterangkan oleh gambar. Memandangkan kerumitan pengeluaran model 3D secara langsung, tugas ini secara amnya dipecahkan kepada mengeluarkan maklumat tiga baris: garisan dinding, garisan siling dan garisan tanah dalam imej 2D, dan kemudian membina semula model 3D bilik melalui pasca- operasi pemprosesan berdasarkan maklumat talian . Model tiga dimensi boleh digunakan selanjutnya dalam senario aplikasi tertentu seperti pembiakan pemandangan dalaman dan tontonan rumah VR di peringkat kemudian. Berbeza dengan kaedah anggaran kedalaman, kaedah ini memulihkan struktur geometri spatial berdasarkan anggaran garisan dinding dalam bangunan barangan seperti sofa dan kerusi dalam adegan dalaman.

Mengikut imej input, ia boleh dibahagikan kepada kaedah berasaskan perspektif dan berasaskan panorama. Berbanding dengan pandangan perspektif, panorama mempunyai sudut tontonan yang lebih besar dan maklumat imej yang lebih kaya. Dengan mempopularkan peralatan pemerolehan panorama, data panoramik semakin banyak, jadi pada masa ini terdapat banyak algoritma untuk anggaran bingkai dalaman berdasarkan imej panorama yang telah dikaji secara meluas

#🎜 🎜##🎜 🎜# Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik

Algoritma yang berkaitan terutamanya termasuk LayoutNet, HorizonNet, HohoNet dan Led2-Net, dsb. Kebanyakan kaedah ini adalah berdasarkan rangkaian saraf konvolusi, dan kesan ramalan garis dinding adalah lemah dalam lokasi dengan struktur kompleks, seperti gangguan bunyi , oklusi diri, dsb., akan terdapat hasil ramalan seperti ketakselanjaran garisan dinding dan ralat kedudukan garisan dinding. Dalam tugasan anggaran kedudukan garis dinding, hanya memfokuskan pada maklumat ciri tempatan akan membawa kepada jenis ralat ini. Maklumat global dalam panorama perlu digunakan untuk mempertimbangkan pengagihan kedudukan keseluruhan garisan dinding untuk anggaran. Kaedah CNN berprestasi lebih baik dalam tugas mengekstrak ciri tempatan, dan kaedah Transformer lebih baik dalam menangkap maklumat global Oleh itu, kaedah Transformer boleh digunakan untuk tugas anggaran bingkai dalaman untuk meningkatkan prestasi tugas.

Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik

Disebabkan pergantungan data latihan, Transformer berdasarkan perspektif pra-latihan digunakan secara berasingan untuk menganggarkan panorama dalaman kesan bingkai dan Tidak sesuai. Model PanoViT memetakan panorama ke ruang ciri terlebih dahulu, menggunakan Transformer untuk mempelajari maklumat global panorama dalam ruang ciri dan mempertimbangkan maklumat struktur jelas panorama untuk menyelesaikan tugas anggaran bingkai dalaman.

Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik

2. Pengenalan kaedah dan paparan hasil

#🎜

Rangka kerja struktur rangkaian mengandungi 4 modul iaitu Backbone, vision transformer decoder, frame prediction module, dan boundary enhancement modul. Modul Backbone memetakan panorama ke ruang ciri, pengekod pengubah vison mempelajari korelasi global dalam ruang ciri, dan modul ramalan bingkai menukarkan ciri kepada garisan dinding, garisan siling dan maklumat pasca pemprosesan boleh diperoleh lagi model tiga dimensi bilik dan sempadannya Modul peningkatan menyerlahkan peranan maklumat sempadan dalam imej panorama untuk anggaran bingkai dalaman.

① Modul tulang belakang Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik

Disebabkan oleh kesan pengubah yang lemah kepada ekstrak ciri panorama , telah ditunjukkan bahawa keberkesanan kaedah berasaskan CNN ialah ciri CNN boleh digunakan untuk meramalkan bingkai rumah. Oleh itu, kami menggunakan tulang belakang CNN untuk mengekstrak peta ciri skala panorama yang berbeza dan mempelajari maklumat global imej panorama dalam peta ciri. Keputusan eksperimen menunjukkan bahawa kesan menggunakan pengubah dalam ruang ciri adalah jauh lebih baik daripada menerapkannya secara langsung pada panorama

② Modul pengekod pengubah penglihatan

Seni bina utama Transformer boleh dibahagikan kepada tiga modul, termasuk pensampelan tampalan, pembenaman tampalan dan perhatian berbilang kepala pengubah. Input mempertimbangkan kedua-dua peta ciri imej panorama dan imej asal serta menggunakan kaedah pensampelan tampalan yang berbeza untuk input yang berbeza. Imej asal menggunakan kaedah pensampelan seragam, dan peta ciri menggunakan kaedah pensampelan mendatar. Kesimpulan daripada HorizonNet percaya bahawa ciri mendatar adalah lebih penting dalam tugasan anggaran garisan dinding Merujuk kepada kesimpulan ini, ciri peta ciri dimampatkan dalam arah menegak semasa proses pembenaman. Kaedah PE Berulang digunakan untuk menggabungkan ciri-ciri skala yang berbeza dan belajar dalam model transformer perhatian berbilang kepala untuk mendapatkan vektor ciri dengan panjang yang sama dengan arah mendatar imej asal Taburan garis dinding yang sepadan boleh diperolehi melalui kepala penyahkod yang berbeza.

Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik

Pengekodan kedudukan kitaran rawak (Pembenaman Kedudukan Berulang) mengambil kira bahawa anjakan mendatar panorama tidak mengubah ciri-ciri maklumat visual imej, jadi kedudukan awal dipilih secara rawak di sepanjang paksi mendatar semasa setiap latihan, membuat proses latihan Beri perhatian lebih kepada kedudukan relatif antara patch yang berbeza dan bukannya kedudukan mutlak.

Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik

③ Maklumat geometri panorama

Penggunaan penuh maklumat geometri dalam panorama boleh membantu meningkatkan prestasi tugasan anggaran bingkai dalaman. Modul peningkatan sempadan dalam model PanoViT menekankan cara menggunakan maklumat sempadan dalam panorama, dan Kehilangan 3D membantu mengurangkan kesan herotan panorama.

Modul peningkatan sempadan mengambil kira ciri linear garisan dinding dalam tugas pengesanan garisan dinding Maklumat garisan dalam imej adalah penting, jadi adalah perlu untuk menyerlahkan maklumat sempadan supaya rangkaian boleh. memahami taburan garisan dalam imej. Gunakan kaedah peningkatan sempadan dalam domain frekuensi untuk menyerlahkan maklumat sempadan panorama, dapatkan perwakilan domain frekuensi imej berdasarkan transformasi Fourier pantas, gunakan topeng untuk mengambil sampel dalam ruang domain frekuensi dan ubah kembali kepada imej dengan sempadan yang diserlahkan maklumat berdasarkan penjelmaan Fourier songsang . Inti modul terletak pada reka bentuk topeng Memandangkan sempadan sepadan dengan maklumat frekuensi tinggi, topeng mula-mula memilih penapis laluan tinggi dan sampel arah domain frekuensi yang berbeza mengikut arah yang berbeza bagi garisan yang berbeza. Kaedah ini lebih mudah untuk dilaksanakan dan lebih cekap daripada kaedah LSD tradisional. Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik

Kerja terdahulu mengira jarak piksel pada panorama sebagai ralat anggaran Disebabkan herotan panorama, jarak piksel pada gambar tidak berkadar dengan jarak sebenar dalam dunia 3D. PanoViT menggunakan fungsi kehilangan 3D untuk mengira ralat anggaran secara langsung dalam ruang 3D.

Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik

2. Hasil model

Menggunakan set data awam Martroport3D dan PanoContext untuk menjalankan eksperimen, menggunakan 2DIoU dan 3DIoU sebagai penunjuk penilaian dan membandingkan dengan kaedah SOTA. Keputusan menunjukkan bahawa penunjuk penilaian model PanoViT pada dua set data pada dasarnya telah mencapai tahap optimum, dan hanya lebih rendah sedikit daripada LED2 pada penunjuk tertentu. Dengan membandingkan hasil visualisasi model dengan Hohonet, boleh didapati bahawa PanoViT boleh mengenal pasti dengan tepat arah garisan dinding dalam adegan yang kompleks. Dengan membandingkan modul PE Berulang, peningkatan sempadan dan Kehilangan 3D dalam eksperimen ablasi, keberkesanan modul ini boleh disahkan

Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik

Untuk mencapai lebih daripada 01 set data dalaman00, model yang lebih baik. panorama dikumpulkan Set data imej panorama yang dibina sendiri mengandungi pelbagai pemandangan dalaman yang kompleks dan diberi anotasi berdasarkan peraturan tersuai 5053 imej telah dipilih sebagai set data ujian. Prestasi model PanoViT dan kaedah model SOTA telah diuji pada set data binaan sendiri, dan didapati bahawa apabila jumlah data meningkat, prestasi model PanoViT meningkat dengan ketara.

Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik

3. Cara menggunakan

dalam ModelScope Buka laman web rasmi modelscope: https://modelscope.cn/home.
Cari "anggaran bingkai dalaman panorama".
Klik Guna Pantas-Gunakan Persekitaran Dalam Talian-Pengalaman Pantas untuk membuka buku nota.
Masukkan kod contoh halaman utama, muat naik imej panorama 1024*512, ubah suai laluan pemuatan imej dan jalankan untuk mengeluarkan hasil ramalan garis dinding.

Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik

Atas ialah kandungan terperinci Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构循环 position 算法 cnn transformer https vr embedding

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Untuk pengalaman mendengar muzik yang terbaik, QQ Music menggunakan kedua-dua AI dan komuniti mayaArtikel seterusnya：Untuk pengalaman mendengar muzik yang terbaik, QQ Music menggunakan kedua-dua AI dan komuniti maya

Artikel berkaitan

Lihat lagi