Rumah >Peranti teknologi >AI >Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik
Kaedah ini tertumpu terutamanya pada anggaran dalaman ) tugasan, tugasan memasukkan gambar 2D dan mengeluarkan model tiga dimensi pemandangan yang diterangkan oleh gambar. Memandangkan kerumitan pengeluaran model 3D secara langsung, tugas ini secara amnya dipecahkan kepada mengeluarkan maklumat tiga baris: garisan dinding, garisan siling dan garisan tanah dalam imej 2D, dan kemudian membina semula model 3D bilik melalui pasca- operasi pemprosesan berdasarkan maklumat talian . Model tiga dimensi boleh digunakan selanjutnya dalam senario aplikasi tertentu seperti pembiakan pemandangan dalaman dan tontonan rumah VR di peringkat kemudian. Berbeza dengan kaedah anggaran kedalaman, kaedah ini memulihkan struktur geometri spatial berdasarkan anggaran garisan dinding dalam bangunan barangan seperti sofa dan kerusi dalam adegan dalaman.
Mengikut imej input, ia boleh dibahagikan kepada kaedah berasaskan perspektif dan berasaskan panorama. Berbanding dengan pandangan perspektif, panorama mempunyai sudut tontonan yang lebih besar dan maklumat imej yang lebih kaya. Dengan mempopularkan peralatan pemerolehan panorama, data panoramik semakin banyak, jadi pada masa ini terdapat banyak algoritma untuk anggaran bingkai dalaman berdasarkan imej panorama yang telah dikaji secara meluas
#🎜 🎜##🎜 🎜#
Algoritma yang berkaitan terutamanya termasuk LayoutNet, HorizonNet, HohoNet dan Led2-Net, dsb. Kebanyakan kaedah ini adalah berdasarkan rangkaian saraf konvolusi, dan kesan ramalan garis dinding adalah lemah dalam lokasi dengan struktur kompleks, seperti gangguan bunyi , oklusi diri, dsb., akan terdapat hasil ramalan seperti ketakselanjaran garisan dinding dan ralat kedudukan garisan dinding. Dalam tugasan anggaran kedudukan garis dinding, hanya memfokuskan pada maklumat ciri tempatan akan membawa kepada jenis ralat ini. Maklumat global dalam panorama perlu digunakan untuk mempertimbangkan pengagihan kedudukan keseluruhan garisan dinding untuk anggaran. Kaedah CNN berprestasi lebih baik dalam tugas mengekstrak ciri tempatan, dan kaedah Transformer lebih baik dalam menangkap maklumat global Oleh itu, kaedah Transformer boleh digunakan untuk tugas anggaran bingkai dalaman untuk meningkatkan prestasi tugas.Disebabkan pergantungan data latihan, Transformer berdasarkan perspektif pra-latihan digunakan secara berasingan untuk menganggarkan panorama dalaman kesan bingkai dan Tidak sesuai. Model PanoViT memetakan panorama ke ruang ciri terlebih dahulu, menggunakan Transformer untuk mempelajari maklumat global panorama dalam ruang ciri dan mempertimbangkan maklumat struktur jelas panorama untuk menyelesaikan tugas anggaran bingkai dalaman.
2. Pengenalan kaedah dan paparan hasil
① Modul tulang belakang
Seni bina utama Transformer boleh dibahagikan kepada tiga modul, termasuk pensampelan tampalan, pembenaman tampalan dan perhatian berbilang kepala pengubah. Input mempertimbangkan kedua-dua peta ciri imej panorama dan imej asal serta menggunakan kaedah pensampelan tampalan yang berbeza untuk input yang berbeza. Imej asal menggunakan kaedah pensampelan seragam, dan peta ciri menggunakan kaedah pensampelan mendatar. Kesimpulan daripada HorizonNet percaya bahawa ciri mendatar adalah lebih penting dalam tugasan anggaran garisan dinding Merujuk kepada kesimpulan ini, ciri peta ciri dimampatkan dalam arah menegak semasa proses pembenaman. Kaedah PE Berulang digunakan untuk menggabungkan ciri-ciri skala yang berbeza dan belajar dalam model transformer perhatian berbilang kepala untuk mendapatkan vektor ciri dengan panjang yang sama dengan arah mendatar imej asal Taburan garis dinding yang sepadan boleh diperolehi melalui kepala penyahkod yang berbeza.
Pengekodan kedudukan kitaran rawak (Pembenaman Kedudukan Berulang) mengambil kira bahawa anjakan mendatar panorama tidak mengubah ciri-ciri maklumat visual imej, jadi kedudukan awal dipilih secara rawak di sepanjang paksi mendatar semasa setiap latihan, membuat proses latihan Beri perhatian lebih kepada kedudukan relatif antara patch yang berbeza dan bukannya kedudukan mutlak.
Penggunaan penuh maklumat geometri dalam panorama boleh membantu meningkatkan prestasi tugasan anggaran bingkai dalaman. Modul peningkatan sempadan dalam model PanoViT menekankan cara menggunakan maklumat sempadan dalam panorama, dan Kehilangan 3D membantu mengurangkan kesan herotan panorama.
Modul peningkatan sempadan mengambil kira ciri linear garisan dinding dalam tugas pengesanan garisan dinding Maklumat garisan dalam imej adalah penting, jadi adalah perlu untuk menyerlahkan maklumat sempadan supaya rangkaian boleh. memahami taburan garisan dalam imej. Gunakan kaedah peningkatan sempadan dalam domain frekuensi untuk menyerlahkan maklumat sempadan panorama, dapatkan perwakilan domain frekuensi imej berdasarkan transformasi Fourier pantas, gunakan topeng untuk mengambil sampel dalam ruang domain frekuensi dan ubah kembali kepada imej dengan sempadan yang diserlahkan maklumat berdasarkan penjelmaan Fourier songsang . Inti modul terletak pada reka bentuk topeng Memandangkan sempadan sepadan dengan maklumat frekuensi tinggi, topeng mula-mula memilih penapis laluan tinggi dan sampel arah domain frekuensi yang berbeza mengikut arah yang berbeza bagi garisan yang berbeza. Kaedah ini lebih mudah untuk dilaksanakan dan lebih cekap daripada kaedah LSD tradisional.
Kerja terdahulu mengira jarak piksel pada panorama sebagai ralat anggaran Disebabkan herotan panorama, jarak piksel pada gambar tidak berkadar dengan jarak sebenar dalam dunia 3D. PanoViT menggunakan fungsi kehilangan 3D untuk mengira ralat anggaran secara langsung dalam ruang 3D.
Menggunakan set data awam Martroport3D dan PanoContext untuk menjalankan eksperimen, menggunakan 2DIoU dan 3DIoU sebagai penunjuk penilaian dan membandingkan dengan kaedah SOTA. Keputusan menunjukkan bahawa penunjuk penilaian model PanoViT pada dua set data pada dasarnya telah mencapai tahap optimum, dan hanya lebih rendah sedikit daripada LED2 pada penunjuk tertentu. Dengan membandingkan hasil visualisasi model dengan Hohonet, boleh didapati bahawa PanoViT boleh mengenal pasti dengan tepat arah garisan dinding dalam adegan yang kompleks. Dengan membandingkan modul PE Berulang, peningkatan sempadan dan Kehilangan 3D dalam eksperimen ablasi, keberkesanan modul ini boleh disahkan
Untuk mencapai lebih daripada 01 set data dalaman00, model yang lebih baik. panorama dikumpulkan Set data imej panorama yang dibina sendiri mengandungi pelbagai pemandangan dalaman yang kompleks dan diberi anotasi berdasarkan peraturan tersuai 5053 imej telah dipilih sebagai set data ujian. Prestasi model PanoViT dan kaedah model SOTA telah diuji pada set data binaan sendiri, dan didapati bahawa apabila jumlah data meningkat, prestasi model PanoViT meningkat dengan ketara.
Atas ialah kandungan terperinci Kaedah untuk anggaran bingkai dalaman menggunakan model perhatian kendiri visual panoramik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!