Rumah  >  Artikel  >  Peranti teknologi  >  Seni bina dalam terkini untuk pengesanan sasaran mempunyai separuh parameter dan 3 kali lebih pantas +

Seni bina dalam terkini untuk pengesanan sasaran mempunyai separuh parameter dan 3 kali lebih pantas +

王林
王林ke hadapan
2023-04-09 11:41:031511semak imbas

Pengenalan ringkas

Pengarang penyelidikan mencadangkan Matrix Net (xNet), seni bina dalam baharu untuk pengesanan objek. xNets memetakan objek dengan dimensi saiz dan nisbah bidang yang berbeza ke dalam lapisan rangkaian, di mana objek hampir seragam dalam saiz dan nisbah bidang dalam lapisan. Oleh itu, xNets menyediakan seni bina sedar saiz dan nisbah aspek. Penyelidik menggunakan xNets untuk meningkatkan pengesanan sasaran berasaskan titik kunci. Seni bina baharu mencapai kecekapan masa yang lebih tinggi daripada pengesan satu tangkapan lain, dengan 47.8 mAP pada set data MS COCO, sambil menggunakan separuh parameter dan menjadi 3 kali lebih pantas untuk melatih daripada rangka kerja terbaik seterusnya.

Paparan hasil mudah

Seni bina dalam terkini untuk pengesanan sasaran mempunyai separuh parameter dan 3 kali lebih pantas +

Seperti yang ditunjukkan dalam rajah di atas, parameter dan kecekapan xNet jauh melebihi model lain. Antaranya, FSAF mempunyai kesan terbaik dalam kalangan pengesan berasaskan sauh, mengatasi RetinaNet klasik. Model yang dicadangkan oleh penyelidik mengatasi semua seni bina satu pukulan lain dengan bilangan parameter yang sama.

Latar belakang dan situasi semasa

Pengesanan objek ialah salah satu tugas yang paling banyak dikaji dalam penglihatan komputer, dengan banyak aplikasi untuk tugas penglihatan lain, seperti penjejakan objek, contohnya pembahagian dan kapsyen imej. Struktur pengesanan objek boleh dibahagikan kepada dua kategori: pengesan pukulan tunggal dan pengesan dua peringkat. Pengesan dua peringkat menggunakan rangkaian cadangan rantau untuk mencari bilangan calon objek yang tetap, dan kemudian menggunakan rangkaian kedua untuk meramalkan markah setiap calon dan menambah baik kotak sempadannya.

Algoritma Dua peringkat Biasa

Seni bina dalam terkini untuk pengesanan sasaran mempunyai separuh parameter dan 3 kali lebih pantas +

Pengesan tangkapan tunggal juga boleh dibahagikan kepada dua kategori: pengesan berasaskan sauh dan titik kunci pengesan berasaskan. Pengesan berasaskan anchor mengandungi banyak kotak pembatas anchor dan kemudian meramalkan offset dan kelas setiap templat. Seni bina berasaskan anchor yang paling terkenal ialah RetinaNet, yang mencadangkan fungsi kehilangan fokus untuk membantu membetulkan ketidakseimbangan kelas kotak pembatas anchor. Pengesan berasaskan sauh berprestasi terbaik ialah FSAF. FSAF menyepadukan output berasaskan sauh dengan kepala output tanpa sauh untuk meningkatkan lagi prestasi.

Sebaliknya, pengesan berasaskan titik kekunci meramalkan peta haba untuk penjuru kiri atas dan bawah kanan dan memadankannya menggunakan pembenaman ciri. Pengesan berasaskan titik kekunci asal ialah CornerNet, yang menggunakan lapisan pengumpulan koener khas untuk mengesan objek dengan saiz yang berbeza dengan tepat. Sejak itu, Centerne telah menambah baik seni bina CornerNet dengan meramalkan pusat dan sudut objek.

Jaring Matriks

Rajah di bawah menunjukkan jaring Matriks (xNets), yang menggunakan matriks hierarki untuk memodelkan sasaran dengan saiz yang berbeza dan nisbah melintang plexus, di mana dalam matriks Setiap entri i, j daripada mewakili lapisan li,j Lebar di sudut kiri atas matriks l1,1 diturunkan sampel oleh 2^(i-1), dan ketinggian dikurangkan oleh 2^(j-1). Lapisan pepenjuru ialah lapisan segi empat sama dengan saiz yang berbeza, bersamaan dengan FPN, manakala lapisan luar pepenjuru ialah lapisan segi empat tepat (ini unik untuk xNets). Lapisan l1,1 ialah lapisan terbesar Lebar lapisan dibelah dua untuk setiap langkah ke kanan, dan ketinggian dibelah dua untuk setiap langkah ke kanan.

Seni bina dalam terkini untuk pengesanan sasaran mempunyai separuh parameter dan 3 kali lebih pantas +

Contohnya, lapisan l3,4 ialah separuh lebar lapisan l3,3. Lapisan pepenjuru memodelkan objek yang nisbah bidangnya hampir dengan segi empat sama, manakala lapisan bukan pepenjuru memodelkan objek yang nisbah bidangnya tidak hampir dengan segi empat sama. Lapisan berhampiran sudut atas kanan atau kiri bawah objek model matriks dengan nisbah bidang yang sangat tinggi atau rendah. Sasaran sedemikian sangat jarang berlaku, jadi ia boleh dipangkas untuk meningkatkan kecekapan.

1. Penjanaan Lapisan

Menjana lapisan matriks ialah langkah kritikal kerana ia mempengaruhi bilangan parameter model. Lebih banyak parameter, lebih kuat ekspresi model dan lebih sukar masalah pengoptimuman, jadi penyelidik memilih untuk memperkenalkan seberapa sedikit parameter baharu yang mungkin. Lapisan pepenjuru boleh diperolehi daripada peringkat tulang belakang yang berbeza atau menggunakan rangka kerja piramid ciri. Lapisan segi tiga atas diperoleh dengan menggunakan satu siri lilitan 3x3 bersama dengan langkah 1x2 pada lapisan pepenjuru. Begitu juga, lapisan kiri bawah diperoleh menggunakan lilitan 3x3 bersama dengan langkah 2x1. Parameter dikongsi antara semua konvolusi pensampelan bawah untuk meminimumkan bilangan parameter baharu.

2. Julat lapisan

Setiap lapisan dalam matriks memodelkan sasaran dengan lebar dan ketinggian tertentu, jadi kita perlu menentukan lebar yang diberikan kepada sasaran untuk setiap lapisan dalam matriks dan ketinggian julat. Julat perlu mencerminkan medan penerimaan vektor ciri lapisan matriks. Setiap langkah ke kanan dalam matriks secara berkesan menggandakan medan penerimaan dalam dimensi mendatar, dan setiap langkah menggandakan medan penerimaan dalam dimensi menegak. Oleh itu, semasa kita bergerak ke kanan atau ke bawah dalam matriks, julat lebar atau tinggi perlu dua kali ganda. Setelah julat untuk lapisan pertama l1,1 ditakrifkan, kita boleh menggunakan peraturan di atas untuk menjana julat bagi lapisan matriks yang lain.

3. Kelebihan Jaring Matriks

Kelebihan utama Jaring Matriks ialah ia membenarkan isirong lilitan segi empat tepat mengumpul maklumat tentang nisbah aspek yang berbeza. Dalam model pengesanan objek tradisional, seperti RetinaNet, kernel lilitan segi empat sama diperlukan untuk mengeluarkan nisbah aspek dan skala yang berbeza. Ini adalah kontra-intuitif kerana aspek berbeza kotak sempadan memerlukan latar belakang yang berbeza. Dalam Matrix Nets, memandangkan konteks setiap lapisan matriks berubah, kernel lilitan persegi yang sama boleh digunakan untuk kotak sempadan skala dan nisbah bidang yang berbeza.

Oleh kerana saiz sasaran hampir seragam dalam lapisan yang ditetapkan, julat dinamik lebar dan ketinggian adalah lebih kecil berbanding dengan seni bina lain (seperti FPN). Oleh itu, mengundur ketinggian dan lebar sasaran akan menjadi masalah pengoptimuman yang lebih mudah. Akhir sekali, Matrix Nets boleh digunakan sebagai sebarang seni bina pengesanan objek, berasaskan anchor atau keypoint, pengesan satu pukulan atau dua pukulan.

Jaring Matriks digunakan untuk pengesanan berasaskan titik utama

Apabila CornerNet dicadangkan, ia adalah untuk Daripada pengesanan berasaskan sauh, ia menggunakan sepasang sudut (kiri atas dan kanan bawah) untuk meramalkan kotak sempadan. Untuk setiap sudut, CornerNet meramalkan peta haba, offset dan benam. Seni bina dalam terkini untuk pengesanan sasaran mempunyai separuh parameter dan 3 kali lebih pantas +

Gambar di atas ialah rangka kerja pengesanan sasaran berdasarkan perkara utama - KP-xNet, yang mengandungi 4 langkah.

  • (a-b): Tulang belakang xNet digunakan; , dan untuk setiap lapisan matriks, peta haba dan mengimbangi sudut kiri atas dan sudut kanan bawah diramalkan, dan titik tengah diramalkan untuk mereka dalam lapisan sasaran; ): Menggunakan ramalan Titik tengah sepadan dengan sudut dalam lapisan yang sama, dan kemudian output semua lapisan digabungkan dengan penindasan lembut bukan maksimum untuk mendapatkan output akhir.
  • Hasil eksperimen
  • Jadual berikut menunjukkan keputusan pada set data MS COCO:

Para penyelidik juga membandingkan model yang baru dicadangkan dengan model lain berdasarkan bilangan parameter pada tulang belakang yang berbeza. Dalam rajah pertama, kami mendapati bahawa KP-xNet mengatasi semua struktur lain pada semua peringkat parameter. Para penyelidik percaya ini kerana KP-xNet menggunakan seni bina sedar skala dan nisbah aspek.

Seni bina dalam terkini untuk pengesanan sasaran mempunyai separuh parameter dan 3 kali lebih pantas +Alamat kertas:

https://arxiv.org/pdf/1908.04646.pdf

Atas ialah kandungan terperinci Seni bina dalam terkini untuk pengesanan sasaran mempunyai separuh parameter dan 3 kali lebih pantas +. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam