Rumah  >  Artikel  >  Peranti teknologi  >  Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!

Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!

WBOY
WBOYke hadapan
2023-04-12 08:19:081792semak imbas

Perkembangan Transformer visual berskala besar yang pesat dalam beberapa tahun kebelakangan ini telah mendorong sempadan prestasi dalam bidang penglihatan komputer. Model Vision Transformer mengalahkan rangkaian neural konvolusi dengan mengembangkan bilangan parameter model dan data latihan. Penyelidik dari Makmal Kepintaran Buatan Shanghai, Universiti Tsinghua, Nanda, SenseTime, dan Cina Hong Kong merumuskan jurang antara rangkaian saraf konvolusi dan Transformer visual. Dari peringkat pengendali, pengendali CNN tradisional tidak mempunyai kebergantungan jarak jauh dan keupayaan pengagregatan spatial adaptif dari peringkat struktur, struktur CNN tradisional tidak mempunyai komponen lanjutan.

Memandangkan masalah teknikal di atas, penyelidik dari Makmal Pujiang, Universiti Tsinghua dan institusi lain secara inovatif mencadangkan model berskala besar berdasarkan rangkaian saraf konvolusi, yang dipanggil ialah InternImage, yang menggunakan lilitan dinamik yang jarang sebagai pengendali teras dan mencapai pengagregatan spatial adaptif dengan memasukkan maklumat yang berkaitan sebagai syarat. InternImage membolehkan pembelajaran corak parameter berskala besar yang lebih berkuasa dan teguh daripada data besar-besaran dengan mengurangkan kecenderungan induktif ketat CNN tradisional. Keberkesanannya telah disahkan pada tugas visual termasuk klasifikasi imej, pengesanan objek dan segmentasi semantik. Ia telah mencapai keputusan yang kompetitif dalam set data penanda aras yang mencabar termasuk ImageNet, COCO dan ADE20K Pada tahap parameter yang sama, ia telah melepasi struktur Transformer visual dan memberikan arah baharu untuk model imej yang besar.

Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!

  • Pautan kertas: https://arxiv.org/abs/2211.05778
  • Kod sumber terbuka: https://github.com/OpenGVLab/InternImage

Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!

Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!

Keterbatasan rangkaian neural konvolusi tradisional

Memperluas saiz model merupakan strategi penting untuk meningkatkan kualiti perwakilan ciri Dalam bidang penglihatan komputer, pengembangan parameter model bukan sahaja boleh meningkatkan kedalaman dengan berkesan Model ini mempunyai keupayaan pembelajaran perwakilan dan boleh mencapai pembelajaran dan pemerolehan pengetahuan daripada data besar-besaran. ViT dan Swin Transformer mengembangkan model kedalaman kepada 2 bilion dan 3 bilion tahap parameter untuk kali pertama Ketepatan klasifikasi model tunggal mereka dalam set data ImageNet juga melebihi 90%, jauh melebihi rangkaian CNN tradisional dan model berskala kecil. menerobos kesesakan teknikal. Walau bagaimanapun, disebabkan kekurangan kebergantungan jarak jauh dan keupayaan pemodelan hubungan ruang, model CNN tradisional tidak dapat mencapai keupayaan pengembangan skala model yang serupa dengan struktur Transformer. Para penyelidik merumuskan perbezaan antara rangkaian neural konvolusi tradisional dan Transformer visual:

(1) Dari peringkat operator, mekanisme perhatian berbilang kepala Transformer visual mempunyai kebergantungan jarak jauh Dan penyesuaian. keupayaan pengagregatan spatial, mendapat manfaat daripada ini, Transformer visual boleh belajar daripada data besar-besaran yang lebih berkuasa dan perwakilan yang teguh daripada rangkaian CNN.

(2) Dari perspektif seni bina model, sebagai tambahan kepada mekanisme perhatian berbilang kepala, Transformer visual mempunyai modul yang lebih maju yang tidak ada pada rangkaian CNN, seperti Layer Normalisasi (LN), rangkaian Neural suapan FFN, GELU, dsb.

Walaupun beberapa karya baru-baru ini cuba menggunakan konvolusi kernel yang besar untuk mendapatkan kebergantungan jarak jauh, ia masih jauh dari transformer visual yang canggih dari segi skala model dan ketepatan.

Peluasan lanjut rangkaian konvolusi boleh ubah bentuk

InternImage meningkatkan kebolehskalaan model konvolusi dan mengurangkan bias induktif dengan mereka bentuk semula operator dan struktur model , termasuk (1) pengendali DCNv3, yang memperkenalkan berat unjuran bersama, mekanisme berbilang kumpulan dan modulasi titik pensampelan berdasarkan pengendali DCNv2. (2) Modul asas, menyepadukan modul lanjutan sebagai unit modul asas untuk pembinaan model (3) Peraturan susun modul, menyeragamkan lebar, kedalaman, bilangan kumpulan dan parameter hiper lain model apabila mengembangkan model.

Kerja ini memfokuskan pada membina model CNN yang boleh menskalakan kepada parameter berskala besar dengan cekap. Pertama, pengendali lilitan boleh ubah bentuk DCNv2 direka bentuk semula untuk menyesuaikan diri dengan kebergantungan jarak jauh dan melemahkan bias induktif kemudian, pengendali lilitan terlaras digabungkan dengan komponen lanjutan untuk mewujudkan modul unit asas, akhirnya, meneroka dan melaksanakan peraturan Penskalaan dan penskalaan; untuk membina model asas dengan parameter berskala besar dan perwakilan berkuasa boleh dipelajari daripada data besar-besaran.

Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!

Di peringkat pengendali, kajian ini mula-mula merumuskan perbezaan utama antara pengendali konvolusi dan pengendali arus perdana yang lain. Model siri Transformer arus perdana terutamanya bergantung pada mekanisme perhatian kendiri berbilang kepala untuk mencapai pembinaan model yang besar. Pengendalinya mempunyai kebergantungan jarak jauh, yang mencukupi untuk membina hubungan sambungan antara ciri jarak jauh, dan juga mempunyai pengagregatan penyesuaian spatial. keupayaan untuk mencapai perhubungan tahap piksel. Walau bagaimanapun, mekanisme perhatian global ini mempunyai keperluan pengkomputeran dan penyimpanan yang besar, menjadikannya sukar untuk mencapai latihan yang cekap dan penumpuan pantas. Begitu juga, mekanisme perhatian tempatan tidak mempunyai pergantungan ciri jarak jauh. Konvolusi padat teras besar tidak mempunyai keupayaan pengagregatan spatial, jadi sukar untuk mengatasi bias induktif semula jadi konvolusi, yang tidak kondusif untuk mengembangkan model. Oleh itu, InternImage mereka bentuk pengendali lilitan jarang dinamik untuk mencapai kesan perhatian global tanpa membuang terlalu banyak sumber pengkomputeran dan penyimpanan, mencapai latihan yang cekap.

Berdasarkan pengendali DCNv2, penyelidik mereka bentuk semula, melaraskan dan mencadangkan pembaikan khusus DCNv3 termasuk bahagian berikut.

(1) Berkongsi berat unjuran. Sama seperti konvolusi konvensional, titik pensampelan yang berbeza dalam DCNv2 mempunyai berat unjuran bebas, jadi saiz parameternya adalah berkaitan secara linear dengan jumlah titik pensampelan. Untuk mengurangkan kerumitan parameter dan ingatan, kami menggunakan idea konvolusi yang boleh dipisahkan dan menggunakan pemberat bebas kedudukan untuk menggantikan pemberat kumpulan Berat unjuran dikongsi antara titik persampelan yang berbeza, dan semua kebergantungan kedudukan persampelan dikekalkan.

(2) Memperkenalkan pelbagai kumpulan mekanisme. Reka bentuk berbilang kumpulan mula-mula diperkenalkan dalam lilitan berkumpulan dan digunakan secara meluas dalam perhatian diri berbilang kepala Transformer Ia boleh dipasangkan dengan pengagregatan ruang suai untuk meningkatkan kepelbagaian ciri dengan berkesan. Diilhamkan oleh ini, penyelidik membahagikan proses pengagregatan spatial kepada beberapa kumpulan, dan setiap kumpulan mempunyai offset pensampelan bebas. Sejak itu, kumpulan berlainan bagi satu lapisan DCNv3 mempunyai corak pengagregatan spatial yang berbeza, menghasilkan kepelbagaian ciri yang kaya.

(3) Penormalan skalar modulasi titik pensampelan. Untuk mengurangkan masalah ketidakstabilan apabila kapasiti model diperluaskan, para penyelidik menetapkan mod penormalan kepada penormalan Softmax pada asas sampel demi sampel Ini bukan sahaja menjadikan proses latihan model berskala besar lebih stabil, tetapi juga membina model semua titik persampelan hubungan sambungan.

Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!

Selepas membina pengendali DCNv3, mula-mula anda perlu menormalkan butiran keseluruhan modul asas dan lapisan lain model, dan kemudian meneroka butiran modul asas ini Strategi susun untuk membina InternImage. Akhir sekali, model dengan jumlah parameter yang berbeza dibina mengikut peraturan pengembangan model yang dicadangkan.

Modul asas . Berbeza daripada struktur kesesakan yang digunakan secara meluas dalam CNN tradisional, kajian ini menggunakan modul asas yang lebih dekat dengan ViT, dilengkapi dengan komponen yang lebih maju, termasuk GELU, penormalan lapisan (LN) dan rangkaian suapan ke hadapan (FFN), yang telah Terbukti lebih cekap dalam pelbagai tugas penglihatan. Butiran modul asas ditunjukkan dalam rajah di atas, di mana pengendali teras ialah DCNv3, yang meramalkan bias pensampelan dan skala modulasi dengan menghantar ciri input melalui lilitan boleh pisah yang ringan. Untuk komponen lain, ikut reka bentuk yang sama seperti Transformer biasa.

Peraturan Susunan. Untuk menjelaskan proses susun blok, kajian ini mencadangkan dua peraturan susun modul Peraturan pertama ialah bilangan saluran dalam tiga peringkat terakhir Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!, yang ditentukan oleh bilangan saluran dalam. peringkat pertama Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian! keputusan, iaitu, Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!; peraturan kedua ialah nombor kumpulan setiap modul sepadan dengan bilangan saluran dalam setiap peringkat, iaitu, Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!; ketiga, susun Mod ditetapkan kepada "AABA", iaitu bilangan susunan modul dalam peringkat 1, 2 dan 4 adalah sama Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!, dan tidak lebih besar daripada itu pada peringkat 3 Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!. Oleh itu, model dengan volum parameter 30M dipilih sebagai asas Parameter khusus ialah: bilangan saluran keluaran Steam Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian! ialah 64 kumpulan ialah 1/16 daripada nombor saluran input dalam setiap peringkat Bilangan susunan modul dalam peringkat 1, 2 dan 4 ialah 4, bilangan susunan modul dalam peringkat 3 ialah 18, dan parameter model ialah 30M. Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!Peraturan penskalaan model

. Berdasarkan model optimum di bawah kekangan di atas, kajian ini menormalkan dua dimensi penskalaan model rangkaian: kedalaman D (bilangan susunan modul) dan lebar C (bilangan saluran), menggunakan faktor sekatan dan skalakan kedalaman dan lebar di sepanjang pekali komposit Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!, iaitu, Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!, di mana Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!, mengikut eksperimen tetapan optimum ialah Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!. Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!Mengikut peraturan ini, kajian ini membina model skala yang berbeza, iaitu InternImage-T, S, B, L, XL. Parameter khusus ialah: Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!

Hasil eksperimen

Eksperimen klasifikasi imej: Dengan menggunakan 427M pengumpulan data awam: Laion-400M, YFCC15M, CC12M , InternImage-H mencapai ketepatan 89.2% pada ImageNet-1K.

Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!

Pengesanan objek: Mengambil InternImage-H terbesar sebagai Tulang Belakang rangkaian, dan menggunakan DINO sebagai rangka kerja pengesanan asas, pralatih pengesan DINO pada set data Objects365, dan kemudian diperhalusi pada COCO. Model ini mencapai hasil optimum sebanyak 65.4% dalam tugas pengesanan sasaran, menembusi sempadan prestasi pengesanan sasaran COCO.

Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!

Segmentasi Semantik: Mengenai segmentasi semantik, InternImage-H It juga mencapai prestasi yang sangat baik, dan digabungkan dengan Mask2Former mencapai 62.9% tertinggi semasa pada ADE20K.

Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!

Kesimpulan

Kajian ini mencadangkan InternImage, model asas berskala besar berasaskan CNN yang boleh representasi berkuasa disediakan untuk tugas penglihatan serba boleh seperti klasifikasi imej, pengesanan objek, dan segmentasi semantik. Para penyelidik melaraskan pengendali DCNv2 yang fleksibel untuk memenuhi keperluan model asas, dan membangunkan satu siri peraturan menyekat, menyusun dan menskala berdasarkan pengendali teras. Eksperimen meluas pada pengesanan objek dan penanda aras segmentasi semantik telah mengesahkan bahawa InternImage boleh mencapai prestasi yang setara atau lebih baik daripada Transformer visual berskala besar yang direka bentuk dengan baik yang dilatih pada jumlah data yang besar, menunjukkan bahawa CNN juga merupakan langkah besar dalam model asas visual berskala besar. penyelidikan. Namun, CNN berskala besar masih dalam peringkat awal pembangunan mereka, dan para penyelidik berharap InternImage boleh berfungsi sebagai titik permulaan yang baik.

Atas ialah kandungan terperinci Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam