Rumah  >  Artikel  >  Peranti teknologi  >  ConvNeXt V2 ada di sini, hanya menggunakan seni bina lilitan yang paling mudah, prestasinya tidak kalah dengan Transformer

ConvNeXt V2 ada di sini, hanya menggunakan seni bina lilitan yang paling mudah, prestasinya tidak kalah dengan Transformer

WBOY
WBOYke hadapan
2023-04-11 23:19:011306semak imbas

Selepas beberapa dekad penyelidikan asas, bidang pengecaman visual telah membawa kepada era baharu pembelajaran perwakilan visual berskala besar. Model penglihatan berskala besar yang telah dilatih telah menjadi alat penting untuk pembelajaran ciri dan aplikasi penglihatan. Prestasi sistem pembelajaran perwakilan visual sangat dipengaruhi oleh tiga faktor utama: seni bina rangkaian neural model, kaedah yang digunakan untuk melatih rangkaian dan data latihan. Penambahbaikan dalam setiap faktor menyumbang kepada peningkatan dalam prestasi model keseluruhan.

Inovasi dalam reka bentuk seni bina rangkaian saraf sentiasa memainkan peranan penting dalam bidang pembelajaran perwakilan. Seni bina rangkaian neural convolutional (ConvNet) telah memberi kesan yang ketara ke atas penyelidikan penglihatan komputer, membolehkan penggunaan kaedah pembelajaran ciri universal dalam pelbagai tugas pengecaman visual tanpa bergantung pada kejuruteraan ciri yang dilaksanakan secara manual. Dalam beberapa tahun kebelakangan ini, seni bina transformer, yang pada asalnya dibangunkan untuk pemprosesan bahasa semula jadi, juga telah digunakan secara meluas dalam bidang pembelajaran mendalam yang lain kerana kesesuaiannya untuk model dan set data dengan saiz yang berbeza.

Kemunculan seni bina ConvNeXt memodenkan ConvNet tradisional, membuktikan bahawa model konvolusi tulen juga boleh menyesuaikan diri dengan perubahan dalam model dan saiz set data. Walau bagaimanapun, cara yang paling biasa untuk meneroka ruang reka bentuk seni bina rangkaian saraf masih dengan menanda aras prestasi pembelajaran diselia pada ImageNet.

Idea lain ialah mengalihkan fokus pembelajaran perwakilan visual daripada pembelajaran diselia berlabel kepada pra-latihan penyeliaan sendiri. Algoritma penyeliaan sendiri memperkenalkan pemodelan bahasa bertopeng ke dalam bidang penglihatan dan dengan cepat menjadi kaedah popular untuk pembelajaran perwakilan visual. Walau bagaimanapun, pembelajaran penyeliaan kendiri biasanya menggunakan seni bina yang direka bentuk untuk pembelajaran terselia dan menganggap bahawa seni bina itu tetap. Contohnya, Autoencoder Bertopeng (MAE) menggunakan seni bina pengubah visual.

Salah satu cara ialah menggabungkan seni bina ini dengan rangka kerja pembelajaran yang diselia sendiri, tetapi ia akan menghadapi beberapa masalah khusus. Sebagai contoh, masalah berikut timbul apabila menggabungkan ConvNeXt dengan MAE: MAE mempunyai reka bentuk penyahkod pengekod khusus yang dioptimumkan untuk keupayaan pemprosesan jujukan pengubah, yang menjadikan pengekod intensif secara pengiraan memfokuskan pada tampung yang boleh dilihat itu, dengan itu mengurangkan pra-latihan. kos. Tetapi reka bentuk ini mungkin tidak serasi dengan ConvNet standard, yang menggunakan tingkap gelongsor padat. Tambahan pula, tanpa mengambil kira hubungan antara seni bina dan objektif latihan, adalah tidak jelas sama ada prestasi optimum boleh dicapai. Malah, penyelidikan sedia ada menunjukkan bahawa sukar untuk melatih ConvNet dengan pembelajaran penyeliaan kendiri berasaskan topeng, dan bukti eksperimen menunjukkan bahawa transformer dan ConvNet mungkin menyimpang dalam pembelajaran ciri, yang akan menjejaskan kualiti perwakilan akhir.

Untuk tujuan ini, penyelidik dari KAIST, Meta, dan Universiti New York (termasuk Liu Zhuang, pengarang pertama ConvNeXt, dan Xie Saining, pengarang pertama ResNeXt) mencadangkan untuk mereka bentuk rangkaian bersama seni bina dan pengekodan auto bertopeng di bawah rangka kerja yang sama Tujuannya adalah untuk membolehkan pembelajaran penyeliaan kendiri berasaskan topeng digunakan pada model ConvNeXt dan memperoleh hasil yang setanding dengan pengubah.

ConvNeXt V2 ada di sini, hanya menggunakan seni bina lilitan yang paling mudah, prestasinya tidak kalah dengan Transformer

Alamat kertas: https://arxiv.org/pdf/2301.00808v1.pdf

Apabila mereka bentuk pengekod auto bertopeng, penyelidikan ini menganggap input dengan topeng sebagai satu set tampalan jarang dan menggunakan lilitan jarang untuk memproses bahagian yang boleh dilihat. Idea ini diilhamkan oleh penggunaan konvolusi jarang apabila memproses awan titik 3D berskala besar. Secara khusus, penyelidikan ini mencadangkan pelaksanaan ConvNeXt dengan lilitan jarang, dan kemudian semasa penalaan halus, pemberat boleh ditukar kembali kepada lapisan rangkaian padat standard tanpa pemprosesan khas. Untuk meningkatkan lagi kecekapan pra-latihan, kajian ini menggantikan penyahkod transformer dengan ConvNeXt tunggal, menjadikan keseluruhan reka bentuk konvolusi sepenuhnya. Para penyelidik memerhatikan bahawa selepas menambah perubahan ini: ciri yang dipelajari adalah berguna dan menambah baik keputusan garis dasar, tetapi prestasi yang diperhalusi masih lebih rendah daripada model berasaskan pengubah.

Kemudian, kajian menganalisis ruang ciri ConvNeXt dengan konfigurasi latihan yang berbeza. Apabila melatih ConvNeXt secara langsung pada input bertopeng, penyelidik menemui potensi masalah keruntuhan ciri dalam lapisan MLP. Untuk menyelesaikan masalah ini, kajian ini mencadangkan untuk menambah lapisan normalisasi tindak balas global (lapisan Normalisasi Respons Global) untuk meningkatkan persaingan ciri antara saluran. Penambahbaikan ini paling berkesan apabila model dilatih terlebih dahulu menggunakan pengekod auto bertopeng, menunjukkan bahawa penggunaan semula reka bentuk seni bina tetap daripada pembelajaran diselia mungkin bukan pendekatan terbaik.

Berdasarkan penambahbaikan di atas, kajian ini mencadangkan ConvNeXt V2, yang menunjukkan prestasi yang lebih baik apabila digabungkan dengan pengekod auto bertopeng. Pada masa yang sama, penyelidik mendapati bahawa ConvNeXt V2 mempunyai peningkatan prestasi yang ketara berbanding ConvNet tulen pada pelbagai tugas hiliran, termasuk tugas klasifikasi pada ImageNet, pengesanan sasaran pada COCO dan segmentasi semantik pada ADE20K.

ConvNeXt V2 ada di sini, hanya menggunakan seni bina lilitan yang paling mudah, prestasinya tidak kalah dengan Transformer

ConvNeXt V2 ada di sini, hanya menggunakan seni bina lilitan yang paling mudah, prestasinya tidak kalah dengan Transformer


ConvNeXt V2 ada di sini, hanya menggunakan seni bina lilitan yang paling mudah, prestasinya tidak kalah dengan Transformer

Pengenalan kepada kaedah

terdiri daripada pengekod ConvNeXt berdasarkan lilitan jarang dan penyahkod ConvNeXt yang ringan, dengan struktur pengekod auto adalah Asimetri. Pengekod hanya memproses piksel yang boleh dilihat, manakala penyahkod menggunakan piksel yang dikodkan dan token topeng untuk membina semula imej. Pada masa yang sama, kerugian hanya dikira di kawasan bertopeng.

Penormalan tindak balas globalConvNeXt V2 ada di sini, hanya menggunakan seni bina lilitan yang paling mudah, prestasinya tidak kalah dengan Transformer

Terdapat banyak mekanisme dalam otak yang menggalakkan kepelbagaian neuron. Sebagai contoh, perencatan sisi boleh membantu meningkatkan tindak balas neuron yang diaktifkan, meningkatkan kontras dan selektiviti neuron individu kepada rangsangan sementara juga meningkatkan kepelbagaian tindak balas keseluruhan populasi neuron. Dalam pembelajaran mendalam, bentuk perencatan sisi ini boleh dicapai melalui normalisasi tindak balas. Kajian ini memperkenalkan lapisan normalisasi tindak balas baharu yang dipanggil normalisasi tindak balas global (GRN), yang bertujuan untuk meningkatkan kontras dan selektiviti antara saluran. Unit GRN terdiri daripada tiga langkah: 1) pengagregatan ciri global, 2) penormalan ciri, dan 3) penentukuran ciri. Seperti yang ditunjukkan dalam rajah di bawah, lapisan GRN boleh digabungkan ke dalam blok ConvNeXt asal.

Para penyelidik mendapati berdasarkan eksperimen bahawa apabila menggunakan GRN, LayerScale tidak perlu dan boleh dipadamkan. Dengan memanfaatkan reka bentuk blok baharu ini, kajian itu mencipta berbilang model dengan kecekapan dan kapasiti yang berbeza-beza, yang dinamakan keluarga model ConvNeXt V2, daripada ringan (Atto) kepada intensif pengiraan (Besar).

Untuk menilai peranan GRN, kajian ini menggunakan rangka kerja FCMAE untuk pra-melatih ConvNeXt V2. Daripada paparan visual dalam Rajah 3 di bawah dan analisis jarak kosinus dalam Rajah 4, dapat diperhatikan bahawa ConvNeXt V2 berkesan mengurangkan masalah keruntuhan ciri. Nilai jarak kosinus adalah tinggi secara konsisten, menunjukkan bahawa kepelbagaian ciri boleh dikekalkan semasa pemindahan lapisan rangkaian. Ini serupa dengan model ViT yang dipralatih menggunakan MAE. Ini menunjukkan bahawa tingkah laku pembelajaran ConvNeXt V2 adalah serupa dengan ViT di bawah rangka kerja pra-latihan imej topeng yang serupa.

ConvNeXt V2 ada di sini, hanya menggunakan seni bina lilitan yang paling mudah, prestasinya tidak kalah dengan Transformer

Kajian ini menilai lagi prestasi penalaan halus, dan hasilnya ditunjukkan dalam jadual di bawah.

ConvNeXt V2 ada di sini, hanya menggunakan seni bina lilitan yang paling mudah, prestasinya tidak kalah dengan Transformer

Apabila dilengkapi dengan GRN, model pra-latihan FCMAE boleh mengatasi prestasi model diselia yang dilatih menggunakan 300 zaman dengan ketara. GRN meningkatkan kualiti perwakilan dengan meningkatkan kepelbagaian ciri, yang penting untuk pra-latihan berasaskan topeng dan tiada dalam model ConvNeXt V1. Perlu diingat bahawa peningkatan ini dicapai tanpa menambah overhed parameter tambahan dan tanpa meningkatkan FLOPS.

Akhir sekali, kajian ini juga mengkaji kepentingan GRN dalam pra-latihan dan penalaan halus. Seperti yang ditunjukkan dalam Jadual 2(f) di bawah, prestasi menurun dengan ketara sama ada GRN dialih keluar daripada penalaan halus atau GRN yang baru dimulakan ditambah semasa penalaan halus, menunjukkan bahawa GRN adalah penting dalam kedua-dua pra-latihan dan penalaan halus.

ConvNeXt V2 ada di sini, hanya menggunakan seni bina lilitan yang paling mudah, prestasinya tidak kalah dengan Transformer

Pembaca yang berminat boleh membaca teks asal kertas kerja untuk mengetahui lebih lanjut butiran penyelidikan.

Atas ialah kandungan terperinci ConvNeXt V2 ada di sini, hanya menggunakan seni bina lilitan yang paling mudah, prestasinya tidak kalah dengan Transformer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam