Rumah >Peranti teknologi >AI >Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023

Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023

WBOY
WBOYke hadapan
2023-04-11 23:04:021310semak imbas

Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023

Bagaimana untuk menjalankan BERT pada rangkaian saraf konvolusi?

Anda boleh terus menggunakan SparK - Merekabentuk BERT untuk Rangkaian Konvolusi: Pemodelan Bertopeng Jarang dan Hierarki yang dicadangkan oleh pasukan teknikal ByteDance Baru-baru ini, ia telah disertakan sebagai kertas fokus Spotlight oleh Persidangan Kepintaran Buatan :


Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023

Pautan kertas:

https://www. php.cn/link/e38e37a99f7de1f45d169efcdb288dd1

Kod sumber terbuka: ​:

https://www.php.cn/link/9dfcf16f0adbc5e2a55ef02db36bac7f >Ini juga merupakan kejayaan pertama BERT pada Convolutional Neural Network (CNN)

. Mari kita rasai sendiri prestasi SparK dalam pra-latihan. Masukkan gambar yang tidak lengkap:


Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023Pulihkan anak anjing:

Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023Satu lagi Gambar yang rosak:

Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023Ternyata ia adalah sandwic bagel:

Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023Pemulihan gambar juga boleh dicapai dalam senario lain:

Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023

BERT dan Transformer adalah jodoh yang dibuat di syurga

Sebarang tindakan dan pemikiran yang hebat , Semuanya mempunyai permulaan yang sederhana. BERT menggunakan "cloze": padam secara rawak beberapa perkataan dalam ayat dan biarkan model belajar untuk pulih. BERT sangat bergantung pada

Model teras dalam medan NLP - Transformer

.

Transformer secara semula jadi sesuai untuk memproses data jujukan panjang boleh ubah (seperti ayat bahasa Inggeris), jadi ia boleh mengatasi "pemadaman rawak" dengan mudah BERT cloze". CNN dalam bidang visual juga mahu menikmati BERT: Apakah dua cabaran itu?

Mengimbas kembali sejarah pembangunan penglihatan komputer, Model rangkaian saraf konvolusi memekatkan intipati banyak model klasik seperti kesetaraan translasi , struktur pelbagai skala, dan lain-lain, boleh dikatakan sebagai tunjang utama dunia CV. Tetapi apa yang sangat berbeza daripada Transformer ialah CNN sememangnya tidak dapat menyesuaikan diri dengan data yang "dilubangi" oleh cloze dan penuh dengan "lubang rawak", jadi ia tidak dapat menikmati dividen pra-latihan BERT pada pandangan pertama.


Gambar di atas. Apa yang ditunjukkan ialah hasil kerja MAE (Masked Autoencoders are Scalable Visual Learners) Memandangkan ia menggunakan model Transformer dan bukannya model CNN, ia boleh mengatasi input dengan lubang secara fleksibel, yang merupakan "padanan semula jadi" dengan BERT.

Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023


Gambar di sebelah kanan b. menunjukkan cara kasar untuk menggabungkan model BERT dan CNN - iaitu, "menghitamkan" semua kawasan kosong dan. Apabila imej "mozek hitam" ini dimasukkan ke dalam CNN, hasilnya boleh dibayangkan, yang akan menyebabkan masalah peralihan keamatan piksel yang serius dan membawa kepada prestasi yang lemah (disahkan kemudian). Ini adalah

cabaran yang menghalang kejayaan penerapan BERT di CNN.

Selain itu, pasukan penulis juga menegaskan bahawa algoritma BERT yang berasal dari bidang NLP secara semula jadi tidak mempunyai ciri-ciri "multi-scale" , dan struktur piramid berskala Ia boleh dipanggil "standard emas" dalam sejarah panjang penglihatan komputer. Konflik antara BERT skala tunggal dan CNN berskala semula jadi ialah Cabaran 2.

Penyelesaian SparK: Pemodelan Topeng Jarang dan Hierarki

Pertama, diilhamkan oleh pemprosesan data awan titik tiga dimensi, pasukan pengarang mencadangkan untuk merawat imej berpecah-belah selepas operasi penyamaran (operasi berongga) sebagai titik Jarang awan dikodkan menggunakan Submanifold Sparse Convolution. Ini membolehkan rangkaian konvolusi mengendalikan imej yang dipadam secara rawak dengan mudah.

Kedua, diilhamkan oleh reka bentuk elegan UNet, pasukan pengarang secara semula jadi mereka bentuk model penyahkod pengekod dengan sambungan sisi, membolehkan ciri-ciri berbilang skala mengalir antara berbilang peringkat model, membolehkan BERT menerima sepenuhnya standard emas berskala emas penglihatan komputer.

Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023

Pada ketika ini, SparK, algoritma pemodelan topeng berbilang skala yang jarang disesuaikan untuk rangkaian konvolusi (CNN), telah dilahirkan.

SparK ialah

generik:

Ia boleh boleh digunakan secara langsung pada mana-mana rangkaian konvolusi tanpa sebarang pengubahsuaian pada strukturnya atau pengenalan sebarang komponen tambahan - sama ada ResNet klasik yang biasa atau model lanjutan ConvNeXt terkini, anda boleh mendapat manfaat secara langsung daripada SparK .

Dari ResNet ke ConvNeXt: Tiga peningkatan prestasi tugas visual utama

Pasukan pengarang memilih dua keluarga model konvolusi wakil, ResNet dan ConvNeXt, dan menjalankan ujian prestasi pada pengelasan imej, pengesanan sasaran dan tugasan pembahagian contoh. Pada model ResNet-50 klasik, SparK berfungsi sebagai satu-satunya pra-latihan generatif, dicapai Tahap terkini:

Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023

Pada model ConvNeXt, SparK masih di hadapan . Sebelum pra-latihan, ConvNeXt dan Swin-Transformer dipadankan secara sama rata; selepas pra-latihan, ConvNeXt mengatasi Swin-Transformer dalam tiga tugasan:

Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023

Apabila mengesahkan SparK pada keluarga model lengkap dari kecil hingga besar, ia boleh diperhatikan:

Tidak kira Model besar atau kecil , baharu atau lama, semuanya boleh mendapat manfaat daripada SparK, dan apabila saiz model/overhed latihan meningkat, peningkatan lebih tinggi lagi, mencerminkan keupayaan penskalaan algoritma SparK:

Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023 dan

Struktur hierarki baris 3 dan 4 Baris) adalah reka bentuk yang sangat kritikal akan menyebabkan kemerosotan prestasi yang serius:

Atas ialah kandungan terperinci Bolehkah BERT juga digunakan di CNN? Hasil penyelidikan ByteDance dipilih untuk Spotlight ICLR 2023. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam