Rumah >Peranti teknologi >AI >Tulang belakang baharu rangkaian visual ringan: pengadun token pengendali Fourier yang cekap
Sejak bertahun-tahun, tiga rangkaian tulang belakang visual, Transformer, Large-kernel CNN, dan MLP, telah mencapai kejayaan besar dalam pelbagai tugas penglihatan komputer, terutamanya disebabkan oleh skala globalnya yang cekap. untuk menggabungkan maklumat
Transformer, CNN dan MLP kini merupakan tiga rangkaian neural arus perdana, dan mereka masing-masing menggunakan kaedah berbeza untuk mencapai gabungan Token global. Dalam rangkaian Transformer, mekanisme perhatian kendiri menggunakan korelasi pasangan kunci pertanyaan sebagai berat gabungan Token. CNN mencapai prestasi yang serupa dengan Transformer dengan mengembangkan saiz kernel lilitan. MLP melaksanakan satu lagi paradigma yang berkuasa antara semua token melalui ketersambungan penuh. Walaupun kaedah ini berkesan, ia mempunyai kerumitan pengiraan yang tinggi (O(N^2)) dan sukar digunakan pada peranti dengan storan dan keupayaan pengkomputeran terhad, sekali gus mengehadkan skop aplikasi banyak model
Untuk menyelesaikan masalah pengiraan yang mahal, penyelidik membangunkan gabungan token global yang cekap dipanggil algoritma Adaptive Fourier Filter (AFF). Algoritma ini menggunakan transformasi Fourier untuk menukar set Token ke dalam domain frekuensi, dan mempelajari topeng penapis yang mampu kandungan adaptif dalam domain frekuensi untuk melaksanakan operasi penapisan adaptif pada set Token yang ditukar kepada ruang domain frekuensi
Penapis Frekuensi Suaian : Pembancuh Token Global yang Cekap
Klik pautan ini untuk mengakses teks asal: https://arxiv.org/abs/2307.14008
Mengikut teorem konvolusi domain AFF Token Operasi setara ialah operasi lilitan yang dilakukan dalam domain asal, yang setara dengan operasi produk Hadamard yang dilakukan dalam domain Fourier. Ini bermakna Pengadun Token AFF boleh mencapai gabungan token global yang boleh suai kandungan dengan menggunakan kernel lilitan dinamik dalam domain asal, yang resolusi spatialnya adalah sama dengan saiz set token (seperti ditunjukkan dalam subgambar kanan rajah di bawah)
Adalah diketahui bahawa lilitan dinamik adalah mahal dari segi pengiraan, terutamanya apabila menggunakan kernel lilitan dinamik dengan resolusi spatial yang besar Kos ini nampaknya tidak boleh diterima untuk reka bentuk rangkaian yang cekap/ringan. Walau bagaimanapun, Pengadun Token AFF yang dicadangkan dalam artikel ini secara serentak boleh memenuhi keperluan di atas dalam pelaksanaan yang setara dengan penggunaan kuasa yang rendah, mengurangkan kerumitan daripada O (N^2) kepada O (N log N), dengan itu meningkatkan kecekapan pengiraan dengan ketara
Rajah skema 1: Menunjukkan struktur modul AFF dan rangkaian AFFNet
Pengadun saraf utama menggunakan AFF TokenBy. , Para penyelidik berjaya membina rangkaian saraf ringan yang dipanggil AFFNet. Hasil eksperimen yang kaya menunjukkan bahawa AFF Token Mixer mencapai keseimbangan ketepatan dan kecekapan yang sangat baik dalam pelbagai tugas visual, termasuk pengecaman semantik visual dan tugas ramalan yang padat
Penyelidik menilai prestasi AFF. Token Mixer dan AFFNet pada pelbagai tugas seperti pengecaman semantik visual, pembahagian dan pengesanan dibandingkan dengan rangkaian tulang belakang visual ringan paling canggih dalam bidang penyelidikan semasa. Keputusan eksperimen menunjukkan bahawa reka bentuk model berfungsi dengan baik dalam pelbagai tugas visual, mengesahkan potensi AFF Token Mixer sebagai generasi baharu pengendali gabungan token yang ringan dan cekap
Berbanding dengan SOTA, Rajah 2 menunjukkan Acc -Keluk Param dan Acc-FLOPs pada dataset ImageNet-1K
Membandingkan hasil kaedah terkini dengan dataset ImageNet-1K, lihat Jadual 1
Jadual 2 menunjukkan Perbandingan pengesanan visual dan tugasan segmentasi dengan teknik terkini
🎜Kajian ini membuktikan bahawa transformasi domain frekuensi dalam ruang terpendam memainkan peranan penting dalam gabungan token adaptif global dan merupakan pelaksanaan bersamaan yang cekap dan berkuasa rendah. Ia menyediakan idea penyelidikan baharu untuk reka bentuk pengendali gabungan Token dalam rangkaian saraf, dan menyediakan ruang pembangunan baharu untuk menggunakan model rangkaian saraf pada peranti tepi, terutamanya apabila keupayaan storan dan pengkomputeran adalah terhad
Atas ialah kandungan terperinci Tulang belakang baharu rangkaian visual ringan: pengadun token pengendali Fourier yang cekap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!