Rumah  >  Artikel  >  Peranti teknologi  >  Rangkaian saraf binari pertama BNext dengan ketepatan lebih daripada 80% pada ImageNet keluar, perjalanan lima tahun -1 dan +1

Rangkaian saraf binari pertama BNext dengan ketepatan lebih daripada 80% pada ImageNet keluar, perjalanan lima tahun -1 dan +1

WBOY
WBOYke hadapan
2023-04-13 10:31:021075semak imbas

Dua tahun lalu, apabila MeliusNet keluar, Machine Heart menerbitkan artikel teknikal "Rangkaian saraf binari mengatasi MobileNet buat kali pertama, - 1 dan + 1 tiga- tahun perjalanan yang sukar ​", mengkaji semula sejarah pembangunan BNN. Pada masa itu, XNOR.AI, yang bermula dengan kerja awal BNN XNOR-Net, telah diperoleh oleh Apple Semua orang telah membayangkan sama ada teknologi rangkaian saraf binari berkuasa rendah dan berprestasi tinggi ini tidak lama lagi akan membuka prospek aplikasi yang luas.

Walau bagaimanapun, dalam tempoh dua tahun yang lalu, adalah sukar bagi kami untuk mendapatkan lebih banyak maklumat tentang aplikasi teknologi BNN daripada Apple, yang dengan ketat merahsiakan teknologi, dan tidak ada penampilan dalam akademik atau industri Lain-lain kes aplikasi yang menarik perhatian. Sebaliknya, apabila bilangan peranti terminal meroket, aplikasi dan pasaran AI edge berkembang pesat: dijangkakan 500 hingga 125 bilion peranti edge akan dihasilkan menjelang 2030, dan pasaran pengkomputeran tepi akan melonjak kepada AS$60 bilion. Terdapat beberapa kawasan aplikasi yang popular pada masa ini: AIoT, Metaverse dan peralatan terminal robotik. Industri yang berkaitan sedang mempercepatkan pelaksanaan teknologi Pada masa yang sama, keupayaan AI telah dibenamkan dalam banyak pautan teknikal teras dalam bidang di atas, seperti aplikasi meluas teknologi AI dalam pembinaan semula tiga dimensi, pemampatan video dan masa nyata. persepsi adegan robot. Berdasarkan latar belakang ini, permintaan industri untuk kecekapan tenaga tinggi berasaskan kelebihan, teknologi AI berkuasa rendah, alatan perisian dan pecutan perkakasan telah menjadi semakin mendesak.

Pada masa ini, terdapat dua kesesakan utama yang menyekat penggunaan BNN: pertama, ketidakupayaan untuk mengecilkan jurang ketepatan secara berkesan dengan model pembelajaran mendalam 32-bit tradisional, kedua, kekurangan prestasi pada perkakasan berbeza Pelaksanaan algoritma berprestasi tinggi. Kelajuan dalam kertas pembelajaran mesin selalunya tidak diterjemahkan kepada GPU atau CPU yang anda gunakan. Sebab kedua mungkin timbul daripada sebab pertama BNN tidak dapat mencapai ketepatan yang memuaskan dan oleh itu tidak dapat menarik perhatian meluas daripada pengamal dalam bidang pecutan dan pengoptimuman sistem dan perkakasan. Komuniti algoritma pembelajaran mesin selalunya tidak dapat membangunkan kod perkakasan berprestasi tinggi sendiri. Oleh itu, untuk mencapai ketepatan yang tinggi dan pecutan yang kuat, aplikasi atau pemecut BNN sudah pasti memerlukan kerjasama pembangun dari dua bidang berbeza ini.

Mengapa BNN adalah cekap dari segi pengiraan dan memori

Sebagai contoh, model sistem pengesyoran Meta DLRM menggunakan nombor titik terapung 32-bit untuk menyimpan berat dan parameter pengaktifan, dan model Saiznya lebih kurang 2.2GB. Versi binari model dengan pengurangan kecil dalam ketepatan (

Kelebihan ketara kedua BNN ialah kaedah pengiraan sangat cekap. Ia hanya menggunakan 1 bit, iaitu, dua keadaan, untuk mewakili pembolehubah. Ini bermakna semua operasi boleh diselesaikan hanya dengan operasi bit Dengan bantuan get AND, get XOR dan operasi lain, operasi pendaraban dan penambahan tradisional boleh diganti. Operasi bit adalah unit asas dalam litar Pelajar yang biasa dengan reka bentuk litar harus memahami bahawa mengurangkan luas unit pengiraan pendaraban dan penambahan dan mengurangkan akses memori luar cip adalah cara yang paling berkesan untuk mengurangkan penggunaan kuasa. BNN memfokuskan pada memori dan pengiraan Kesemuanya mempunyai kelebihan unik WRPN [1] menunjukkan bahawa pada FPGA dan ASIC tersuai, BNN boleh mencapai penjimatan kuasa 1000 kali berbanding dengan ketepatan penuh. Kerja yang lebih baru BoolNet [2] menunjukkan reka bentuk struktur BNN yang boleh menggunakan hampir tiada operasi titik terapung dan mengekalkan aliran maklumat binari tulen, yang mencapai penggunaan kuasa yang sangat baik dan pertukaran ketepatan dalam simulasi ASIC.

Apakah rupa BNN pertama dengan ketepatan 80%?

Penyelidik seperti Nianhui Guo dan Haojin Yang dari Institut Kejuruteraan Sistem Komputer Hasso Plattner di Jerman mencadangkan model BNext, menjadi BNN pertama yang mencapai ketepatan klasifikasi top1 melebihi 80% di ImageNet set data. :

Rangkaian saraf binari pertama BNext dengan ketepatan lebih daripada 80% pada ImageNet keluar, perjalanan lima tahun -1 dan +1

Rajah 1 Perbandingan prestasi SOTA BNN berdasarkan ImageNet

Rangkaian saraf binari pertama BNext dengan ketepatan lebih daripada 80% pada ImageNet keluar, perjalanan lima tahun -1 dan +1

Alamat kertas: https://arxiv.org/pdf/2211.12933.pdf

Pengarang Pertama, berdasarkan borang visualisasi Landskap Kehilangan, perbandingan yang mendalam dibuat tentang perbezaan besar dalam keramahan pengoptimuman antara model BNN arus perdana dan model 32-bit (Rajah 2 adalah dicadangkan bahawa Landskap Kehilangan kasar bagi BNN menghalang komuniti penyelidikan semasa menerokai sempadan prestasi BNN. Salah satu sebab utama.

Berdasarkan andaian ini, penulis cuba menggunakan reka bentuk struktur baru untuk meningkatkan keramahan pengoptimuman model BNN, dan membina seni bina rangkaian neural binari dengan Landskap Kerugian yang lebih lancar untuk mengurangkan risiko tinggi Kesukaran mengoptimumkan ketepatan model BNN. Secara khusus, pengarang menekankan bahawa perduaan model sangat mengehadkan corak ciri yang boleh digunakan untuk perambatan ke hadapan, memaksa lilitan binari untuk hanya mengekstrak dan memproses maklumat dalam ruang ciri terhad ini Kesukaran pengoptimuman yang disebabkan olehnya dikurangkan dengan berkesan melalui dua peringkat reka bentuk struktur: (1) membina modul penentukuran ciri lilitan bersebelahan yang fleksibel untuk meningkatkan kebolehsesuaian model kepada perwakilan binari; .

Rangkaian saraf binari pertama BNext dengan ketepatan lebih daripada 80% pada ImageNet keluar, perjalanan lima tahun -1 dan +1

Rajah 2 Perbandingan visualisasi Landskap Kehilangan untuk seni bina BNN popular (perspektif kontur 2D)

Berdasarkan analisis di atas, penulis mencadangkan BNext, seni bina rangkaian neural binari pertama yang mencapai ketepatan > 80% dalam tugas pengelasan imej ImageNe Reka bentuk seni bina rangkaian khusus ditunjukkan dalam Rajah 4 ditunjukkan. Penulis mula-mula mereka bentuk unit pemprosesan binari asas berdasarkan modul Info-Recoupling (Info-RCP). Untuk menangani masalah kesesakan maklumat antara lilitan bersebelahan, reka bentuk penentukuran awal taburan keluaran lilitan binari diselesaikan dengan memperkenalkan lapisan Normalisasi Batch tambahan dan lapisan PReLU. Kemudian penulis membina reka bentuk penentukuran taburan dinamik kuadratik berdasarkan struktur baki songsang dan struktur cawangan Squeeze-And-Expand. Seperti yang ditunjukkan dalam Rajah 3, berbanding dengan struktur penentukuran Real2Binary tradisional, struktur baki songsang tambahan mempertimbangkan sepenuhnya jurang ciri antara input dan output unit binari, mengelakkan penentukuran pengedaran suboptimum berdasarkan sepenuhnya pada maklumat input. Penentukuran pengedaran dinamik dua peringkat ini dengan berkesan boleh mengurangkan kesukaran pengekstrakan ciri dalam lapisan lilitan binari bersebelahan berikutnya.

Rangkaian saraf binari pertama BNext dengan ketepatan lebih daripada 80% pada ImageNet keluar, perjalanan lima tahun -1 dan +1

Rajah 3 Perbandingan reka bentuk modul konvolusi

Kedua, penulis mencadangkan modul Blok Asas binari yang dipertingkatkan digabungkan dengan Perhatian Element-wise (ELM-Attention). Penulis menyelesaikan pembinaan asas Blok Asas dengan menyusun berbilang modul Info-RCP, dan memperkenalkan Penormalan Batch tambahan dan sambungan baki berterusan kepada setiap modul Info-RCP untuk mengurangkan lagi masalah kesesakan maklumat antara modul Info-RCP yang berbeza. Berdasarkan analisis kesan struktur pintasan pada pengoptimuman model binari, penulis mencadangkan untuk menggunakan cawangan pendaraban matriks Element-wise untuk melaksanakan penentukuran pengedaran pada output modul 3x3 Info-RCP pertama setiap Blok Asas . Mekanisme pemberat perhatian ruang udara tambahan boleh membantu Blok Asas melaksanakan gabungan dan pengedaran maklumat ke hadapan dengan mekanisme yang lebih fleksibel, meningkatkan kelancaran Landskap Kehilangan model. Seperti yang ditunjukkan dalam Rajah 2.e dan Rajah 2.f, reka bentuk modul yang dicadangkan boleh meningkatkan kelicinan Landskap Kehilangan model dengan ketara.

Rangkaian saraf binari pertama BNext dengan ketepatan lebih daripada 80% pada ImageNet keluar, perjalanan lima tahun -1 dan +1

Rajah 4 BNreka bentuk seni bina seterusnya. "Pemproses mewakili modul Info-RCP, "BN" mewakili lapisan Normalisasi Kelompok, "C" mewakili lebar asas model, "N" dan "M" mewakili parameter skala kedalaman peringkat berbeza model.

Rangkaian saraf binari pertama BNext dengan ketepatan lebih daripada 80% pada ImageNet keluar, perjalanan lima tahun -1 dan +1

Jadual 1 BNext series “Q” mewakili tetapan lapisan input, SEbranch dan lapisan output. >

Pengarang menggabungkan reka bentuk struktur di atas dengan model penanda aras MoboleNetv1 yang popular, dan membina empat siri model BNext kerumitan berbeza (Jadual 1) dengan menukar pekali berkadar kedalaman dan lebar model: BNex-Tiny, BNext - Kecil, BNext-Middle, BNext-Large.

Disebabkan Landskap Kerugian yang agak kasar, pengoptimuman model binari semasa secara amnya bergantung pada maklumat penyeliaan yang lebih halus yang disediakan melalui kaedah seperti penyulingan pengetahuan untuk menyingkirkan penumpuan suboptimum yang meluas. Buat pertama kalinya, pengarang BNext mempertimbangkan kemungkinan kesan jurang yang besar dalam taburan ramalan antara model guru dan model pelajar binari semasa proses pengoptimuman, dan menegaskan bahawa pemilihan guru berdasarkan ketepatan model semata-mata akan membawa kepada pembilang. -hasil overfitting pelajar yang intuitif. Untuk menyelesaikan masalah ini, penulis mencadangkan kerumitan pengetahuan (KC) sebagai metrik pemilihan guru baharu, dengan mengambil kira perkaitan antara keberkesanan label lembut keluaran model guru dan kerumitan parameter model guru.

Rangkaian saraf binari pertama BNext dengan ketepatan lebih daripada 80% pada ImageNet keluar, perjalanan lima tahun -1 dan +1

Seperti yang ditunjukkan dalam Rajah 5, berdasarkan kerumitan pengetahuan, penulis menjalankan pengukuran kerumitan dan perbandingan siri model ketepatan penuh yang popular seperti ResNet, EfficientNet, dan ConvNext Ranking, digabungkan dengan BNext-T sebagai model pelajar, mengesahkan keberkesanan metrik ini secara awal dan keputusan penarafan digunakan untuk pemilihan model penyulingan pengetahuan dalam eksperimen seterusnya.

Rangkaian saraf binari pertama BNext dengan ketepatan lebih daripada 80% pada ImageNet keluar, perjalanan lima tahun -1 dan +1

Rajah 5 Kesan overfitting kontra-intuitif dan kesan kerumitan pengetahuan di bawah pemilihan guru yang berbeza

Atas dasar ini, pengarang kertas kerja mempertimbangkan lagi masalah pengoptimuman yang disebabkan oleh jurang pengedaran ramalan awal dalam proses pengoptimuman guru yang kukuh, dan mencadangkan Diversified Consecutive KD. Seperti yang ditunjukkan di bawah, penulis memodulasi fungsi objektif dalam proses pengoptimuman melalui kaedah integrasi pengetahuan gabungan guru kuat dan lemah. Atas dasar ini, strategi peningkatan pengetahuan diperkenalkan lagi, menggunakan berbilang calon guru yang telah ditetapkan untuk menukar guru yang lemah secara sekata semasa proses latihan, membimbing gabungan kerumitan pengetahuan dalam cara kurikulum daripada lemah kepada kuat, dan mengurangkan gangguan Pengoptimuman disebabkan oleh perbezaan.

Rangkaian saraf binari pertama BNext dengan ketepatan lebih daripada 80% pada ImageNet keluar, perjalanan lima tahun -1 dan +1

Dari segi teknik pengoptimuman, penulis BNext mempertimbangkan sepenuhnya kemungkinan keuntungan yang dibawa oleh penambahan data dalam pengoptimuman model ketepatan tinggi moden dan menyediakan yang pertama Memandangkan keputusan analisis kemungkinan kesan strategi penambahan data popular sedia ada dalam pengoptimuman model binari, keputusan eksperimen menunjukkan bahawa kaedah penambahan data sedia ada tidak sesuai sepenuhnya untuk pengoptimuman model binari, yang khusus untuk model binari dalam data Dioptimumkan reka bentuk strategi peningkatan menyediakan idea.

Berdasarkan reka bentuk seni bina yang dicadangkan dan kaedah pengoptimuman, penulis menjalankan pengesahan kaedah pada tugas pengelasan imej berskala besar ImageNet-1k. Keputusan eksperimen ditunjukkan dalam Rajah 6.

Rangkaian saraf binari pertama BNext dengan ketepatan lebih daripada 80% pada ImageNet keluar, perjalanan lima tahun -1 dan +1

Rajah 6 Perbandingan kaedah SOTA BNN berdasarkan ImageNet-1k.

Berbanding dengan kaedah sedia ada, BNext-L melonjakkan sempadan prestasi model binari kepada 80.57% buat kali pertama pada ImageNet-1k, mencapai ketepatan 10%+ mengatasi kebanyakan kaedah sedia ada. Berbanding dengan PokeBNN daripada Google, BNext-M adalah 0.7% lebih tinggi dengan parameter yang serupa. Pengarang juga menekankan bahawa pengoptimuman PokeBNN bergantung pada sumber pengkomputeran yang lebih tinggi, seperti Saiz Bacth sehingga 8192 dan TPU 720 Epochs , manakala BNext-L hanya mengulangi 512 Epoch dengan Saiz Kelompok konvensional 512, yang mencerminkan keberkesanan kaedah reka bentuk dan pengoptimuman struktur BNext. Dalam perbandingan berdasarkan model garis dasar yang sama, kedua-dua BNext-T dan BNext-18 telah meningkatkan ketepatan dengan ketara. Berbanding dengan model ketepatan penuh seperti RegNetY-4G (80.0%), BNext-L menunjukkan padanan keupayaan pembelajaran representasi visual sambil hanya menggunakan ruang parameter terhad dan kerumitan pengiraan, yang menjadikannya sesuai untuk penggunaan edge berdasarkan model tugas visual pada pengekstrak ciri model binari menyediakan ruang imaginasi yang kaya.

Apa seterusnya?

BNext Penulis menyebut dalam kertas kerja bahawa mereka dan rakan usaha sama mereka sedang giat melaksanakan dan mengesahkan seni bina BNN berketepatan tinggi ini pada kecekapan operasi perkakasan GPU, dan merancang untuk berkembang ke platform perkakasan lain yang lebih luas pada masa hadapan. Walau bagaimanapun, pada pendapat editor, masyarakat telah memperoleh semula keyakinan terhadap BNN dan menarik perhatian lebih ramai pakar dalam bidang sistem dan perkakasan Mungkin kepentingan yang lebih penting dalam karya ini adalah untuk membentuk semula imaginasi potensi aplikasi BNN. Dalam jangka panjang, apabila semakin banyak aplikasi berhijrah daripada paradigma pengkomputeran tertumpu awan kepada pengkomputeran tepi terdesentralisasi, bilangan besar peranti tepi pada masa hadapan akan memerlukan teknologi AI, rangka kerja perisian dan platform pengkomputeran perkakasan yang lebih cekap. Walau bagaimanapun, model AI yang paling arus perdana dan seni bina pengkomputeran tidak direka bentuk dan dioptimumkan untuk senario kelebihan. Oleh itu, sehingga jawapan kepada edge AI ditemui, saya percaya bahawa BNN akan sentiasa menjadi pilihan penting yang penuh dengan cabaran teknikal dan potensi besar.

Atas ialah kandungan terperinci Rangkaian saraf binari pertama BNext dengan ketepatan lebih daripada 80% pada ImageNet keluar, perjalanan lima tahun -1 dan +1. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam