Rumah >Peranti teknologi >AI >SOTA baharu untuk pengesanan sasaran: YOLOv9 keluar, dan seni bina baharu menghidupkan semula konvolusi tradisional

SOTA baharu untuk pengesanan sasaran: YOLOv9 keluar, dan seni bina baharu menghidupkan semula konvolusi tradisional

PHPzke hadapan: 2024-02-23 12:49:28852semak imbas

Dalam bidang pengesanan sasaran, YOLOv9 terus membuat kemajuan dalam proses pelaksanaan Dengan mengguna pakai seni bina dan kaedah baharu, ia secara berkesan meningkatkan penggunaan parameter konvolusi tradisional, yang menjadikan prestasinya jauh lebih unggul daripada produk generasi sebelumnya.

Susulan keluaran rasmi YOLOv8 pada Januari 2023, lebih setahun kemudian, YOLOv9 akhirnya hadir!

Sejak Joseph Redmon, Ali Farhadi dan yang lain mencadangkan model YOLO generasi pertama pada 2015, penyelidik dalam bidang pengesanan sasaran telah mengemas kini dan mengulanginya berkali-kali. YOLO ialah sistem ramalan berdasarkan maklumat global imej, dan prestasi modelnya terus dipertingkatkan. Dengan menambah baik algoritma dan teknologi secara berterusan, penyelidik telah mencapai hasil yang luar biasa, menjadikan YOLO semakin berkuasa dalam tugas pengesanan sasaran. Penambahbaikan dan pengoptimuman berterusan ini telah membawa peluang dan cabaran baharu kepada pembangunan teknologi pengesanan sasaran, di samping menggalakkan kemajuan dan inovasi dalam bidang ini. Kejayaan YOLO juga telah memberi inspirasi kepada penyelidik untuk meneruskan usaha mereka

Kali ini, YOLOv9 dibangunkan secara bersama oleh Academia Sinica di Taiwan, Universiti Teknologi Taipei dan institusi lain " telah dikeluarkan.

SOTA baharu untuk pengesanan sasaran: YOLOv9 keluar, dan seni bina baharu menghidupkan semula konvolusi tradisional

Alamat kertas: https://arxiv.org/pdf/2402.13616.pdf

Alamat GitHub: https://github.com/WongKinYiu/yolov9

Penempatan kaedah pembelajaran mendalam hari ini fungsi objektif yang sesuai, supaya keputusan ramalan model boleh paling hampir dengan situasi sebenar. Pada masa yang sama, seni bina yang sesuai mesti direka bentuk yang boleh membantu mendapatkan maklumat yang mencukupi untuk ramalan. Walau bagaimanapun, kaedah sedia ada mengabaikan fakta bahawa sejumlah besar maklumat akan hilang apabila data input menjalani pengekstrakan ciri lapisan demi lapisan dan transformasi spatial.

Oleh itu, YOLOv9 mengkaji secara mendalam isu penting kehilangan data apabila data dihantar melalui rangkaian dalam, iaitu kesesakan maklumat dan fungsi boleh balik.

Penyelidik mencadangkan konsep maklumat kecerunan boleh atur cara (PGI) untuk menghadapi pelbagai perubahan yang diperlukan oleh rangkaian mendalam untuk mencapai pelbagai matlamat. PGI boleh menyediakan maklumat input lengkap untuk tugas sasaran untuk mengira fungsi objektif, dengan itu mendapatkan maklumat kecerunan yang boleh dipercayai untuk mengemas kini berat rangkaian.

Selain itu, penyelidik mereka bentuk seni bina rangkaian ringan baharu berdasarkan perancangan laluan kecerunan, iaitu Generalized Efficient Layer Aggregation Network (GELAN). Seni bina ini mengesahkan bahawa PGI boleh mencapai keputusan cemerlang pada model ringan.

Para penyelidik mengesahkan cadangan GELAN dan PGI pada tugas pengesanan sasaran berdasarkan set data MS COCO. Keputusan menunjukkan bahawa GELAN mencapai penggunaan parameter yang lebih baik dengan hanya menggunakan operator lilitan tradisional berbanding kaedah SOTA yang dibangunkan berdasarkan lilitan dalam.

Untuk PGI, ia sangat mudah disesuaikan dan boleh digunakan pada pelbagai model dari ringan hingga besar. Kami boleh menggunakan ini untuk mendapatkan maklumat yang lengkap, dengan itu membolehkan model yang dilatih dari awal untuk mencapai hasil yang lebih baik berbanding model SOTA yang telah dilatih menggunakan set data yang besar. Rajah 1 di bawah menunjukkan beberapa hasil perbandingan.

Untuk YOLOv9 yang baru dikeluarkan, Alexey Bochkovskiy, yang telah mengambil bahagian dalam pembangunan YOLOv7, YOLOv4, Scaled-YOLOv4 dan DPT, memujinya dengan mengatakan bahawa YOLOv9 adalah lebih baik daripada mana-mana pengesan objek berasaskan konvolusi atau transformer .

^{Sumber: https://twitter.com/alexeyab84/status/1760685626247250342🜎} jadilah pengesan objek masa nyata SOTA baharu, dengan tutorial latihan tersuainya sendiri Hidup caranya juga.

Sumber: https://twitter.com/skalskip92/status/1760717294

Netizen yang "rajin" telah menambah sokongan pip pada model YOLOv9. Sumber P: https://twitter.com/kadirnar_ai/status/1760716187896283635

Dalam butiran YOLOV9. Pernyataan Masalah

Biasanya, orang mengaitkan masalah kesukaran penumpuan rangkaian saraf
dalam kepada faktor seperti kehilangan kecerunan atau ketepuan kecerunan, dan fenomena ini wujud dalam rangkaian saraf
dalam tradisional Walau bagaimanapun, rangkaian neural
dalam moden telah menyelesaikan masalah di atas secara asas dengan mereka bentuk pelbagai fungsi normalisasi dan pengaktifan. Namun begitu, masih terdapat masalah dengan kelajuan penumpuan yang perlahan atau kesan penumpuan yang lemah dalam rangkaian
neural yang mendalam. Jadi apakah intipati masalah ini? Melalui analisis mendalam tentang kesesakan maklumat, para penyelidik menyimpulkan punca masalah: tidak lama selepas kecerunan pada mulanya hilang dari rangkaian yang sangat dalam, banyak maklumat yang diperlukan untuk mencapai matlamat hilang. Untuk mengesahkan inferens ini, penyelidik melakukan pemprosesan suapan ke hadapan pada rangkaian dalam seni bina yang berbeza dengan pemberat awal. Rajah 2 menggambarkan ini secara visual. Jelas sekali, PlainNet kehilangan banyak maklumat penting yang diperlukan untuk pengesanan objek pada lapisan dalam. Bagi bahagian maklumat penting yang boleh disimpan oleh ResNet, CSPNet dan GELAN, ia sememangnya berkaitan secara positif dengan ketepatan yang boleh diperolehi selepas latihan. Para penyelidik seterusnya mereka bentuk kaedah berdasarkan rangkaian boleh balik untuk menyelesaikan punca masalah di atas. Pengenalan Kaedah

Maklumat Kecerunan Boleh Aturcara (PGI)

Kajian ini mencadangkan rangka kerja penyeliaan tambahan baharu: Maklumat Kecerunan Boleh Aturcara (PGI), seperti ditunjukkan dalam Rajah 3(d)
PGI terutamanya merangkumi tiga bahagian, iaitu (1) cawangan utama, (2) cawangan boleh balik bantu, (3) maklumat tambahan berbilang peringkat.
Proses inferens PGI hanya menggunakan cabang utama, jadi tiada kos penaakulan tambahan; dan membawa kepada fungsi kehilangan Tidak dapat menjana kecerunan yang boleh dipercayai;

Maklumat tambahan berbilang peringkat direka untuk menangani masalah pengumpulan ralat yang disebabkan oleh penyeliaan yang mendalam, terutamanya seni bina dengan pelbagai cabang ramalan dan model ringan.

Rangkaian GELAN

Selain itu, kajian itu juga mencadangkan seni bina rangkaian baru GELAN (seperti yang ditunjukkan dalam rajah di bawah Secara khusus, penyelidik menggabungkan dua seni bina rangkaian neural CSPNet dan ELAN, dengan itu Reka bentuk yang cekap umum). rangkaian pengagregatan lapisan (GELAN) yang mengambil kira ringan, kelajuan inferens dan ketepatan. Para penyelidik menyamaratakan keupayaan ELAN, yang pada mulanya hanya menggunakan susunan lapisan konvolusi, kepada seni bina baharu yang boleh menggunakan sebarang blok pengiraan.

Hasil eksperimen
Untuk menilai prestasi YOLOv9, kajian ini mula-mula secara komprehensif membandingkan YOLOv9 dengan pengesan objek masa nyata lain yang dilatih dari awal, dan hasilnya ditunjukkan dalam Jadual 1 di bawah.

Kajian ini juga memasukkan model pra-latihan ImageNet dalam perbandingan, dan hasilnya ditunjukkan dalam Rajah 5 di bawah. Perlu diingat bahawa YOLOv9 menggunakan lilitan tradisional adalah lebih baik daripada YOLO MS menggunakan lilitan mendalam dalam penggunaan parameter.

Eksperimen Ablasi

Untuk meneroka peranan setiap komponen dalam YOLOv9, kajian ini menjalankan satu siri eksperimen ablasi.
Kajian ini mula-mula menjalankan eksperimen ablasi pada blok pengkomputeran GELAN. Seperti yang ditunjukkan dalam Jadual 2 di bawah, kajian mendapati bahawa dengan menggantikan lapisan konvolusi dalam ELAN dengan blok pengiraan yang berbeza, sistem mengekalkan prestasi yang baik.

Kemudian kajian menjalankan eksperimen ablasi ke atas GELAN yang berlainan saiz untuk kedalaman blok ELAN dan kedalaman blok CSP, dan keputusan ditunjukkan dalam Jadual 3 di bawah.
Dari segi PGI, penyelidik menjalankan kajian ablasi ke atas cawangan boleh balik bantu dan maklumat tambahan berbilang peringkat pada rangkaian tulang belakang dan leher masing-masing. Jadual 4 menyenaraikan keputusan semua eksperimen. Seperti yang dapat dilihat daripada Jadual 4, PFH hanya berkesan untuk model dalam, manakala PGI yang dicadangkan dalam kertas ini boleh meningkatkan ketepatan di bawah kombinasi yang berbeza.

Para penyelidik melaksanakan PGI dan pemantauan kedalaman pada model yang berbeza saiz dan membandingkan keputusannya ditunjukkan dalam Jadual 5.

Rajah 6 menunjukkan keputusan penambahan komponen secara berperingkat daripada garis dasar YOLOv7 kepada YOLOv9-E.

Visualisasi

Para penyelidik meneroka masalah kesesakan maklumat dan menggambarkannya Rajah 6 menunjukkan hasil visualisasi peta ciri yang diperoleh menggunakan pemberat awal rawak sebagai suapan di bawah seni bina yang berbeza.

Rajah 7 menggambarkan sama ada PGI boleh memberikan kecerunan yang lebih dipercayai semasa latihan, supaya parameter yang digunakan untuk mengemas kini dapat menangkap hubungan antara data input dan sasaran dengan berkesan.

Untuk butiran lanjut teknikal, sila baca artikel asal.

Atas ialah kandungan terperinci SOTA baharu untuk pengesanan sasaran: YOLOv9 keluar, dan seni bina baharu menghidupkan semula konvolusi tradisional. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构 pip 堆 using 对象 github 算法 transformer YOLO https

Kenyataan：

Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Teknologi di sebalik letupan Sora, sebuah artikel yang meringkaskan arah pembangunan terkini model penyebaranArtikel seterusnya：Teknologi di sebalik letupan Sora, sebuah artikel yang meringkaskan arah pembangunan terkini model penyebaran

Artikel berkaitan

Lihat lagi