Rumah >Peranti teknologi >AI >Mari lihat gambar model besar dengan lebih berkesan daripada menaip! Penyelidikan baharu dalam NeurIPS 2023 mencadangkan kaedah pertanyaan berbilang modal, meningkatkan ketepatan sebanyak 7.8%

Mari lihat gambar model besar dengan lebih berkesan daripada menaip! Penyelidikan baharu dalam NeurIPS 2023 mencadangkan kaedah pertanyaan berbilang modal, meningkatkan ketepatan sebanyak 7.8%

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBke hadapan: 2023-10-23 11:45:09846semak imbas

Keupayaan untuk "mengecam imej" model besar sangat kuat, mengapa mereka masih mencari perkara yang salah?

Contohnya, kelawar dan kelawar mengelirukan yang tidak kelihatan sama, atau gagal mengenali ikan yang jarang ditemui dalam beberapa set data...

Ini kerana apabila kami meminta model besar untuk "mencari sesuatu", kami sering memasukkan The is teks .

Jika penerangannya samar-samar atau terlalu berat sebelah, seperti "kelawar" (kelawar atau kelawar?) atau "syaitan" (Cyprinodon diabolis) , AI akan menjadi sangat keliru.

Ini membawa kepada fakta bahawa apabila menggunakan model besar untuk melakukan pengesanan sasaran, terutamanya dunia terbuka (adegan tidak diketahui)tugas pengesanan sasaran, hasilnya selalunya tidak sebaik yang diharapkan.

Kini, kertas kerja yang disertakan dalam NeurIPS 2023 akhirnya menyelesaikan masalah ini.

让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8%

Makalah ini mencadangkan kaedah pengesanan sasaran berdasarkan pertanyaan berbilang modalMQ-Det Dengan hanya menambah contoh imej pada input, ketepatan mencari sesuatu dalam model besar boleh dipertingkatkan dengan lebih baik.

Pada set data pengesanan penanda aras LVIS, tanpa memerlukan penalaan halus model tugasan hiliran, MQ-Det meningkatkan ketepatan GLIP model besar pengesanan arus perdana sebanyak kira-kira 7.8% secara purata pada 13 penanda aras tugasan hiliran kecil , peningkatan purata ialah 6.3%Ketepatan. Bagaimana ini dilakukan? Mari kita lihat.

Kandungan berikut diterbitkan semula daripada pengarang makalah dan blogger Zhihu @沁园夏:

Jadual Kandungan

MQ-Det: Model pengesanan sasaran dunia terbuka yang besar untuk pertanyaan pelbagai mod

1.1 Daripada pertanyaan teks kepada pertanyaan Stateful berbilang modal
1.2 Seni bina model pertanyaan berbilang mod palam dan main MQ-Det
1.3 Strategi latihan cekap MQ-Det
1.4 Keputusan eksperimen: Penilaian tanpa penyetelan
keputusan: Penilaian beberapa pukulan
1.6 Prospek Pengesanan Objek Pertanyaan Pelbagai Modal
MQ-Det: Model Besar Pengesanan Objek Dunia Terbuka untuk Pertanyaan Pelbagai Modal

Nama Kertas QueriMulti:

Pengesanan Objek di Alam Liar

Pautan Kertas:

https://www.php.cn/link/9c6947bd95ae487c81d4e19d3ed8cd6f

Alamat kod:www.cn/fee: https://www.php. db3a5402aac9db25cc5d

1.1 Daripada pertanyaan teks kepada pertanyaan pelbagai mod

让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8%

Sebuah gambar bernilai seribu perkataan

: Dengan peningkatan imej dan teks pra-latihan, dengan semantik teks terbuka, pengesanan sasaran telah memasuki peringkat secara beransur-ansur persepsi dunia terbuka. Untuk tujuan ini, banyak model pengesanan besar mengikut corak pertanyaan teks, yang menggunakan perihalan teks kategori untuk menanyakan sasaran yang berpotensi dalam imej sasaran. Walau bagaimanapun, pendekatan ini sering menghadapi masalah "luas tetapi tidak tepat".

Sebagai contoh, (1) objek berbutir halus (spesies ikan) pengesanan dalam Rajah 1, selalunya sukar untuk menerangkan pelbagai spesies ikan berbutir halus dengan teks terhad, (2) kesamaran kategori

("kelawar" kedua-duanya Ia boleh merujuk kepada kedua-dua kelawar dan kelawar)

. Walau bagaimanapun, masalah di atas boleh diselesaikan melalui contoh imej Berbanding dengan teks, imej boleh memberikan petunjuk ciri yang lebih kaya objek sasaran, tetapi pada masa yang sama, teks mempunyai

generalisasi yang berkuasa

. Oleh itu, cara menggabungkan kedua-dua kaedah pertanyaan secara organik telah menjadi idea semula jadi.

Kesukaran mendapatkan keupayaan pertanyaan berbilang modal

: Bagaimana untuk mendapatkan model sedemikian dengan pertanyaan berbilang modal, terdapat tiga cabaran: (1) Penalaan halus secara langsung dengan contoh imej yang terhad boleh membawa kepada pelupaan yang dahsyat; ) ) Melatih model pengesanan besar dari awal akan mempunyai generalisasi yang lebih baik tetapi akan menggunakan banyak wang Sebagai contoh, latihan GLIP pada satu kad memerlukan 30 juta volum data untuk 480 hari latihan.

Pengesanan sasaran pertanyaan berbilang modal: Berdasarkan pertimbangan di atas, penulis mencadangkan reka bentuk model dan strategi latihan yang mudah dan berkesan - MQ-Det.

MQ-Det memasukkan sebilangan kecil modul persepsi berpagar (GCP) berdasarkan model pengesanan pertanyaan teks beku besar sedia ada untuk menerima input daripada contoh visual Pada masa yang sama, ia mereka bentuk ramalan bahasa topeng keadaan visual strategi latihan untuk mendapatkan pengesan A berkualiti tinggi dengan cekap untuk pertanyaan multimodal prestasi.

1.2 Seni bina model pertanyaan berbilang mod plug-and-play MQ-Det

△Rajah 1 Gambar rajah seni bina kaedah MQ-Det

Modul penderiaan berpagar

As ditunjukkan dalam Rajah 1. pengekod hujung model besar pengesanan pertanyaan teks beku dimasukkan ke dalam modul persepsi berpagar (GCP) lapisan demi lapisan Mod kerja GCP boleh dinyatakan secara ringkas dengan formula berikut:

让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8%

Untuk ke-i. kategori, input Contoh visual Vi mula-mula melakukan perhatian silang (X-MHA) dengan imej sasaran I untuk mendapatkan 让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8% untuk meningkatkan keupayaan perwakilannya, dan kemudian setiap teks kategori ti akan melakukan perhatian silang dengan contoh visual yang sepadan kategori untuk mendapatkan , dan kemudian menggabungkan teks asal ti dan teks ditambah secara visual 让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8% melalui gerbang modul gating untuk mendapatkan output lapisan semasa . Reka bentuk yang mudah itu mengikut tiga prinsip: (1) Kebolehskalaan kategori; (2) Penyempurnaan semantik;

1.3 MQ-Det strategi latihan cekap

Latihan modulasi berdasarkan pengesan pertanyaan bahasa beku

Memandangkan model pengesanan pra-latihan besar semasa pertanyaan teks itu sendiri mempunyai generalisasi yang baik, pengarang kertas percaya bahawa hanya Just make sedikit pelarasan dengan butiran visual berdasarkan ciri teks asal.

Terdapat juga demonstrasi percubaan khusus dalam artikel yang mendapati penalaan halus selepas membuka parameter model asal yang telah dilatih dengan mudah boleh membawa kepada masalah pelupaan bencana, dan sebaliknya kehilangan keupayaan untuk mengesan dunia terbuka.

Oleh itu, MQ-Det boleh memasukkan maklumat visual dengan cekap ke dalam pengesan pertanyaan teks sedia ada dengan hanya memodulasi modul GCP terlatih berdasarkan pengesan pra-latihan pertanyaan teks beku.

Dalam kertas kerja, penulis menggunakan reka bentuk struktur dan teknologi latihan MQ-Det pada model SOTA semasa GLIP dan GroundingDINO masing-masing untuk mengesahkan kepelbagaian kaedah.

Strategi latihan ramalan bahasa bertopeng berpenglihatan

Pengarang juga mencadangkan strategi latihan ramalan bahasa bertopeng berpenglihatan untuk menyelesaikan masalah inersia pembelajaran yang disebabkan oleh pembekuan model pra-latihan.

Apa yang dipanggil inersia pembelajaran bermakna pengesan cenderung untuk mengekalkan ciri pertanyaan teks asal semasa proses latihan, dengan itu mengabaikan ciri pertanyaan visual yang baru ditambah.

Untuk tujuan ini, MQ-Det secara rawak menggantikan token teks dengan token [MASK] semasa latihan, memaksa model untuk belajar dari sisi ciri pertanyaan visual, iaitu:

让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8%

Strategi ini mudah, tetapi sangat berkesan. Keputusan eksperimen menunjukkan bahawa strategi ini membawa peningkatan prestasi yang ketara.

1.4 Keputusan eksperimen: Penilaian tanpa penalaan

Tanpa penalaan: Berbanding dengan pukulan sifar tradisional (tembakan sifar) penilaian yang hanya menggunakan teks kategori untuk ujian, MQ-Det mencadangkan penilaian Strate: yang lebih realistik bebas penalaan semula. Ia ditakrifkan sebagai: tanpa sebarang penalaan halus hiliran, pengguna boleh menggunakan teks kategori, contoh imej atau gabungan kedua-duanya untuk melakukan pengesanan objek.

Di bawah tetapan bebas penalaan, MQ-Det memilih 5 contoh visual untuk setiap kategori dan menggabungkan teks kategori untuk pengesanan sasaran Walau bagaimanapun, model sedia ada lain tidak menyokong pertanyaan visual dan hanya boleh menggunakan huraian teks biasa. Jadual di bawah menunjukkan hasil pengesanan pada LVIS MiniVal dan LVIS v1.0. Ia boleh didapati bahawa pengenalan pertanyaan berbilang modal meningkatkan keupayaan pengesanan sasaran dunia terbuka.

△Jadual 1 Prestasi bebas penalaan setiap model pengesanan di bawah set data penanda aras LVIS

Seperti yang dapat dilihat dari Jadual 1, MQ - GLIP-L telah meningkatkan AP lebih daripada 7% berdasarkan GLIP-L, dan kesannya sangat ketara!

1.5 Hasil eksperimen: Penilaian beberapa pukulan

△Jadual 2 Setiap model melaksanakan tugasan pengesanan OD35 dan 35 Prestasi dalam 13 subset ODinW-13

Penulis selanjutnya menjalankan eksperimen komprehensif dalam 35 tugas pengesanan hiliran ODinW-35. Seperti yang dapat dilihat daripada Jadual 2, sebagai tambahan kepada prestasi bebas penalaan yang berkuasa, MQ-Det juga mempunyai keupayaan pengesanan sampel kecil yang baik, yang mengesahkan lagi potensi pertanyaan berbilang modal. Rajah 2 juga menunjukkan peningkatan ketara MQ-Det pada GLIP.

△Rajah 2 Perbandingan kecekapan penggunaan data: bilangan sampel latihan, paksi menegak: purata AP pada OdinW-13#🎜🎜; # 🎜🎜#1.6 Prospek pengesanan sasaran pertanyaan berbilang mod

Sebagai bidang penyelidikan berdasarkan aplikasi praktikal, pengesanan sasaran sangat mementingkan pelaksanaan algoritma.

Walaupun model pengesanan sasaran pertanyaan teks biasa sebelumnya telah menunjukkan generalisasi yang baik, dalam pengesanan dunia terbuka sebenar, adalah sukar untuk teks merangkumi maklumat terperinci dan butiran maklumat yang kaya dalam imej Lengkapkan pautan ini dengan sempurna .

Setakat ini kita dapati bahawa teks adalah umum tetapi tidak tepat, dan imej adalah tepat tetapi tidak umum Jika kita boleh menggabungkan kedua-duanya dengan berkesan, iaitu pertanyaan berbilang modal, ia akan mendorong dunia terbuka pengesanan sasaran lebih jauh ke hadapan.

MQ-Det telah mengambil langkah pertama dalam pertanyaan berbilang modal, dan peningkatan prestasi ketaranya juga menunjukkan potensi besar pengesanan sasaran pertanyaan berbilang modal.

Pada masa yang sama, pengenalan penerangan teks dan contoh visual memberikan pengguna lebih banyak pilihan, menjadikan pengesanan sasaran lebih fleksibel dan mesra pengguna.

Atas ialah kandungan terperinci Mari lihat gambar model besar dengan lebih berkesan daripada menaip! Penyelidikan baharu dalam NeurIPS 2023 mencadangkan kaedah pertanyaan berbilang modal, meningkatkan ketepatan sebanyak 7.8%. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构 Object Token github 算法 https

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Versi Mac WPS disambungkan kepada WPS AI dan menyokong fungsi seperti penciptaan kandungan, pengubahsuaian artikel dan penapisan kunci.Artikel seterusnya：Versi Mac WPS disambungkan kepada WPS AI dan menyokong fungsi seperti penciptaan kandungan, pengubahsuaian artikel dan penapisan kunci.

Artikel berkaitan

Lihat lagi