Rumah > Artikel > Peranti teknologi > MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.
Beberapa bulan yang lalu, beberapa penyelidik dari KAUST (Universiti Sains dan Teknologi Raja Abdullah, Arab Saudi) mencadangkan kaedah yang dipanggil #🎜🎜 ## 🎜🎜#MiniGPT-4 projek, yang boleh memberikan pemahaman imej dan keupayaan dialog yang serupa dengan GPT-4.
Sebagai contoh, MiniGPT-4 boleh menjawab adegan dalam gambar di bawah: "Gambar menggambarkan kaktus yang tumbuh di tasik beku. Terdapat hablur ais yang besar di sekeliling kaktus. Terdapat puncak yang dilitupi salji di kejauhan..." Jika anda bertanya, bolehkah adegan seperti ini berlaku di dunia nyata? Jawapan yang diberikan oleh MiniGPT-4 ialah imej ini tidak biasa di dunia nyata dan sebabnya. Hanya beberapa bulan berlalu Baru-baru ini, pasukan KAUST dan penyelidik dari Meta mengumumkan bahawa mereka akan MiniGPT-4 telah dinaik taraf dengan ketara kepada versi MiniGPT-v2.Alamat kertas: https://arxiv.org/pdf/2310.09478.pdf#🎜🎜 🎜#
Halaman utama kertas: https://minigpt-v2.github.io/
Demo: https://minigpt-v2 .github.io/
Secara khusus, MiniGPT-v2 boleh berfungsi sebagai antara muka bersatu untuk mengendalikan pelbagai tugas visual-linguistik dengan lebih baik. Pada masa yang sama, artikel ini mengesyorkan menggunakan simbol pengenalan unik untuk tugasan yang berbeza apabila melatih model ini simbol pengenalan membantu model membezakan setiap arahan tugasan dan meningkatkan kecekapan pembelajaran setiap model tugasan.
Untuk menilai prestasi model MiniGPT-v2, para penyelidik menjalankan eksperimen yang meluas pada tugas visual-linguistik yang berbeza. Keputusan menunjukkan bahawa MiniGPT-v2 mencapai prestasi SOTA atau setanding pada pelbagai penanda aras berbanding model tujuan umum bahasa penglihatan sebelumnya seperti MiniGPT-4, InstructBLIP, LLaVA dan Shikra. Contohnya, MiniGPT-v2 mengatasi MiniGPT-4 sebanyak 21.3%, InstructBLIP sebanyak 11.3% dan LLaVA sebanyak 11.7% pada penanda aras VSR.
Di bawah kami menggunakan contoh khusus untuk menggambarkan peranan simbol pengenalan MiniGPT-v2.
Sebagai contoh, dengan menambahkan simbol pengecaman [grounding], model boleh menjana penerangan imej dengan mudah dengan kesedaran lokasi spatial:
# 🎜 🎜#Dengan menambahkan simbol pengecaman [pengesanan], model boleh mengekstrak objek secara langsung dalam teks input dan mencari kedudukan spatialnya dalam gambar: #🎜🎜 #
Bingkai objek dalam gambar Dengan menambah [mengenal pasti], model boleh mengenal pasti secara langsung nama objek: #. 🎜 🎜#
Dengan menambahkan [rujuk] dan penerangan objek, model secara langsung boleh membantu anda mencari kedudukan spatial objek yang sepadan:# 🎜🎜#
Anda juga boleh berbual dengan gambar tanpa menambah sebarang pengecaman tugas:
#🎜 #
Persepsi spatial model juga semakin kuat Anda boleh terus bertanya kepada model yang muncul di kiri, tengah dan kanan gambar: #. 🎜🎜## 🎜🎜#
Pengenalan kaedah
#🎜🎜 ditunjukkan dalam seni bina MinGP##🎜🎜 rajah di bawah, yang terdiri daripada tiga bahagian: Tulang belakang visual, lapisan unjuran linear dan model bahasa besar.
Tulang belakang visual: MiniGPT-v2 menggunakan EVA sebagai model tulang belakang, dan tulang belakang visual dibekukan semasa latihan. Model ini dilatih pada resolusi imej 448x448 dan pengekodan kedudukan dimasukkan mengikut skala kepada resolusi imej yang lebih tinggi.
Lapisan unjuran linear: Artikel ini bertujuan untuk menayangkan semua token visual daripada tulang belakang visual beku ke dalam ruang model bahasa. Walau bagaimanapun, untuk imej peleraian lebih tinggi (cth. 448x448), menayangkan semua token imej menghasilkan input jujukan yang sangat panjang (cth. 1024 token), mengurangkan kecekapan latihan dan inferens dengan ketara. Oleh itu, kertas kerja ini hanya menggabungkan 4 token visual bersebelahan dalam ruang benam dan menayangkannya bersama-sama menjadi satu benam dalam ruang ciri yang sama bagi model bahasa yang besar, dengan itu mengurangkan bilangan token input visual dengan faktor 4.
Model bahasa berskala besar: MiniGPT-v2 menggunakan sumber terbuka LLaMA2-chat (7B) sebagai tulang belakang model bahasa. Dalam penyelidikan ini, model bahasa dianggap sebagai antara muka bersatu untuk pelbagai input bahasa visual. Artikel ini secara langsung menggunakan token bahasa LLaMA-2 untuk melaksanakan pelbagai tugas bahasa visual. Untuk tugas penglihatan asas yang memerlukan penjanaan lokasi spatial, makalah ini secara langsung memerlukan model bahasa untuk menjana perwakilan teks kotak sempadan untuk mewakili lokasi spatial mereka.
Latihan arahan berbilang tugas
Artikel ini menggunakan arahan simbolik pengecaman tugas untuk melatih model, yang dibahagikan kepada tiga peringkat. Set data yang digunakan dalam setiap peringkat latihan ditunjukkan dalam Jadual 2.
Fasa 1: Pra-latihan. Kertas ini memberikan kadar persampelan yang tinggi kepada set data berlabel lemah untuk mendapatkan pengetahuan yang lebih pelbagai.
Fasa 2: Latihan pelbagai tugas. Untuk meningkatkan prestasi MiniGPT-v2 pada setiap tugasan, peringkat semasa hanya memfokuskan pada penggunaan set data terperinci untuk melatih model. Para penyelidik mengecualikan set data yang diselia dengan lemah seperti GRIT-20M dan LAION dari peringkat-1 dan mengemas kini nisbah pensampelan data mengikut kekerapan setiap tugas. Strategi ini membolehkan model kami mengutamakan data teks imej sejajar berkualiti tinggi, menghasilkan prestasi unggul merentas pelbagai tugas.
Fasa 3: Penalaan arahan berbilang modal. Selepas itu, kertas kerja ini memberi tumpuan kepada menggunakan lebih banyak set data arahan multimodal untuk memperhalusi model dan meningkatkan keupayaan perbualannya sebagai chatbot. . akan dapat mengenal pasti belon merah dalam gambar :
Pembaca yang berminat boleh menyemak halaman utama kertas untuk maklumat lanjut.
Atas ialah kandungan terperinci MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!