MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.-AI-php.cn

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

王林

Oct 11, 2023 pm 12:45 PM

dataPenyelidikan

Model berskala besar membuat lompatan antara bahasa dan penglihatan, menjanjikan untuk memahami dan menjana kandungan teks dan imej dengan lancar. Dalam satu siri kajian baru-baru ini, penyepaduan ciri berbilang mod bukan sahaja menjadi trend yang semakin berkembang tetapi telah membawa kepada kemajuan utama yang terdiri daripada perbualan pelbagai mod kepada alatan penciptaan kandungan. Model bahasa yang besar telah menunjukkan keupayaan yang tiada tandingan dalam pemahaman dan penjanaan teks. Walau bagaimanapun, penjanaan imej secara serentak dengan naratif teks yang koheren masih merupakan kawasan yang perlu dibangunkan

Baru-baru ini, pasukan penyelidik dari University of California, Santa Cruz mencadangkan MiniGPT-5, kaedah berdasarkan konsep "undi generatif" Inovatif teknologi penjanaan bahasa visual interleaved.

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

Alamat kertas: https://browse.arxiv.org/pdf/2310.02239v1.pdf
alamat projek ai-lab/MiniGPT-5

Menggabungkan mekanisme resapan yang stabil dengan LLM melalui "undi generatif" token visual khas, MiniGPT-5 menandakan cara baharu untuk model penjanaan pelbagai mod mahir. Pada masa yang sama, kaedah latihan dua peringkat yang dicadangkan dalam artikel ini menekankan kepentingan peringkat asas tanpa penerangan, membolehkan model berkembang maju walaupun data adalah terhad. Fasa umum kaedah tidak memerlukan anotasi khusus domain, yang menjadikan penyelesaian kami berbeza daripada kaedah sedia ada. Untuk memastikan teks dan imej yang dijana adalah harmoni, strategi kerugian berganda kertas ini dimainkan, yang dipertingkatkan lagi dengan kaedah undian generatif dan kaedah klasifikasi

Berdasarkan teknik ini, kerja ini menandakan Pendekatan transformatif. Dengan menggunakan ViT (Pengubah Penglihatan) dan Qformer serta model bahasa yang besar, pasukan penyelidik menukar input berbilang modal kepada undian generatif dan memasangkannya dengan lancar dengan Resapan Stable2.1 resolusi tinggi untuk mencapai penjanaan imej yang sedar konteks. Kertas kerja ini menggabungkan imej sebagai input tambahan dengan kaedah pelarasan arahan, dan mempelopori penggunaan kehilangan penjanaan teks dan imej, dengan itu mengembangkan sinergi antara teks dan penglihatan

MiniGPT-5 memadankan model seperti kekangan CLIP, dengan bijak Menyatukan model penyebaran dengan MiniGPT-4 mencapai hasil berbilang modal yang lebih baik tanpa bergantung pada anotasi khusus domain. Paling penting, strategi kami boleh memanfaatkan kemajuan dalam model asas bahasa visual multimodal untuk menyediakan pelan tindakan baharu untuk meningkatkan keupayaan generatif multimodal.

Seperti yang ditunjukkan dalam rajah di bawah, sebagai tambahan kepada pemahaman multi-modal asal dan keupayaan penjanaan teks, MiniGPT5 juga boleh memberikan output multi-modal yang munasabah dan koheren: MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

Adalah dicadangkan untuk menggunakan pengekod berbilang modal, yang mewakili teknik umum baru dan telah terbukti lebih berkesan daripada LLM dan Voken generatif songsang, dan menggabungkannya dengan Stable Diffusion untuk menghasilkan interleaved output visual dan linguistik (model bahasa multimodal yang mampu menghasilkan multimodal).
menyerlahkan strategi latihan dua peringkat baharu untuk penjanaan pelbagai mod tanpa penerangan. Peringkat penjajaran modal tunggal memperoleh ciri visual penjajaran teks berkualiti tinggi daripada sebilangan besar pasangan imej teks. Fasa pembelajaran multimodal termasuk tugas latihan baru, penjanaan konteks segera, memastikan gesaan visual dan tekstual diselaraskan dan dihasilkan dengan baik. Menambah panduan tanpa pengelas semasa fasa latihan meningkatkan lagi kualiti penjanaan.

Berbanding dengan model generatif berbilang mod yang lain, MiniGPT-5 mencapai prestasi terkini pada set data CC3M. MiniGPT-5 juga menetapkan penanda aras baharu pada set data terkenal seperti VIST dan MMDialog.

Sekarang, marilah kita memahami kandungan penyelidikan ini secara terperinci

Tinjauan keseluruhan kaedah

🎜Untuk membolehkan model bahasa besar dengan keupayaan penjanaan pelbagai mod, penyelidik berstruktur memperkenalkan rangka kerja Model bahasa berskala besar berbilang modal terlatih dan model penjanaan teks ke imej disepadukan. Untuk menyelesaikan perbezaan antara medan model yang berbeza, mereka memperkenalkan simbol visual khas "undi generatif" (undi generatif), yang boleh dilatih terus pada imej asal. Selain itu, kaedah latihan dua peringkat dimajukan, digabungkan dengan strategi bootstrap tanpa pengelas, untuk meningkatkan lagi kualiti penjanaan. 🎜🎜

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

Peringkat input berbilang modal

Kemajuan terkini dalam model berbilang modal besar (seperti MiniGPT-4) terutamanya menumpukan pada pemahaman berbilang mod sebagai input berterusan, mampu mengendalikan input. Untuk melanjutkan fungsinya kepada penjanaan berbilang modal, penyelidik memperkenalkan Vokens generatif yang direka khusus untuk mengeluarkan ciri visual. Selain itu, mereka juga mengguna pakai teknologi penalaan halus yang cekap parameter dalam rangka kerja Model Bahasa Besar (LLM) untuk pembelajaran output berbilang modal

Penjanaan keluaran berbilang modal

Untuk memastikan penjanaan token adalah Untuk menjana penjajaran tepat model, para penyelidik membangunkan modul pemetaan padat untuk pemadanan dimensi dan memperkenalkan beberapa kehilangan yang diselia, termasuk kehilangan ruang teks dan kehilangan model penyebaran terpendam. Kehilangan ruang teks membantu model mempelajari lokasi token dengan tepat, manakala kehilangan resapan terpendam secara langsung menjajarkan token dengan ciri visual yang sesuai. Memandangkan ciri-ciri simbol generatif dipandu secara langsung oleh imej, kaedah ini tidak memerlukan penerangan imej yang lengkap dan mencapai pembelajaran tanpa penerangan

strategi latihan

Memandangkan terdapat kewujudan yang tidak boleh diabaikan. domain teks dan domain imej Pergeseran domain, penyelidik mendapati bahawa latihan secara langsung pada teks berselang yang terhad dan set data imej boleh membawa kepada salah jajaran dan kemerosotan kualiti imej.

Jadi mereka menggunakan dua strategi latihan berbeza untuk mengurangkan masalah ini. Strategi pertama melibatkan penggunaan teknik bootstrapping tanpa pengelas untuk meningkatkan keberkesanan token yang dijana sepanjang proses penyebaran strategi kedua dibentangkan dalam dua fasa: fasa pra-latihan awal memfokuskan pada penjajaran ciri kasar, diikuti dengan fasa penalaan halus Bekerja; mengenai pembelajaran ciri yang kompleks.

Eksperimen dan keputusan

Untuk menilai keberkesanan model, penyelidik memilih pelbagai penanda aras dan menjalankan satu siri penilaian. Tujuan percubaan adalah untuk menangani beberapa soalan utama: Bolehkah

MiniGPT-5 menjana imej yang boleh dipercayai dan teks yang munasabah?
Bagaimanakah prestasi MiniGPT-5 berbanding model SOTA lain dalam tugas penjanaan bahasa visual berjalin satu pusingan dan berbilang pusingan?
Apakah kesan reka bentuk setiap modul terhadap prestasi keseluruhan?

Untuk menilai prestasi model MiniGPT-5 pada peringkat latihan yang berbeza, kami menjalankan analisis kuantitatif, dan hasilnya ditunjukkan dalam Rajah 3:

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

Untuk menunjukkan kebolehgunaan daripada model yang dicadangkan, kami menilainya, meliputi domain visual (metrik berkaitan imej) dan linguistik (metrik teks)

VIST Penilaian Langkah Akhir

set percubaan pertama penilaian langkah, iaitu, imej yang sepadan dijana mengikut model segera dalam langkah terakhir, dan hasilnya ditunjukkan dalam Jadual 1.

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik. MiniGPT-5 mengatasi prestasi SD 2 yang diperhalusi dalam ketiga-tiga tetapan. Terutama sekali, skor CLIP model MiniGPT-5 (LoRA) secara konsisten mengatasi varian lain merentas pelbagai jenis gesaan, terutamanya apabila menggabungkan gesaan imej dan teks. Sebaliknya, skor FID menyerlahkan daya saing model MiniGPT-5 (Awalan), menunjukkan bahawa mungkin terdapat pertukaran antara kualiti pembenaman imej (dicerminkan oleh skor CLIP) dan kepelbagaian dan ketulenan imej (dicerminkan oleh skor FID). Berbanding dengan model yang dilatih secara langsung pada VIST tanpa memasukkan peringkat pendaftaran mod tunggal (MiniGPT-5 tanpa UAS), walaupun model mengekalkan keupayaan untuk menjana imej yang bermakna, kualiti imej dan konsistensi berkurangan dengan ketara . Pemerhatian ini menonjolkan kepentingan strategi latihan dua peringkat

VIST Penilaian Pelbagai Langkah

🎜🎜🎜🎜🎜🎜🎜🎜🎜🎜🎜🎜🎜 dalam model penilaian yang lebih terperinci dan menyeluruh tentang sistem sejarah penyelidik. konteks, dan imej dan naratif yang terhasil kemudiannya dinilai pada setiap langkah. 🎜🎜

Jadual 2 dan Jadual 3 meringkaskan keputusan eksperimen ini, memberikan gambaran keseluruhan prestasi pada metrik imej dan bahasa masing-masing. Keputusan eksperimen menunjukkan bahawa MiniGPT-5 mampu mengeksploitasi isyarat input berbilang mod peringkat panjang untuk menjana imej berkualiti tinggi yang koheren merentas semua data tanpa menjejaskan keupayaan pemahaman pelbagai mod model asal. Ini menyerlahkan keberkesanan MiniGPT-5 dalam persekitaran yang berbeza

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

VIST Penilaian Manusia

ditunjukkan dalam Jadual 4. 5 7.18% menjana lebih relevan naratif teks dalam 52.06% kes, memberikan kualiti imej yang lebih baik dalam 52.06% kes, dan menghasilkan output berbilang modal yang lebih koheren dalam 57.62% adegan. Berbanding dengan garis dasar dua peringkat yang menggunakan penceritaan segera teks-ke-imej tanpa mood subjungtif, data ini jelas menunjukkan keupayaan penjanaan pelbagai mod yang lebih kukuh. . Walaupun imej yang dijana mempunyai kualiti yang sama, MiniGPT-5 mengatasi model garis dasar dari segi korelasi MM, menunjukkan bahawa ia lebih berupaya untuk mempelajari cara meletakkan penjanaan imej dengan sewajarnya dan menjana respons pelbagai mod yang sangat konsisten

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

Mari kita lihat keluaran MiniGPT-5 dan lihat sejauh mana keberkesanannya. Rajah 7 di bawah menunjukkan perbandingan antara MiniGPT-5 dan model garis dasar pada set pengesahan CC3M

Atas ialah kandungan terperinci MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Panduan untuk Finetuning Pengukuhan - Analytics VidhyaApr 28, 2025 am 09:30 AM

Penguatkuasaan penguatkuasaan telah mengguncang pembangunan AI dengan mengajar model untuk menyesuaikan berdasarkan maklum balas manusia. Ia menggabungkan asas pembelajaran yang diawasi dengan kemas kini berasaskan ganjaran untuk menjadikannya lebih selamat, lebih tepat, dan benar-benar membantu

Let's Dance: Gerakan berstruktur untuk menyempurnakan jaring saraf manusia kitaApr 27, 2025 am 11:09 AM

Para saintis telah mengkaji secara meluas rangkaian saraf manusia dan mudah (seperti yang ada di C. elegans) untuk memahami fungsi mereka. Walau bagaimanapun, soalan penting timbul: Bagaimana kita menyesuaikan rangkaian saraf kita sendiri untuk berfungsi dengan berkesan bersama -sama dengan novel AI s

New Google Leak mendedahkan perubahan langganan untuk Gemini AIApr 27, 2025 am 11:08 AM

Gemini Google Advanced: Tahap Langganan Baru di Horizon Pada masa ini, mengakses Gemini Advanced memerlukan pelan premium AI $ 19.99/bulan. Walau bagaimanapun, laporan Pihak Berkuasa Android menunjukkan perubahan yang akan datang. Kod dalam google terkini p

Bagaimana Pecutan Analisis Data Menyelesaikan Bots Tersembunyi AIApr 27, 2025 am 11:07 AM

Walaupun gembar -gembur di sekitar keupayaan AI maju, satu cabaran penting bersembunyi dalam perusahaan AI perusahaan: kesesakan pemprosesan data. Walaupun CEO merayakan kemajuan AI, jurutera bergelut dengan masa pertanyaan yang perlahan, saluran paip yang terlalu banyak, a

Markitdown MCP boleh menukar mana -mana dokumen ke Markdowns!Apr 27, 2025 am 09:47 AM

Dokumen pengendalian tidak lagi hanya mengenai pembukaan fail dalam projek AI anda, ia mengenai mengubah kekacauan menjadi kejelasan. Dokumen seperti PDF, PowerPoints, dan perkataan banjir aliran kerja kami dalam setiap bentuk dan saiz. Mengambil semula berstruktur

Bagaimana cara menggunakan Google ADK untuk ejen bangunan? - Analytics VidhyaApr 27, 2025 am 09:42 AM

Memanfaatkan kuasa Kit Pembangunan Ejen Google (ADK) untuk membuat ejen pintar dengan keupayaan dunia sebenar! Tutorial ini membimbing anda melalui membina ejen perbualan menggunakan ADK, menyokong pelbagai model bahasa seperti Gemini dan GPT. W

Penggunaan SLM Over LLM untuk Penyelesaian Masalah Berkesan - Analisis VidhyaApr 27, 2025 am 09:27 AM

Ringkasan: Model bahasa kecil (SLM) direka untuk kecekapan. Mereka lebih baik daripada model bahasa yang besar (LLM) dalam persekitaran yang kurang sensitif, masa nyata dan privasi. Terbaik untuk tugas-tugas berasaskan fokus, terutamanya di mana kekhususan domain, kawalan, dan tafsiran lebih penting daripada pengetahuan umum atau kreativiti. SLMs bukan pengganti LLM, tetapi mereka sesuai apabila ketepatan, kelajuan dan keberkesanan kos adalah kritikal. Teknologi membantu kita mencapai lebih banyak sumber. Ia sentiasa menjadi promoter, bukan pemandu. Dari era enjin stim ke era gelembung internet, kuasa teknologi terletak pada tahap yang membantu kita menyelesaikan masalah. Kecerdasan Buatan (AI) dan AI Generatif Baru -baru ini tidak terkecuali

Bagaimana cara menggunakan model Google Gemini untuk tugas penglihatan komputer? - Analytics VidhyaApr 27, 2025 am 09:26 AM

Memanfaatkan kekuatan Google Gemini untuk Visi Komputer: Panduan Komprehensif Google Gemini, chatbot AI terkemuka, memanjangkan keupayaannya di luar perbualan untuk merangkumi fungsi penglihatan komputer yang kuat. Panduan ini memperincikan cara menggunakan

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 bulan yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang laluByDDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

1 bulan yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

3 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),