Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China-AI-php.cn

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

PHPz

Oct 19, 2023 am 11:13 AM

aiModel

GPT-4V untuk pengesanan sasaran? Ujian sebenar oleh netizen: Belum bersedia lagi.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Walaupun kategori yang dikesan baik-baik saja, kebanyakan kotak sempadan tersasar.

Tidak mengapa, seseorang akan mengambil tindakan!

Mini GPT-4 yang mengalahkan GPT-4 dalam keupayaan melihat imej selama beberapa bulan telah dinaik taraf - MiniGPT-v2. .

Bukan itu sahaja, ia juga boleh mengendalikan pelbagai tugas visual dengan mudah.

Bulatkan objek dan tambah [mengenal pasti] di hadapan perkataan gesaan untuk membolehkan model mengenal pasti nama objek secara langsung.

Sudah tentu, anda juga boleh menambah apa-apa dan bertanya terus~

MiniGPT-v2 terdiri daripada pasukan asal dari MiniGPT-4 (Universiti Sains dan Teknologi KAUST Raja Abdullah di Arab Saudi) dan lima penyelidik dari pembangunan bersama Meta.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Kali terakhir MiniGPT-4 menarik perhatian besar apabila ia keluar, dan pelayan terharu buat seketika Kini projek GitHub telah melebihi 22,000+ bintang.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Dengan peningkatan ini, sesetengah netizen sudah mula menggunakannya~

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Antara muka universal untuk pelbagai tugas visual

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China Sebagai antara muka universal untuk pelbagai aplikasi teks, semua orang telah terbiasa dengannya. Diilhamkan oleh ini, pasukan penyelidik ingin membina antara muka bersatu yang boleh digunakan untuk pelbagai tugas visual, seperti penerangan imej, jawapan soalan visual, dsb.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China "Bagaimana cara menggunakan arahan berbilang modal yang mudah untuk menyelesaikan pelbagai tugas dengan cekap di bawah keadaan satu model telah menjadi masalah yang perlu diselesaikan oleh pasukan?"

Secara ringkasnya, MiniGPT-v2 terdiri daripada tiga bahagian: tulang belakang visual, lapisan linear dan model bahasa besar.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China Model ini berdasarkan tulang belakang visual ViT dan kekal tidak berubah dalam semua peringkat latihan. Empat token output visual bersebelahan diinduksi daripada ViT dan diunjurkan ke dalam ruang model bahasa LLaMA-2 melalui lapisan linear.

Pasukan mengesyorkan menggunakan pengecam unik untuk tugasan berbeza dalam model latihan, supaya model besar boleh membezakan setiap arahan tugas dengan mudah dan meningkatkan kecekapan pembelajaran setiap tugas.

Latihan terbahagi kepada tiga peringkat: pra-latihan - latihan pelbagai tugas - pelarasan arahan berbilang mod.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Pada akhirnya, MiniGPT-v2 mengatasi model umum bahasa visual yang lain dalam banyak jawapan soalan visual dan tanda aras asas visual.

Akhirnya, model ini boleh menyelesaikan pelbagai tugas visual, seperti penerangan objek sasaran, penyetempatan visual, penerangan imej, jawapan soalan visual, dan menghuraikan terus objek imej daripada teks input yang diberikan.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Rakan-rakan yang berminat boleh klik pada pautan Demo di bawah untuk merasainya:

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

https://minigpt-v2.github.io/

https://huggingface.co/spaces/Vision-CAIR/ MiniGPT -v2 Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Pautan kertas: https://arxiv.org/abs/2310.09478

pautanGitHub: https://github.com/Vision-CAIR/MiniGPT-4

Atas ialah kandungan terperinci Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Bahaya Tersembunyi Penggunaan Dalaman AI: Jurang Tadbir Urus dan Risiko BencanaApr 28, 2025 am 11:12 AM

Penyebaran dalaman yang tidak terkawal sistem AI yang canggih menimbulkan risiko yang signifikan, menurut laporan baru dari Apollo Research. Kekurangan pengawasan ini, lazim di kalangan firma AI utama, membolehkan hasil yang berpotensi bencana, mulai dari UNCON

Membina polygraph AIApr 28, 2025 am 11:11 AM

Pengesan kebohongan tradisional sudah lapuk. Bergantung pada penunjuk yang disambungkan oleh gelang tangan, pengesan kebohongan yang mencetak tanda -tanda penting subjek dan tindak balas fizikal tidak tepat dalam mengenal pasti kebohongan. Inilah sebabnya mengapa keputusan pengesanan kebohongan biasanya tidak diterima pakai oleh mahkamah, walaupun ia telah membawa kepada banyak orang yang tidak bersalah yang dipenjara. Sebaliknya, kecerdasan buatan adalah enjin data yang kuat, dan prinsip kerja adalah untuk memerhatikan semua aspek. Ini bermakna saintis boleh menggunakan kecerdasan buatan kepada aplikasi yang mencari kebenaran melalui pelbagai cara. Satu pendekatan adalah untuk menganalisis tindak balas penting orang yang diinterogasi seperti pengesan dusta, tetapi dengan analisis perbandingan yang lebih terperinci dan tepat. Pendekatan lain adalah menggunakan markup linguistik untuk menganalisis apa yang orang katakan dan menggunakan logik dan penalaran. Seperti kata pepatah, satu pembohongan membiak kebohongan yang lain, dan akhirnya

Adakah AI dibersihkan untuk berlepas dalam industri aeroangkasa?Apr 28, 2025 am 11:10 AM

Industri aeroangkasa, perintis inovasi, memanfaatkan AI untuk menangani cabaran yang paling rumit. Kerumitan Peningkatan Penerbangan Moden memerlukan automasi dan keupayaan perisikan masa nyata AI untuk keselamatan yang dipertingkatkan, dikurangkan oper

Menonton Perlumbaan Robot Spring BeijingApr 28, 2025 am 11:09 AM

Perkembangan pesat robotik telah membawa kita kajian kes yang menarik. Robot N2 dari Noetix beratnya lebih dari 40 paun dan tinggi 3 kaki dan dikatakan dapat backflip. Robot G1 Unitree berat kira -kira dua kali saiz N2 dan kira -kira 4 kaki tinggi. Terdapat juga banyak robot humanoid yang lebih kecil yang menyertai pertandingan ini, dan terdapat juga robot yang didorong ke hadapan oleh peminat. Tafsiran data Setengah maraton menarik lebih daripada 12,000 penonton, tetapi hanya 21 robot humanoid yang mengambil bahagian. Walaupun kerajaan menegaskan bahawa robot yang mengambil bahagian menjalankan "latihan intensif" sebelum pertandingan, tidak semua robot menyelesaikan keseluruhan persaingan. Champion - Tiangong Ult Dibangunkan oleh Pusat Inovasi Robot Humanoid Beijing

Perangkap Cermin: Etika AI dan keruntuhan imaginasi manusiaApr 28, 2025 am 11:08 AM

Kecerdasan buatan, dalam bentuknya sekarang, tidak benar -benar pintar; Ia mahir meniru dan menyempurnakan data sedia ada. Kami tidak mewujudkan kecerdasan buatan, tetapi sebaliknya kesimpulan buatan -merapikan yang memproses maklumat, sementara manusia su

New Google Leak mendedahkan kemas kini ciri Google Photos yang bergunaApr 28, 2025 am 11:07 AM

Laporan mendapati bahawa antara muka yang dikemas kini disembunyikan dalam kod untuk Google Photos Android versi 7.26, dan setiap kali anda melihat foto, satu baris lakaran muka yang baru dikesan dipaparkan di bahagian bawah skrin. Thumbnail wajah baru adalah tag nama yang hilang, jadi saya mengesyaki anda perlu mengkliknya secara individu untuk melihat lebih banyak maklumat mengenai setiap orang yang dikesan. Buat masa ini, ciri ini tidak memberikan maklumat selain daripada orang -orang yang ditemui oleh Google Foto dalam imej anda. Ciri ini belum tersedia, jadi kami tidak tahu bagaimana Google akan menggunakannya dengan tepat. Google boleh menggunakan gambar kecil untuk mempercepatkan mencari lebih banyak gambar orang terpilih, atau boleh digunakan untuk tujuan lain, seperti memilih individu untuk mengedit. Mari tunggu dan lihat. Buat masa ini

Panduan untuk Finetuning Pengukuhan - Analytics VidhyaApr 28, 2025 am 09:30 AM

Penguatkuasaan penguatkuasaan telah mengguncang pembangunan AI dengan mengajar model untuk menyesuaikan berdasarkan maklum balas manusia. Ia menggabungkan asas pembelajaran yang diawasi dengan kemas kini berasaskan ganjaran untuk menjadikannya lebih selamat, lebih tepat, dan benar-benar membantu

Let's Dance: Gerakan berstruktur untuk menyempurnakan jaring saraf manusia kitaApr 27, 2025 am 11:09 AM

Para saintis telah mengkaji secara meluas rangkaian saraf manusia dan mudah (seperti yang ada di C. elegans) untuk memahami fungsi mereka. Walau bagaimanapun, soalan penting timbul: Bagaimana kita menyesuaikan rangkaian saraf kita sendiri untuk berfungsi dengan berkesan bersama -sama dengan novel AI s

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

3 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

2 minggu yang laluByDDD

Roblox: Rails Dead - Cara Memanggil dan Mengalahkan Nikola Tesla

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Dreamweaver Mac版

Alat pembangunan web visual

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),