Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner-AI-php.cn

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 04, 2024 am 08:10 AM

Sumber terbukagpt-4vllava

Pada masa ini, GPT-4 Vision menunjukkan keupayaan menakjubkan dalam pemahaman bahasa dan pemprosesan visual.

Namun, bagi mereka yang mencari alternatif yang menjimatkan kos tanpa menjejaskan prestasi, pilihan sumber terbuka ialah pilihan dengan potensi tanpa had.

Youssef Hosni ialah pembangun asing yang menyediakan kami dengan tiga alternatif sumber terbuka dengan kebolehcapaian yang dijamin mutlak untuk menggantikan GPT-4V.

Tiga model bahasa visual sumber terbuka LLaVa, CogAgent dan BakLLaVA mempunyai potensi besar dalam bidang pemprosesan visual dan layak untuk pemahaman kami yang mendalam. Penyelidikan dan pembangunan model ini boleh memberikan kami penyelesaian pemprosesan visual yang lebih cekap dan tepat. Dengan menggunakan model ini, kami boleh meningkatkan ketepatan dan kecekapan tugas seperti pengecaman imej, pengesanan sasaran dan penjanaan imej, membawa

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner gambar

LLaVa

LLaVa ialah penyelidikan dan aplikasi pelbagai mod dalam bidang pemprosesan visual Model besar, dibangunkan oleh kerjasama antara penyelidik di Universiti Wisconsin-Madison, Penyelidikan Microsoft dan Universiti Columbia. Versi awal dikeluarkan pada bulan April.

Ia menggabungkan pengekod visual dan Vicuna (untuk pemahaman visual dan bahasa umum) untuk menunjukkan keupayaan sembang yang sangat baik.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Pictures

Pada bulan Oktober, LLaVA-1.5 yang dinaik taraf hampir dengan prestasi GPT-4 berbilang mod dan mencapai keputusan terkini (SOTA) pada set data Sains QA.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Gambar

Latihan model 13B boleh disiapkan dalam masa 1 hari dengan hanya 8 A100.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Gambar

Seperti yang anda lihat, LLaVA boleh mengendalikan semua jenis soalan, dan jawapan yang dijana adalah komprehensif dan logik.

LLaVA menunjukkan beberapa keupayaan berbilang modal yang hampir dengan tahap GPT-4, dengan skor relatif GPT-4 sebanyak 85% dari segi sembang visual.

Dari segi penaakulan soal jawab, LLaVA malah mencapai SoTA baharu - 92.53%, mengalahkan rantaian pemikiran pelbagai mod.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Gambar

Dari segi penaakulan visual, persembahannya sangat menarik perhatian.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Gambar

Soalan: "Jika ada kesilapan fakta, sila tunjukkan. Jika tidak, sila beritahu saya, apa yang berlaku di padang pasir?" dengan betul lagi.

LLaVA-1.5 yang dinaik taraf memberikan jawapan yang sempurna: "Tiada padang pasir sama sekali dalam gambar, tetapi terdapat pantai pokok palma, latar langit bandar dan perairan yang besar

Gambar Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Selain itu. , LLaVA-1.5 ialah OK Ekstrak maklumat daripada graf dan jawabnya dalam format yang diperlukan, seperti mengeluarkannya dalam format JSON.

Pictures Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Beri LLaVA-1.5 gambar yang penuh dengan buah-buahan dan sayur-sayuran, dan ia juga boleh menukar gambar itu kepada JSON seperti GPT-4V.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Gambar

Apakah maksud gambar di bawah?

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Picture

Ini adalah lakaran ringkas berdasarkan "Inception" Nolan untuk menambah kesukaran, nama watak telah ditukar kepada nama samaran.

LLaVA-1.5 dengan mengejutkan menjawab: "Ini adalah gambar tentang filem "Inception". Ia menunjukkan tahap yang berbeza dalam dunia mimpi, dan setiap tahap diwakili oleh garis. Gambar itu ditulis pada sehelai kertas, Kertas diletakkan di atas meja makan.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Gambar

Selain itu, LLaVA-1.5 boleh mengecam kod pengesahan tanpa "jailbreaking".

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Gambar

Ia juga boleh mengesan jenis syiling dalam gambar.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Gambar

Apa yang sangat mengagumkan ialah LLaVA-1.5 juga boleh memberitahu anda jenis baka anjing dalam gambar itu.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Gambar

Sesetengah netizen menggunakan Bing untuk menghasilkan gambar seorang lelaki memakai kot musim sejuk di pantai musim panas yang cerah, dan meminta LLaVA 1.5 untuk menunjukkan masalah dalam gambar. Matanya sangat tajam -

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Ini adalah foto yang diproses atau di Photoshop, di mana seorang lelaki memakai jaket dan berdiri di pantai. Lelaki itu membuka kotnya dan matahari menyinarinya. Masalah dengan imej ini ialah ia bukan pemandangan pantai sebenar. Lelaki itu sebenarnya tidak berdiri di pantai dan matahari tidak menyinarinya. Imej ini telah diphotoshop untuk mencipta ilusi pemandangan pantai, tetapi ia tidak benar-benar mewakili pemandangan itu.

Gambar

Pengiktirafan OCR, prestasi LLaVA juga sangat hebat.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Pictures

pictures Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner

pictures Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner cogagent

cogagent adalah model bahasa visual sumber terbuka yang diperbaiki berdasarkan COGVLM, seorang penyelidik dari Universiti Tsinghua. Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner CogAgent-18B mempunyai 11 bilion parameter visual dan 7 bilion parameter bahasa.

Gambar

Alamat kertas: https://arxiv.org/pdf/2312.08914.pdf

CogAgent-18B mencapai prestasi umum tercanggih pada 9 penanda aras rentas mod klasik (termasuk VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet dan POPE).

Ia dengan ketara mengatasi model sedia ada pada set data manipulasi GUI seperti AITW dan Mind2Web.

Selain semua fungsi sedia ada CogVLM (dialog berbilang pusingan visual, pembumian visual), CogAgent.NET juga menyediakan lebih banyak fungsi:

1 Menyokong input visual dan menjawab soalan dialog beresolusi tinggi. Menyokong input imej resolusi ultra tinggi 1120x1120.

2 Ia mempunyai keupayaan untuk menggambarkan ejen dan boleh mengembalikan pelan, tindakan seterusnya dan operasi khusus dengan koordinat untuk sebarang tugasan pada mana-mana tangkapan skrin antara muka pengguna grafik.

3 Fungsi menjawab soalan berkaitan GUI telah dipertingkatkan untuk membolehkannya mengendalikan isu yang berkaitan dengan tangkapan skrin mana-mana GUI seperti halaman web, aplikasi PC, aplikasi mudah alih, dll.

4. Keupayaan yang dipertingkatkan untuk tugasan berkaitan OCR dengan menambah baik pra-latihan dan penalaan halus.

Ejen GUI

Menggunakan CogAgent, ia boleh membantu kami mencari kertas terbaik CVPR23 langkah demi langkah.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Gambar

boleh membantu kami menukar paparan telefon kepada mod terang.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Pictures

Berapa bilangan suka dan tweet semula tweet ini dan mengapa ia begitu popular, CogAgent boleh menganalisisnya, malah ia boleh membalas dengan "Brilliant".

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Gambar

Bagaimana untuk memilih laluan terpantas dari Universiti Florida ke Hollywood? Jika anda bermula pada pukul 8 pagi, bagaimana anda menganggarkan berapa lama masa yang diperlukan? CogAgent boleh menjawab semua.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Pictures

Anda boleh menetapkan tema tertentu dan biarkan CogAgent menghantar e-mel ke peti mel yang ditentukan.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Pictures

Kalau nak dengar lagu "You raise me up", CogAgent boleh senaraikan step by step.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Pictures

CogAgent boleh menerangkan dengan tepat adegan dalam "Genshin Impact" dan juga boleh membimbing anda tentang cara untuk sampai ke titik teleportasi.

Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner Pictures

BakLLaVA

BakLLaVA1 ialah model asas Mistral 7B yang dipertingkatkan dengan seni bina LLaVA 1.5.

Dalam versi pertama, model asas Mistral 7B mengatasi prestasi Llama 2 13B dalam pelbagai penanda aras.

Dalam repo mereka, anda boleh menjalankan BakLLaVA-1. Halaman ini sentiasa dikemas kini untuk memudahkan penalaan dan penaakulan. (https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1 adalah sumber terbuka sepenuhnya, tetapi telah dilatih mengenai beberapa data, termasuk korpus LLaVA, dan oleh itu tidak dibenarkan untuk kegunaan komersial.

BakLLaVA 2 menggunakan set data yang lebih besar dan seni bina yang dikemas kini untuk mengatasi kaedah LLaVa semasa. BakLLaVA menyingkirkan batasan BakLLaVA-1 dan boleh digunakan secara komersil.

Rujukan:

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

Atas ialah kandungan terperinci Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Anda mesti membina tempat kerja ai di belakang tudung kejahilanApr 29, 2025 am 11:15 AM

Dalam buku seminal John Rawls pada tahun 1971 The Theory of Justice, beliau mencadangkan percubaan pemikiran yang harus kita ambil sebagai inti reka bentuk AI hari ini dan menggunakan keputusan: tudung kejahilan. Falsafah ini menyediakan alat yang mudah untuk memahami ekuiti dan juga menyediakan pelan tindakan untuk pemimpin untuk menggunakan pemahaman ini untuk mereka bentuk dan melaksanakan AI dengan cara yang saksama. Bayangkan anda membuat peraturan untuk masyarakat baru. Tetapi ada premis: anda tidak tahu terlebih dahulu apa peranan yang akan anda mainkan dalam masyarakat ini. Anda mungkin menjadi kaya atau miskin, sihat atau kurang upaya, milik majoriti atau minoriti marginal. Beroperasi di bawah "VEIL OF KETIGA" ini menghalang pembuat peraturan daripada membuat keputusan yang memberi manfaat kepada diri mereka sendiri. Sebaliknya, orang akan lebih bermotivasi untuk merumuskan orang ramai

Keputusan, Keputusan ... Langkah seterusnya untuk Praktikal Gunaan AIApr 29, 2025 am 11:14 AM

Banyak syarikat yang mengkhususkan diri dalam Automasi Proses Robot (RPA), menawarkan bot untuk mengautomasikan tugas berulang -UIPATH, Automasi di mana sahaja, Prism Blue, dan lain -lain. Sementara itu, proses perlombongan, orkestrasi, dan pemprosesan dokumen pintar Special

Ejen akan datang - lebih banyak mengenai apa yang akan kita lakukan di sebelah rakan kongsi AIApr 29, 2025 am 11:13 AM

Masa depan AI bergerak melampaui ramalan kata mudah dan simulasi perbualan; Ejen AI muncul, mampu tindakan bebas dan penyelesaian tugas. Peralihan ini sudah jelas dalam alat seperti Claude Anthropic. Ejen AI: Penyelidikan a

Mengapa empati lebih penting daripada mengawal pemimpin dalam masa depan yang didorong oleh AIApr 29, 2025 am 11:12 AM

Kemajuan teknologi yang pesat memerlukan perspektif yang berpandangan ke hadapan pada masa depan kerja. Apa yang berlaku apabila AI melampaui peningkatan produktiviti semata -mata dan mula membentuk struktur masyarakat kita? Buku yang akan datang Topher McDougal, Gaia Wakes:

AI untuk Klasifikasi Produk: Bolehkah Mesin Undang -undang Cukai Master?Apr 29, 2025 am 11:11 AM

Klasifikasi produk, sering melibatkan kod kompleks seperti "HS 8471.30" dari sistem seperti sistem harmoni (HS), adalah penting untuk perdagangan antarabangsa dan jualan domestik. Kod ini memastikan permohonan cukai yang betul, memberi kesan kepada setiap inv

Bolehkah Pusat Data menuntut mencetuskan pemulihan teknologi iklim?Apr 29, 2025 am 11:10 AM

Masa Depan Penggunaan Tenaga di Pusat Data dan Pelaburan Teknologi Iklim Artikel ini menerangkan lonjakan penggunaan tenaga di pusat data yang didorong oleh AI dan kesannya terhadap perubahan iklim, dan menganalisis penyelesaian inovatif dan cadangan dasar untuk menangani cabaran ini. Cabaran Permintaan Tenaga: Pusat data besar-besaran dan ultra-besar menggunakan kuasa besar, setanding dengan jumlah beratus-ratus ribu keluarga Amerika Utara yang biasa, dan pusat-pusat skala ultra-besar AI yang muncul menggunakan puluhan kali lebih banyak kuasa daripada ini. Dalam lapan bulan pertama 2024, Microsoft, Meta, Google dan Amazon telah melabur kira -kira AS $ 125 bilion dalam pembinaan dan operasi pusat data AI (JP Morgan, 2024) (Jadual 1). Permintaan tenaga yang semakin meningkat adalah satu cabaran dan peluang. Menurut Canary Media, elektrik yang menjulang

Ai dan Hollywood's Next Golden AgeApr 29, 2025 am 11:09 AM

AI Generatif merevolusi pengeluaran filem dan televisyen. Model Ray 2 Luma, serta Runway's Gen-4, Openai's Sora, Veo Google dan model-model baru yang lain, meningkatkan kualiti video yang dihasilkan pada kelajuan yang belum pernah terjadi sebelumnya. Model-model ini dengan mudah boleh mewujudkan kesan khas yang kompleks dan adegan yang realistik, walaupun klip video pendek dan kesan gerakan yang diperolehi oleh kamera telah dicapai. Walaupun manipulasi dan konsistensi alat -alat ini masih perlu diperbaiki, kelajuan kemajuan adalah menakjubkan. Video generatif menjadi medium bebas. Sesetengah model baik pada pengeluaran animasi, sementara yang lain baik pada imej aksi langsung. Perlu diingat bahawa Firefly Adobe dan Moonvalley's Ma

Adakah Chatgpt perlahan-lahan menjadi Yes-Man terbesar AI?Apr 29, 2025 am 11:08 AM

Pengalaman Pengguna CHATGPT Menolak: Adakah Degradasi Model atau Harapan Pengguna? Baru -baru ini, sebilangan besar pengguna berbayar ChatGPT telah mengadu tentang kemerosotan prestasi mereka, yang telah menarik perhatian yang meluas. Pengguna melaporkan tindak balas yang lebih perlahan terhadap model, jawapan yang lebih pendek, kekurangan bantuan, dan lebih banyak halusinasi. Sesetengah pengguna menyatakan rasa tidak puas hati di media sosial, menunjukkan bahawa ChatGPT telah menjadi "terlalu menyanjung" dan cenderung untuk mengesahkan pandangan pengguna dan bukannya memberikan maklum balas kritikal. Ini bukan sahaja memberi kesan kepada pengalaman pengguna, tetapi juga membawa kerugian sebenar kepada pelanggan korporat, seperti mengurangkan produktiviti dan pembaziran sumber pengkomputeran. Bukti kemerosotan prestasi Ramai pengguna telah melaporkan kemerosotan yang ketara dalam prestasi CHATGPT, terutamanya dalam model yang lebih lama seperti GPT-4 (yang tidak lama lagi akan dihentikan dari perkhidmatan pada akhir bulan ini). ini

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

4 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

2 minggu yang laluByDDD

Roblox: Rails Dead - Cara Memanggil dan Mengalahkan Nikola Tesla

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7831

1648

1402

1300

1239