Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu-AI-php.cn

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

青灯夜游

Mar 31, 2023 pm 10:42 PM

aikertas

Kertas ini telah diterima oleh CVPR2023.

GPT-4, yang boleh membaca imej, dikeluarkan! Tetapi anda perlu beratur untuk menggunakannya. . .

Mengapa tidak mencuba ini dahulu~

Tambah model kecil, anda boleh membuat model bahasa besar seperti ChatGPT dan GPT-3 yang hanya boleh memahami teks dengan mudah Baca gambar , semua jenis butiran rumit boleh dikendalikan di hujung jari anda.

Dan melatih model kecil ini boleh dilakukan dengan satu kad (RTX 3090).

Untuk kesannya, lihat sahaja pada gambar.

Sebagai contoh, masukkan gambar "pemandangan muzik" kepada GPT-3 terlatih dan tanyakannya: Apakah aktiviti yang diadakan di tempat kejadian?

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Tanpa teragak-agak, GPT-3 memberikan jawapan kepada Konsert.

Untuk menjadikannya lebih sukar, berikan GPT-3 foto Jiang Zi dan biarkan ia mengenal pasti jenis bahan tirai dalam foto itu.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

GPT-3: Renda.

Bingo! (Nampaknya ada sesuatu padanya)

Kaedah ini merupakan pencapaian terbaru pasukan dari Universiti Sains dan Teknologi Elektronik Hangzhou dan Universiti Teknologi Hefei: Nabi, yang mereka miliki sudah dibangunkan setengah tahun yang lalu Dapatkan untuk bekerja pada ini.

Pengarang pertama makalah itu ialah Shao Zhenwei, seorang pelajar siswazah Universiti Hangzhou Dianzi Dia didiagnosis dengan "atrofi otot tulang belakang progresif" ketika dia berumur 1 tahun. Dia menyesal tidak lulus Universiti Zhejiang semasa kolej peperiksaan kemasukan dan memilih Universiti Hangzhou Dianzi, yang berhampiran dengan rumah .

Kertas kerja ini telah diterima oleh CVPR2023.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Tanpa berlengah lagi, mari kita lihat terus bacaan GPT-3 dengan sokongan kaedah Nabi Rajah kebolehan.

Mula-mula kita lihat keputusan ujiannya pada set data.

Pasukan penyelidik menguji Nabi pada dua set data soalan dan jawapan visual berasaskan pengetahuan luaran, OK-VQA dan A-OKVQA, yang kedua-duanya mencipta SOTA baharu.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Lebih khusus lagi, pada set data OK-VQA, berbanding dengan model besar Deepmind Flamingo dengan parameter 80B, Nabi mencapai Dengan ketepatan kadar 61.1%, ia berjaya mengalahkan Flamingo (57.8%).

Dan dari segi sumber pengkomputeran yang diperlukan, Nabi juga "menewaskan" Flamingo.

Flamingo-80B perlu dilatih pada 1536 kad grafik TPUv4 selama 15 hari, manakala Nabi hanya memerlukan satu kad grafik RTX-3090 untuk melatih model VQA 4 hari, dan kemudian panggil OpenAI API beberapa kali.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Malah, kaedah seperti Nabi telah digunakan sebelum ini untuk membantu GPT-3 mengendalikan tugasan silang modal, seperti PICA, dan kemudiannya KAT dan REVIVE.

Walau bagaimanapun, mereka mungkin tidak memuaskan dalam mengendalikan beberapa butiran.

Beri saya buah berangan, biarkan mereka membaca gambar di bawah bersama-sama, dan kemudian jawab soalan: Apakah jenis buah yang akan dihasilkan oleh pokok dalam gambar itu?

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Satu-satunya maklumat PICA, KAT dan REVIVE yang diekstrak daripada gambar ialah: sekumpulan orang berjalan di dataran itu, langsung mengabaikan pokok kelapa di belakangnya. Jawapan akhir hanya boleh diteka.

Dengan Nabi, keadaan ini tidak akan berlaku Ia menyelesaikan masalah maklumat imej yang tidak mencukupi yang diekstrak dengan kaedah di atas dan seterusnya merangsang potensi GPT-3.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Jadi bagaimana Nabi melakukannya?

Model kecil + model besar

Mengekstrak maklumat dengan berkesan dan menjawab soalan dengan tepat dengan rangka kerja dua peringkat yang unik untuk dapat melakukan ini.

Pembahagian kerja antara dua peringkat ini juga jelas:

Fasa 1: Berikan beberapa jawapan yang mencerahkan berdasarkan soalan;
Fasa 2: Jawapan ini akan mengecilkan skop, memberikan GPT-3 ruang yang cukup untuk merealisasikan potensinya.

Pertama, pada peringkat pertama, pasukan penyelidik melatih model MCAN yang dipertingkatkan (model VQA) terhadap set data VQA pengetahuan luaran yang khusus.

Selepas melatih model, ekstrak dua jawapan heuristik daripadanya: calon jawab dan contoh sedar jawapan.

Antaranya, calon jawapan diisih berdasarkan output tahap keyakinan oleh lapisan klasifikasi model, dan 10 teratas dipilih.

Contoh kesedaran jawapan merujuk kepada menggunakan ciri sebelum lapisan pengelasan model sebagai ciri jawapan yang berpotensi bagi sampel, sampel berlabel yang paling serupa dalam ruang ciri ini.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Langkah seterusnya ialah peringkat kedua, yang agak mudah dan kasar.

Susun "jawapan yang diilhamkan" yang diperoleh pada langkah sebelumnya ke dalam gesaan, kemudian masukkan gesaan ke GPT-3 dan lengkapkan soalan visual dan jawapan di bawah gesaan tertentu.

Walau bagaimanapun, walaupun beberapa petunjuk jawapan telah diberikan dalam langkah sebelumnya, ini tidak bermakna GPT-3 terhad kepada jawapan ini.

Jika keyakinan jawapan yang diberikan oleh gesaan itu terlalu rendah atau jawapan yang betul bukan antara gesaan tersebut, GPT-3 benar-benar mungkin untuk menjana jawapan baharu.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Pasukan Penyelidik

Sudah tentu, sebagai tambahan kepada hasil penyelidikan, pasukan di sebalik kajian ini juga perlu disebut.

Pengarang pertamaShao Zhenwei telah didiagnosis dengan "atrofi otot tulang belakang progresif" semasa dia berumur 1 tahun Ia adalah kecacatan fizikal peringkat pertama dan tidak mempunyai keupayaan untuk menjaga dirinya sendiri Kehidupan dan pembelajaran memerlukan penjagaan penuh daripada ibu.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Walau bagaimanapun, walaupun keterbatasan fizikalnya, kehausan Shao Zhenwei untuk pengetahuan tidak berkurangan.

Dalam peperiksaan kemasukan kolej 2017, beliau mendapat markah tinggi sebanyak 644 mata dan diterima masuk ke jurusan komputer Universiti Sains dan Teknologi Elektronik Hangzhou dengan mendapat tempat pertama.

Dalam tempoh ini, beliau turut memenangi penghormatan seperti Bintang Peningkatan Diri Pelajar Kolej Cina 2018, Biasiswa Kebangsaan 2020 dan Graduan Cemerlang Wilayah Zhejiang 2021.

Semasa tempoh ijazahnya, Shao Zhenwei telah mula menjalankan aktiviti penyelidikan saintifik bersama Profesor Yu Zhou.

Pada tahun 2021, Shao Zhenwei berpeluang bertemu dengan Universiti Zhejiang ketika dia sedang bersiap untuk kenaikan pangkat pasca siswazah, jadi dia tinggal di sekolah itu dan menyertai kumpulan penyelidik Profesor Yu Zhou untuk melanjutkan pengajian ke peringkat sarjana tahun kedua sekolah siswazah, dan hala tuju penyelidikannya ialah pembelajaran silang modal.

Profesor Yu Zhou ialah pengarang kedua dan pengarang yang sepadan bagi kertas penyelidikan ini. Beliau ialah profesor termuda di Sekolah Sains Komputer Universiti Hangzhou Dianping dan ahli “Sistem Kompleks. Modeling and Simulation” Makmal Kementerian Pendidikan.

Sejak sekian lama, Yu Zhou mengkhusus dalam hala tuju kecerdasan pelbagai modal, dan telah mengetuai pasukan penyelidik untuk memenangi kejuaraan dan naib juara dalam cabaran menjawab soalan visual antarabangsa Cabaran VQA berkali-kali.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Kebanyakan ahli pasukan penyelidik berada di Hangzhou Electronics Makmal Perisikan Media (MIL).

Makmal ini diketuai oleh Profesor Yu Jun, Cendekiawan Muda Terbilang Negara Dalam beberapa tahun kebelakangan ini, makmal telah menerbitkan satu siri kertas persidangan jurnal peringkat tinggi (TPAMI, IJCV, CVPR, dll.) yang memfokuskan pada. pembelajaran pelbagai modal, dan telah memenangi banyak anugerah jurnal IEEE pada persidangan itu.

Makmal ini telah menganjurkan lebih daripada 20 projek nasional seperti Pelan R&D Utama Negara dan Yayasan Sains Semula Jadi Kebangsaan China Ia telah memenangi hadiah pertama Anugerah Sains Semula Jadi Wilayah Zhejiang dan hadiah kedua Semula Jadi Pendidikan Anugerah Sains.

Atas ialah kandungan terperinci Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51cto. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Bagaimana Sistem Rag Agentic Transform Tech?Apr 12, 2025 am 09:21 AM

Pengenalan Kecerdasan buatan telah memasuki era baru. Sudahlah hari -hari apabila model hanya akan mengeluarkan maklumat berdasarkan peraturan yang telah ditetapkan. Pendekatan canggih di AI hari ini berkisar di sekitar RAG (Retrieval-Augmente

Pembantu SQL untuk Pertanyaan Auto-GenerateApr 12, 2025 am 09:13 AM

Pernahkah anda berharap anda hanya boleh bercakap dengan pangkalan data anda, bertanya soalan dalam bahasa biasa, dan dapatkan jawapan segera tanpa menulis pertanyaan SQL kompleks atau menyusun melalui spreadsheet? Dengan Toolkit SQL Langchain, Groq A

Membaca Indeks AI 2025: Adakah AI rakan, musuh, atau juruterbang bersama?Apr 11, 2025 pm 12:13 PM

Laporan Indeks Perisikan Buatan 2025 yang dikeluarkan oleh Stanford University Institute for Manusia Berorientasikan Kecerdasan Buatan memberikan gambaran yang baik tentang revolusi kecerdasan buatan yang berterusan. Mari kita menafsirkannya dalam empat konsep mudah: kognisi (memahami apa yang sedang berlaku), penghargaan (melihat faedah), penerimaan (cabaran muka), dan tanggungjawab (cari tanggungjawab kita). Kognisi: Kecerdasan buatan di mana -mana dan berkembang pesat Kita perlu menyedari betapa cepatnya kecerdasan buatan sedang berkembang dan menyebarkan. Sistem kecerdasan buatan sentiasa bertambah baik, mencapai hasil yang sangat baik dalam ujian matematik dan pemikiran kompleks, dan hanya setahun yang lalu mereka gagal dalam ujian ini. Bayangkan AI menyelesaikan masalah pengekodan kompleks atau masalah saintifik peringkat siswazah-sejak tahun 2023

Bermula dengan Meta Llama 3.2 - Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta's Llama 3.2: Lompat ke hadapan dalam Multimodal dan Mobile AI META baru -baru ini melancarkan Llama 3.2, kemajuan yang ketara dalam AI yang memaparkan keupayaan penglihatan yang kuat dan model teks ringan yang dioptimumkan untuk peranti mudah alih. Membina kejayaan o

AV Bytes: Meta ' s llama 3.2, Google's Gemini 1.5, dan banyak lagiApr 11, 2025 pm 12:01 PM

Landskap AI minggu ini: Badai kemajuan, pertimbangan etika, dan perdebatan pengawalseliaan. Pemain utama seperti Openai, Google, Meta, dan Microsoft telah melepaskan kemas kini, dari model baru yang terobosan ke peralihan penting di LE

Kos manusia bercakap dengan mesin: Bolehkah chatbot benar -benar peduli?Apr 11, 2025 pm 12:00 PM

Ilusi yang menghiburkan sambungan: Adakah kita benar -benar berkembang dalam hubungan kita dengan AI? Soalan ini mencabar nada optimis Simposium MIT Media Lab "yang memajukan AI (AHA)". Manakala acara itu mempamerkan cutting-EDG

Memahami Perpustakaan Scipy di PythonApr 11, 2025 am 11:57 AM

Pengenalan Bayangkan anda seorang saintis atau jurutera menangani masalah kompleks - persamaan pembezaan, cabaran pengoptimuman, atau analisis Fourier. Kemudahan penggunaan dan kemampuan grafik Python menarik, tetapi tugas -tugas ini menuntut alat yang berkuasa

3 Kaedah untuk menjalankan Llama 3.2 - Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2: Powerhouse AI Multimodal Model multimodal terbaru Meta, Llama 3.2, mewakili kemajuan yang ketara dalam AI, yang membanggakan pemahaman bahasa yang dipertingkatkan, ketepatan yang lebih baik, dan keupayaan penjanaan teks yang unggul. Keupayaannya t

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

Tunjukkan Lagi