cari
RumahPeranti teknologiAIPeningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

Cadangan Besar: Visual-RFT-Projek Sumber Terbuka Visual-RFT-Peningkatan Visual dan Fine-Penalaan untuk Memperkasakan Model Bahasa Visual!

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

Lajur AIXIV terus memberi tumpuan kepada penyelidikan AI teratas di dunia dan telah menerbitkan lebih daripada 2,000 artikel akademik dan teknikal. Selamat datang untuk menyumbang untuk berkongsi pencapaian cemerlang anda! E -mel penyerahan: liyazhou@jiqizhixin.com;

Projek Visual-RFT (Penguatkuasaan Visual Fine-penalaan) berjaya menerapkan paradigma Pembelajaran Pembelajaran dan Penguatkuasaan Penguatkuasaan (RFT) yang berdasarkan kepada Model Besar Bahasa Visual (LVLM), memecahkan batasan kaedah terdahulu yang terhad kepada teks, matematik dan bidang lain. Dengan merancang ganjaran peraturan khusus untuk tugas-tugas seperti subkategori visual dan pengesanan objek, Visual-RFT memberikan idea baru untuk latihan LVLM!

Rajah 1 menunjukkan keupayaan generalisasi yang kuat dari Visual-RFT: Model ini hanya memerlukan sedikit data untuk mengenal pasti Pokémon tertentu dengan tepat dalam Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber dan mencari koordinatnya.

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

Rajah 1. Visual-RFT memanjangkan penalaan halus kepada multimodal, dengan hanya 10-1000 keping data untuk meningkatkan prestasi model dengan ketara.

Dari RFT ke Visual-RFT: Terobosan dalam pembelajaran tetulang dalam bidang multimodal

Teknologi penalaan yang dipertingkatkan dengan OpenAI membolehkan penghijrahan keupayaan model dicapai dengan hanya sebilangan kecil sampel. DeepSeek-R1 mendedahkan bahawa kebolehan penalarannya yang kuat berasal dari strategi pembelajaran tetulang berdasarkan ganjaran yang dapat disahkan. Walau bagaimanapun, strategi ini sebelum ini digunakan terutamanya dalam bidang seperti teks dan matematik. Visual-RFT berjaya memperluaskan strategi ini ke medan visual.

Arahan Visual Tradisional Penalaan halus (SFT) memerlukan sejumlah besar data, dan keupayaan pembelajaran sampel kecil Visual-RFT menjadikannya lebih berfaedah dalam senario data yang terhad.

Untuk mengesahkan keupayaan generalisasi Visual-RFT, pasukan penyelidikan menjalankan ujian pada pelbagai tugas visual seperti pengesanan objek, klasifikasi, dan asas. Hasilnya menunjukkan bahawa Visual-RFT dapat mencapai peningkatan prestasi yang signifikan di bawah perbendaharaan kata terbuka, pembelajaran sampel kecil dan tetapan lain, dan lebih baik daripada kaedah SFT. Terutama dalam tugas kedudukan kesimpulan, Visual-RFT menunjukkan keupayaan penalaran visual yang sangat baik. (Lihat kertas untuk maklumat lanjut)

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

Rajah 2. Visual-RFT melampaui SFT pada pelbagai tugas visual.

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

Rajah 3. Rajah rangka kerja Visual-RFT, mengemas kini parameter model menggunakan strategi pembelajaran IOU dan CLS dan tetulang.

Pasukan penyelidikan menggunakan ganjaran yang boleh disahkan berasaskan IOU untuk mengesan dan memberi tugas, dan ganjaran CLS berdasarkan ketepatan klasifikasi untuk tugas klasifikasi. (seperti yang ditunjukkan dalam Rajah 3)

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

Rajah 4. Keputusan kedudukan inferensi menunjukkan bahawa visual-RFT melampaui SFT untuk mencari objek dengan lebih tepat.

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

Rajah 5. Hasil klasifikasi halus yang menyimpulkan menunjukkan bahawa Visual-RFT melampaui SFT untuk mencari objek dengan lebih tepat.

Rajah 4 dan Rajah 5 menunjukkan hasil output model.

Hasil percubaan visual-RFT

Berdasarkan model QWEN2-VL 2B/7B, Visual-RFT secara komprehensif melepasi SFT dalam pengesanan objek terbuka, pengesanan sampel kecil, klasifikasi halus dan tugas kedudukan kesimpulan. Data eksperimen merangkumi adegan biasa seperti COCO dan LVI dan adegan terbuka seperti watak -watak kartun Internet. Dengan hanya sedikit data, Visual-RFT dapat mencapai penghijrahan keupayaan, menunjukkan prestasi dan keteguhan yang sangat baik.

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

Rajah 5. Beberapa keputusan eksperimen menunjukkan bahawa Visual-RFT melampaui SFT.

Visual-RFT adalah sumber terbuka!

Projek Visual-RFT adalah sumber terbuka dan mengandungi latihan, kod penilaian dan data. Selamat datang untuk mengambil bahagian!

Alamat Projek: https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453

Atas ialah kandungan terperinci Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tidak boleh menggunakan chatgpt! Menjelaskan sebab dan penyelesaian yang boleh diuji dengan segera [terbaru 2025]Tidak boleh menggunakan chatgpt! Menjelaskan sebab dan penyelesaian yang boleh diuji dengan segera [terbaru 2025]May 14, 2025 am 05:04 AM

Chatgpt tidak boleh diakses? Artikel ini menyediakan pelbagai penyelesaian praktikal! Ramai pengguna mungkin menghadapi masalah seperti tidak dapat diakses atau tindak balas yang perlahan apabila menggunakan chatgpt setiap hari. Artikel ini akan membimbing anda untuk menyelesaikan masalah ini langkah demi langkah berdasarkan situasi yang berbeza. Punca ketidakmampuan dan penyelesaian masalah awal Chatgpt Pertama, kita perlu menentukan sama ada masalah itu berada di sisi pelayan Openai, atau masalah rangkaian atau peranti pengguna sendiri. Sila ikuti langkah di bawah untuk menyelesaikan masalah: Langkah 1: Periksa status rasmi Openai Lawati halaman Status Openai (status.openai.com) untuk melihat sama ada perkhidmatan ChATGPT berjalan secara normal. Sekiranya penggera merah atau kuning dipaparkan, ini bermakna terbuka

Mengira risiko ASI bermula dengan minda manusiaMengira risiko ASI bermula dengan minda manusiaMay 14, 2025 am 05:02 AM

Pada 10 Mei 2025, ahli fizik MIT Max Tegmark memberitahu The Guardian bahawa AI Labs harus mencontohi kalkulus ujian triniti Oppenheimer sebelum melepaskan kecerdasan super buatan. "Penilaian saya ialah 'Compton Constant', kebarangkalian perlumbaan

Penjelasan yang mudah difahami tentang cara menulis dan menyusun lirik dan alat yang disyorkan di chatgptPenjelasan yang mudah difahami tentang cara menulis dan menyusun lirik dan alat yang disyorkan di chatgptMay 14, 2025 am 05:01 AM

Teknologi penciptaan muzik AI berubah dengan setiap hari berlalu. Artikel ini akan menggunakan model AI seperti CHATGPT sebagai contoh untuk menerangkan secara terperinci bagaimana menggunakan AI untuk membantu penciptaan muzik, dan menerangkannya dengan kes -kes sebenar. Kami akan memperkenalkan bagaimana untuk membuat muzik melalui Sunoai, AI Jukebox pada muka yang memeluk, dan perpustakaan Python Music21. Dengan teknologi ini, semua orang boleh membuat muzik asli dengan mudah. Walau bagaimanapun, perlu diperhatikan bahawa isu hak cipta kandungan AI yang dihasilkan tidak boleh diabaikan, dan anda mesti berhati-hati apabila menggunakannya. Mari kita meneroka kemungkinan AI yang tidak terhingga dalam bidang muzik bersama -sama! Ejen AI terbaru Terbuka "Openai Deep Research" memperkenalkan: [Chatgpt] Ope

Apa itu chatgpt-4? Penjelasan menyeluruh tentang apa yang boleh anda lakukan, harga, dan perbezaan dari GPT-3.5!Apa itu chatgpt-4? Penjelasan menyeluruh tentang apa yang boleh anda lakukan, harga, dan perbezaan dari GPT-3.5!May 14, 2025 am 05:00 AM

Kemunculan CHATGPT-4 telah memperluaskan kemungkinan aplikasi AI. Berbanding dengan GPT-3.5, CHATGPT-4 telah meningkat dengan ketara. Ia mempunyai keupayaan pemahaman konteks yang kuat dan juga dapat mengenali dan menghasilkan imej. Ia adalah pembantu AI sejagat. Ia telah menunjukkan potensi yang besar dalam banyak bidang seperti meningkatkan kecekapan perniagaan dan membantu penciptaan. Walau bagaimanapun, pada masa yang sama, kita juga harus memberi perhatian kepada langkah berjaga -jaga dalam penggunaannya. Artikel ini akan menerangkan ciri-ciri CHATGPT-4 secara terperinci dan memperkenalkan kaedah penggunaan yang berkesan untuk senario yang berbeza. Artikel ini mengandungi kemahiran untuk memanfaatkan sepenuhnya teknologi AI terkini, sila rujuknya. Ejen AI Terbuka Terbuka, sila klik pautan di bawah untuk butiran "Penyelidikan Deep Openai"

Menjelaskan Cara Menggunakan App ChatGPT! Fungsi Sokongan dan Perbualan Suara JepunMenjelaskan Cara Menggunakan App ChatGPT! Fungsi Sokongan dan Perbualan Suara JepunMay 14, 2025 am 04:59 AM

App ChatGPT: Melepaskan kreativiti anda dengan pembantu AI! Panduan pemula Aplikasi CHATGPT adalah pembantu AI yang inovatif yang mengendalikan pelbagai tugas, termasuk menulis, terjemahan, dan menjawab soalan. Ia adalah alat dengan kemungkinan tidak berkesudahan yang berguna untuk aktiviti kreatif dan pengumpulan maklumat. Dalam artikel ini, kami akan menerangkan dengan cara yang mudah difahami untuk pemula, dari cara memasang aplikasi telefon pintar ChATGPT, kepada ciri-ciri yang unik untuk aplikasi seperti fungsi input suara dan plugin, serta mata yang perlu diingat apabila menggunakan aplikasi. Kami juga akan melihat dengan lebih dekat sekatan plugin dan penyegerakan konfigurasi peranti-ke-peranti

Bagaimana saya menggunakan versi chatgpt Cina? Penjelasan prosedur dan yuran pendaftaranBagaimana saya menggunakan versi chatgpt Cina? Penjelasan prosedur dan yuran pendaftaranMay 14, 2025 am 04:56 AM

Chatgpt Versi Cina: Buka kunci pengalaman baru dialog Cina AI Chatgpt popular di seluruh dunia, adakah anda tahu ia juga menawarkan versi Cina? Alat AI yang kuat ini bukan sahaja menyokong perbualan harian, tetapi juga mengendalikan kandungan profesional dan serasi dengan Cina yang mudah dan tradisional. Sama ada pengguna di China atau rakan yang belajar bahasa Cina, anda boleh mendapat manfaat daripadanya. Artikel ini akan memperkenalkan secara terperinci bagaimana menggunakan versi CHATGPT Cina, termasuk tetapan akaun, input perkataan Cina, penggunaan penapis, dan pemilihan pakej yang berbeza, dan menganalisis potensi risiko dan strategi tindak balas. Di samping itu, kami juga akan membandingkan versi CHATGPT Cina dengan alat AI Cina yang lain untuk membantu anda memahami lebih baik kelebihan dan senario aplikasinya. Perisikan AI Terbuka Terbuka

5 mitos ejen AI anda perlu berhenti mempercayai sekarang5 mitos ejen AI anda perlu berhenti mempercayai sekarangMay 14, 2025 am 04:54 AM

Ini boleh dianggap sebagai lonjakan seterusnya ke hadapan dalam bidang AI generatif, yang memberi kita chatgpt dan chatbots model bahasa besar yang lain. Daripada hanya menjawab soalan atau menghasilkan maklumat, mereka boleh mengambil tindakan bagi pihak kami, Inter

Penjelasan yang mudah difahami tentang penyalahgunaan membuat dan menguruskan pelbagai akaun menggunakan chatgptPenjelasan yang mudah difahami tentang penyalahgunaan membuat dan menguruskan pelbagai akaun menggunakan chatgptMay 14, 2025 am 04:50 AM

Teknik pengurusan akaun berganda yang cekap menggunakan CHATGPT | Penjelasan menyeluruh tentang cara menggunakan perniagaan dan kehidupan peribadi! ChatGPT digunakan dalam pelbagai situasi, tetapi sesetengah orang mungkin bimbang untuk menguruskan pelbagai akaun. Artikel ini akan menerangkan secara terperinci bagaimana untuk membuat pelbagai akaun untuk chatgpt, apa yang perlu dilakukan apabila menggunakannya, dan bagaimana untuk mengendalikannya dengan selamat dan cekap. Kami juga meliputi perkara penting seperti perbezaan dalam perniagaan dan penggunaan peribadi, dan mematuhi syarat penggunaan OpenAI, dan memberikan panduan untuk membantu anda menggunakan pelbagai akaun. Terbuka

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Nordhold: Sistem Fusion, dijelaskan
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

MantisBT

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

SecLists

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.