Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal-Kajian perkakasan-php.cn

Rumah

Tutorial Perkakasan

Kajian perkakasan

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Barbara Streisand

Mar 12, 2025 pm 01:03 PM

gitaiModelbelakangmodalDeepSeeko1sft显著

Penyelidik dari Universiti Shanghai Jiaoto, Shanghai AI Lab dan Universiti Cina Hong Kong telah melancarkan projek sumber terbuka Visual-RFT (Visual Fine Fine Tuning), yang hanya memerlukan sedikit data untuk meningkatkan prestasi mockups bahasa visual (LVLM). Visual-RFT bijak menggabungkan pendekatan pembelajaran tetulang berasaskan peraturan DeepSeek-R1 dengan paradigma penalaan Fine-Penalaan Terbuka (RFT) OpenAI, berjaya memperluaskan pendekatan ini dari medan teks ke medan visual.

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Dengan merancang ganjaran peraturan yang sepadan untuk tugas-tugas seperti subkategori visual dan pengesanan objek, Visual-RFT mengatasi batasan kaedah DeepSeek-R1 yang terhad kepada teks, penalaran matematik dan bidang lain, menyediakan cara baru untuk latihan LVLM.

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Kelebihan Visual-RFT:

Berbanding dengan kaedah pengajaran visual tradisional (SFT), Visual-RFT mempunyai kelebihan penting berikut:

Kurang keupayaan pembelajaran sampel: Hanya 10 hingga 1000 keping data boleh digunakan untuk mencapai penalaan yang berkesan.
Generalisasi yang lebih kuat: Dalam senario dengan data terhad, prestasi lebih baik daripada SFT.

Para penyelidik mengesahkan Visual-RFT pada pelbagai tugas persepsi visual (pengesanan, klasifikasi, lokasi, dan lain-lain), dan hasilnya menunjukkan bahawa visual-RFT mencapai peningkatan prestasi yang signifikan dan pemindahan keupayaan yang mudah dicapai walaupun di bawah tetapan perbendaharaan kata terbuka dan pembelajaran sampel kecil.

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Para penyelidik yang direka dengan ganjaran yang dapat disahkan untuk tugas-tugas yang berbeza: ganjaran berasaskan IOU digunakan untuk mengesan dan menempatkan tugas, dan ganjaran berasaskan klasifikasi yang dibenarkan digunakan untuk tugas klasifikasi.

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Dalam tugas kedudukan kesimpulan, Visual-RFT menunjukkan keupayaan penalaran visual yang kuat, seperti dengan tepat mengenal pasti gelas kalis air yang perlu dipakai oleh atlet dalam gambar.

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Hasil eksperimen:

Eksperimen berdasarkan model QWEN2-VL 2B/7B menunjukkan bahawa Visual-RFT lebih tinggi daripada SFT dalam pengesanan objek terbuka, pengesanan sampel kecil, klasifikasi halus dan tugas kedudukan kesimpulan. Walaupun anda mengesan watak anime tertentu (seperti lendir), Visual-RFT boleh dicapai dengan hanya sedikit data.

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Maklumat Sumber Terbuka:

Projek Visual-RFT adalah sumber terbuka dan mengandungi latihan, kod penilaian dan data.

Alamat Projek: https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Atas ialah kandungan terperinci Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

3 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

3 minggu yang laluByDDD

Tahap kekuatan untuk setiap musuh & raksasa di R.E.P.O.

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

<🎜>: Rails Dead - Cara menjinakkan serigala

3 minggu yang laluByDDD

Putera Biru: Cara sampai ke ruangan bawah tanah

3 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini