Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya-AI-php.cn

Rumah

Peranti teknologi

Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 11, 2023 pm 03:53 PM

Modelkereta api

Model bahasa berskala besar (LLM atau LM) pada asalnya digunakan untuk menjana bahasa, tetapi lama kelamaan ia telah dapat menjana kandungan dalam pelbagai modaliti dan digunakan dalam bidang seperti audio, pertuturan, penjanaan kod, aplikasi perubatan, robotik , dsb. Mula mengambil alih

Sudah tentu, LM juga boleh menjana imej dan video. Semasa proses ini, piksel imej dipetakan ke dalam satu siri token diskret oleh tokenizer visual. Token ini kemudiannya dimasukkan ke dalam pengubah LM dan digunakan seperti perbendaharaan kata untuk pemodelan generatif. Walaupun terdapat kemajuan yang ketara dalam penjanaan visual, LM masih berprestasi lebih teruk daripada model resapan. Contohnya, apabila dinilai pada set data ImageNet, penanda aras standard emas untuk penjanaan imej, model bahasa terbaik menunjukkan prestasi 48% lebih teruk daripada model resapan (FID 3.41 lwn. 1.79 apabila menjana imej pada resolusi 256ˆ256).

Mengapakah model bahasa ketinggalan di belakang model resapan dalam penjanaan visual? Penyelidik dari Google dan CMU percaya bahawa sebab utama ialah kekurangan perwakilan visual yang baik, serupa dengan sistem bahasa semula jadi kita, untuk memodelkan dunia visual dengan berkesan. Untuk mengesahkan hipotesis ini, mereka menjalankan kajian.

Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya

Pautan kertas: https://arxiv.org/pdf/2310.05737.pdf

Kajian ini menunjukkan bahawa di bawah data latihan yang sama, saiz model yang setanding dan bajet latihan, menggunakan tokenizer Visual yang baik model bahasa mengatasi model penyebaran SOTA dalam kedua-dua kesetiaan dan kecekapan generasi pada penanda aras imej dan video. Ini adalah bukti pertama bahawa model bahasa mengalahkan model penyebaran pada penanda aras ImageNet yang ikonik.

Perlu ditegaskan bahawa tujuan penyelidik bukanlah untuk menegaskan sama ada model bahasa itu lebih baik daripada model lain, tetapi untuk menggalakkan penerokaan kaedah tokenisasi visual LLM. Perbezaan asas antara LLM dan model lain (seperti model resapan) ialah LLM menggunakan format terpendam diskret, iaitu token yang diperoleh daripada tokenizer visual. Penyelidikan ini menunjukkan bahawa nilai token visual diskret ini tidak boleh diabaikan kerana kelebihannya berikut:

1. Kelebihan utama perwakilan token ialah ia berkongsi bentuk yang sama dengan token bahasa, dengan itu memanfaatkan secara langsung pengoptimuman yang telah dibuat oleh komuniti selama bertahun-tahun untuk membangunkan LLM, termasuk latihan yang lebih pantas dan kelajuan inferens, kemajuan dalam infrastruktur model, cara untuk melanjutkan model, dan Inovasi seperti pengoptimuman GPU/TPU. Penyatuan visi dan bahasa melalui ruang token yang sama boleh meletakkan asas untuk LLM yang benar-benar multimodal yang boleh memahami, menjana dan menaakul dalam persekitaran visual kita.

2. Token diskret boleh memberikan perspektif baharu tentang pemampatan video. Token visual boleh digunakan sebagai format pemampatan video baharu untuk mengurangkan storan cakera dan lebar jalur yang diduduki oleh data semasa penghantaran Internet. Tidak seperti piksel RGB termampat, token ini boleh disalurkan terus ke dalam model generatif, memintas penyahmampatan tradisional dan langkah pengekodan terpendam. Ini boleh mempercepatkan pemprosesan aplikasi penjanaan video dan amat berfaedah dalam situasi pengkomputeran tepi.

3. Kelebihan pemahaman visual. Penyelidikan terdahulu telah menunjukkan nilai label diskret sebagai sasaran pra-latihan dalam pembelajaran perwakilan yang diselia sendiri, seperti yang dibincangkan dalam BEiT dan BEVT. Di samping itu, kajian mendapati bahawa menggunakan penanda sebagai input model boleh meningkatkan kekukuhan dan prestasi generalisasinya

Dalam kertas kerja ini, penyelidik mencadangkan tokenizer video bernama MAGVIT-v2, yang bertujuan untuk menukar video kepada (dan imej) kepada padat. token diskret

Kandungan ditulis semula seperti berikut: Model ini berdasarkan penambahbaikan MAGVIT, tokenizer video SOTA dalam rangka kerja VQ-VAE. Para penyelidik mencadangkan dua teknologi baharu: 1) kaedah kuantifikasi bebas carian inovatif yang membolehkan pembelajaran perbendaharaan kata yang besar, dengan itu meningkatkan kualiti penjanaan model bahasa 2) melalui analisis empirikal yang meluas, mereka menentukan Pengubahsuaian kepada MAGVIT bukan sahaja meningkatkan kualiti penjanaan; , tetapi juga membenarkan imej dan video ditoken menggunakan perbendaharaan kata yang dikongsi

Hasil eksperimen menunjukkan model baharu itu mengatasi penyegmen video berprestasi terbaik sebelumnya dalam tiga bidang utama ——MAGVIT. Pertama, model baharu ini meningkatkan kualiti penjanaan MAGVIT dengan ketara, mencapai hasil terkini pada tanda aras imej dan video biasa. Kedua, kajian pengguna menunjukkan bahawa kualiti mampatannya melebihi MAGVIT dan piawaian mampatan video semasa HEVC. Tambahan pula, ia setanding dengan codec video VVC generasi akan datang. Akhir sekali, penyelidik menunjukkan bahawa pembahagian perkataan baharu mereka berprestasi lebih baik daripada MAGVIT dalam tugas pemahaman video dalam dua tetapan dan tiga set data

Pengenalan kaedah

Kertas kerja ini memperkenalkan tokenizer video baharu, bertujuan untuk memetakan dinamik ruang masa dalam adegan visual agar sesuai dengan token diskret padat untuk model bahasa. Tambahan pula, kaedah ini dibina pada MAGVIT.

Selepas itu, kajian ini menyerlahkan dua reka bentuk novel: Kuantiti Tanpa Carian (LFQ) dan penambahbaikan kepada model tokenizer.

Tiada kuantifikasi carian

#🎜🎜Va model terbaru telah mencapai Kemajuan yang besar telah dicapai, tetapi terdapat masalah dengan kaedah ini, iaitu hubungan antara peningkatan kualiti pembinaan semula dan kualiti generasi berikutnya tidak jelas. Ramai orang tersilap percaya bahawa menambah baik pembinaan semula adalah bersamaan dengan menambah baik penjanaan model bahasa, sebagai contoh, mengembangkan perbendaharaan kata boleh meningkatkan kualiti pembinaan semula. Walau bagaimanapun, peningkatan ini hanya terpakai kepada penjanaan perbendaharaan kata yang kecil dan akan menjejaskan prestasi model bahasa apabila perbendaharaan kata tersebut sangat besar Dimensi pembenaman buku kod dikurangkan kepada 0, iaitu, Buku Kod digantikan dengan satu. set integer , di mana

Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya Berbeza dengan model VQ-VAE, reka bentuk baharu ini menghapuskan sepenuhnya keperluan untuk carian terbenam, maka dinamakan LFQ. Kertas kerja ini mendapati bahawa LFQ boleh meningkatkan kualiti penjanaan model bahasa dengan menambah kosa kata. Seperti yang ditunjukkan oleh lengkung biru dalam Rajah 1, kedua-dua pembinaan semula dan penjanaan bertambah baik apabila saiz perbendaharaan kata bertambah—sifat yang tidak diperhatikan dalam kaedah VQ-VAE semasa. Terdapat banyak kaedah LFQ yang tersedia setakat ini, tetapi artikel ini membincangkan varian mudah. Khususnya, ruang terpendam LFQ diuraikan menjadi hasil Cartesan pembolehubah satu dimensi, iaitu Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya . Dengan mengandaikan bahawa diberi vektor ciri , setiap dimensi bagi perwakilan terkuantiti q (z) diperoleh daripada:

# 🎜🎜# Mengenai LFQ, indeks token q(z) ialah: Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya

Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya Jika tidak, artikel ini dalam Penalti entropi juga ditambah semasa proses latihan:

Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya

Peningkatan model tokenizer visual#🎜🎜 🎜🎜#

Untuk membina tokenizer imej-video bersama, reka bentuk semula diperlukan. Kajian mendapati bahawa berbanding dengan pengubah spatial, prestasi 3D CNN adalah lebih baik MAGVIT digabungkan; Jadual 5a membandingkan secara empirik reka bentuk dalam Rajah 2 dan mendapati bahawa CNN 3D penyebab berprestasi terbaik. Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya

Artikel ini membuat pengubahsuaian seni bina lain untuk meningkatkan prestasi MAGVIT. Selain menggunakan lapisan CNN 3D sebab, makalah ini juga menukar pengekod bawah sampel daripada pengumpulan purata kepada lilitan berjalur dan menambah penormalan kumpulan penyesuaian sebelum blok baki pada setiap peleraian dalam penyahkod dll.

Hasil eksperimen

Kertas kerja ini mengesahkan prestasi pembahagian perkataan yang dicadangkan melalui tiga bahagian percubaan: penjanaan video dan imej, pemampatan video dan pengecaman tindakan. Rajah 3 membandingkan secara visual tokenizer dengan hasil penyelidikan terdahulu

Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya

penjanaan video. Jadual 1 menunjukkan model kami mengatasi semua teknik sedia ada pada kedua-dua penanda aras, membuktikan bahawa tokenizer visual yang baik memainkan peranan penting dalam membolehkan LM menjana video berkualiti tinggi. Dengan menilai hasil penjanaan imej MAGVIT-v2, kajian ini mendapati model kami melebihi prestasi model resapan terbaik dari segi kualiti pensampelan (ID dan IS) dan kecekapan masa inferens (langkah persampelan Rajah 5 menunjukkan visualisasi). keputusan.

Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya

Mampatan video. Keputusan ditunjukkan dalam Jadual 3. Model kami mengatasi MAGVIT pada semua penunjuk dan mengatasi semua kaedah pada LPIPS.

Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya

Seperti yang ditunjukkan dalam Jadual 4, MAGVIT-v2 mengatasi MAGVIT terbaik sebelum ini dalam penilaian ini

Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya

Atas ialah kandungan terperinci Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Alat panggilan di LLMSApr 14, 2025 am 11:28 AM

Model bahasa yang besar (LLMS) telah melonjak populariti, dengan ciri-ciri alat yang secara dramatik memperluaskan keupayaan mereka di luar penjanaan teks mudah. Sekarang, LLMS dapat mengendalikan tugas automasi yang kompleks seperti penciptaan UI dinamik dan autonomi a

Bagaimana permainan ADHD, alat kesihatan & chatbots AI mengubah kesihatan globalApr 14, 2025 am 11:27 AM

Bolehkah permainan video meringankan kebimbangan, membina fokus, atau menyokong kanak -kanak dengan ADHD? Memandangkan cabaran penjagaan kesihatan melonjak di seluruh dunia - terutamanya di kalangan belia - inovator beralih kepada alat yang tidak mungkin: permainan video. Sekarang salah satu hiburan terbesar di dunia Indus

Input PBB pada AI: Pemenang, Losers, dan PeluangApr 14, 2025 am 11:25 AM

"Sejarah telah menunjukkan bahawa walaupun kemajuan teknologi memacu pertumbuhan ekonomi, ia tidak sendiri memastikan pengagihan pendapatan yang saksama atau menggalakkan pembangunan manusia yang inklusif," tulis Rebeca Grynspan, Setiausaha Agung Unctad, dalam Mukadimah.

Kemahiran rundingan pembelajaran melalui AI generatifApr 14, 2025 am 11:23 AM

Easy-peasy, gunakan AI Generatif sebagai tutor rundingan dan rakan kongsi sparring anda. Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menjelaskan

Ted mendedahkan dari Openai, Google, Meta Heads to Court, selfie dengan diri sayaApr 14, 2025 am 11:22 AM

Persidangan TED2025, yang diadakan di Vancouver, membungkus edisi ke -36 semalam, 11 April. Ia menampilkan 80 penceramah dari lebih daripada 60 negara, termasuk Sam Altman, Eric Schmidt, dan Palmer Luckey. Tema Ted, "Kemanusiaan Reimagined," telah disesuaikan dibuat

Joseph Stiglitz memberi amaran tentang ketidaksamaan yang menjulang di tengah -tengah kuasa monopoli AIApr 14, 2025 am 11:21 AM

Joseph Stiglitz adalah ahli ekonomi yang terkenal dan penerima Hadiah Nobel dalam Ekonomi pada tahun 2001. Stiglitz berpendapat bahawa AI dapat memburukkan lagi ketidaksamaan dan kuasa yang disatukan di tangan beberapa syarikat dominan, akhirnya menjejaskan ekonomi

Apakah pangkalan data graf?Apr 14, 2025 am 11:19 AM

Pangkalan Data Graf: Merevolusi Pengurusan Data Melalui Hubungan Apabila data berkembang dan ciri -cirinya berkembang di pelbagai bidang, pangkalan data grafik muncul sebagai penyelesaian transformatif untuk menguruskan data yang saling berkaitan. Tidak seperti tradisional

LLM Routing: Strategi, Teknik, dan Pelaksanaan PythonApr 14, 2025 am 11:14 AM

Routing Model Besar (LLM): Mengoptimumkan Prestasi melalui Pengedaran Tugas Pintar Landskap LLM yang pesat berkembang membentangkan pelbagai model, masing -masing dengan kekuatan dan kelemahan yang unik. Beberapa cemerlang di Gen Kandungan Kreatif

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Dreamweaver CS6

Alat pembangunan web visual

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7494

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi