cari
Rumahweb3.0Tokenformer: Memikirkan Semula Transformers dengan Merawat Parameter sebagai Token
Tokenformer: Memikirkan Semula Transformers dengan Merawat Parameter sebagai TokenNov 04, 2024 am 12:36 AM
ScalingTokenformer Transformer Architecture Tokenized Parameters AI Applications

Transformer telah mengubah kecerdasan buatan, menawarkan prestasi yang tiada tandingan dalam NLP, penglihatan komputer dan penyepaduan data berbilang modal. Model ini cemerlang dalam mengenal pasti corak dalam data melalui mekanisme perhatian mereka, menjadikannya ideal untuk tugas yang kompleks. Walau bagaimanapun, penskalaan pantas model pengubah perlu dipertingkatkan kerana kos pengiraan yang tinggi yang dikaitkan dengan struktur tradisionalnya.

Tokenformer: Memikirkan Semula Transformers dengan Merawat Parameter sebagai Token

Transformer telah merevolusikan kecerdasan buatan, menawarkan prestasi yang tiada tandingan dalam pemprosesan bahasa semula jadi (NLP), penglihatan komputer dan penyepaduan data berbilang mod. Model ini cemerlang dalam mengenal pasti corak dalam data melalui mekanisme perhatian mereka, menjadikannya ideal untuk tugas yang kompleks. Walau bagaimanapun, penskalaan pantas model pengubah perlu diperbaiki kerana kos pengiraan yang tinggi yang dikaitkan dengan struktur tradisionalnya. Apabila model ini berkembang, mereka menuntut sumber perkakasan dan masa latihan yang ketara, yang meningkat secara eksponen dengan saiz model.

Halangan utama dalam penskalaan transformer terletak pada parameter tetap dalam lapisan unjuran linear mereka. Struktur statik ini mengehadkan keupayaan model untuk berkembang tanpa dilatih semula sepenuhnya, yang menjadi lebih mahal secara eksponen apabila saiz model meningkat. Model tradisional ini biasanya menuntut latihan semula yang komprehensif apabila pengubahsuaian seni bina berlaku, seperti meningkatkan dimensi saluran.

Oleh itu, kos pengiraan untuk pengembangan ini meningkat secara tidak praktikal, dan pendekatannya tidak mempunyai fleksibiliti. Ketidakupayaan untuk menambah parameter baharu secara dinamik menyekat pertumbuhan, menjadikan model ini kurang boleh disesuaikan dengan aplikasi AI yang berkembang dan lebih mahal dari segi masa dan sumber.

Secara sejarah, pendekatan untuk mengurus skalabiliti model termasuk pendua pemberat atau penstrukturan semula model menggunakan kaedah seperti Net2Net, di mana neuron pendua mengembangkan lapisan. Walau bagaimanapun, pendekatan ini sering mengganggu keseimbangan model pra-latihan, mengakibatkan kadar penumpuan yang lebih perlahan dan kerumitan latihan tambahan.

Walaupun kaedah ini telah mencapai kemajuan yang meningkat, kaedah ini masih menghadapi had dalam mengekalkan integriti model semasa penskalaan. Transformer sangat bergantung pada unjuran linear statik, menjadikan pengembangan parameter mahal dan tidak fleksibel. Model tradisional seperti GPT dan transformer besar yang lain sering melatih semula dari awal, menanggung kos pengiraan yang tinggi dengan setiap peringkat penskalaan baharu.

Kini, penyelidik di Institut Max Planck, Google dan Universiti Peking telah membangunkan seni bina baharu yang dipanggil Tokenformer yang secara asasnya membayangkan semula transformer dengan menganggap parameter model sebagai token, membolehkan interaksi dinamik antara token dan parameter.

Dalam rangka kerja ini, Tokenformer memperkenalkan komponen baru yang dipanggil lapisan perhatian parameter token (Pattention), yang memudahkan penskalaan tambahan. Model ini boleh menambah token parameter baharu tanpa latihan semula, mengurangkan kos latihan secara drastik.

Dengan mewakili token input dan parameter dalam rangka kerja yang sama, Tokenformer membenarkan penskalaan yang fleksibel, menyediakan penyelidik dengan seni bina model yang lebih cekap dan mementingkan sumber yang mengekalkan kebolehskalaan dan prestasi tinggi.

Lapisan Tokenformer's Pattention menggunakan token input sebagai pertanyaan, manakala parameter model berfungsi sebagai kunci dan nilai, yang berbeza daripada pendekatan transformer standard, bergantung semata-mata pada unjuran linear.

Penskalaan model dicapai dengan menambahkan pasangan parameter nilai kunci baharu, mengekalkan dimensi input dan output malar serta mengelakkan latihan semula penuh. Seni bina Tokenformer direka bentuk untuk menjadi modular, membolehkan penyelidik mengembangkan model dengan lancar dengan memasukkan token tambahan.

Keupayaan penskalaan tambahan ini menyokong penggunaan semula pemberat pra-latihan yang cekap sambil mendayakan penyesuaian pantas untuk set data baharu atau saiz model yang lebih besar tanpa mengganggu maklumat yang dipelajari.

Faedah prestasi Tokenformer adalah ketara, kerana model ini mengurangkan kos pengiraan dengan ketara sambil mengekalkan ketepatan. Sebagai contoh, Tokenformer menskalakan daripada 124 juta kepada 1.4 bilion parameter dengan hanya separuh kos latihan biasa yang diperlukan oleh transformer tradisional.

Dalam satu percubaan, model itu mencapai kebingungan ujian sebanyak 11.77 untuk konfigurasi parameter 1.4 bilion, hampir sepadan dengan kebingungan 11.63 pengubah bersaiz serupa yang dilatih dari awal.

Kecekapan ini bermakna Tokenformer boleh mencapai prestasi tinggi merentas berbilang domain, termasuk tugas bahasa dan pemodelan visual, pada sebahagian kecil daripada perbelanjaan sumber model tradisional.

Tokenformer membentangkan banyak perkara penting untuk memajukan penyelidikan AI dan menambah baik model berasaskan transformer. Ini termasuk:

Merawat parameter sebagai token membolehkan penskalaan model tambahan tanpa latihan semula.

Lapisan perhatian parameter token memudahkan pengembangan parameter yang cekap.

Seni bina modular menyokong pertumbuhan model yang lancar dengan memasukkan token tambahan.

Model ini mencapai prestasi tinggi merentas domain yang pelbagai dengan perbelanjaan sumber yang minimum.

Kesimpulannya, Tokenformer menawarkan pendekatan transformatif untuk menskalakan model berasaskan transformer. Seni bina model ini mencapai kebolehskalaan dan kecekapan sumber dengan menganggap parameter sebagai token, mengurangkan kos dan mengekalkan prestasi model merentas tugas.

Fleksibiliti ini mewakili satu kejayaan dalam reka bentuk transformer, menyediakan model yang boleh menyesuaikan diri dengan permintaan memajukan aplikasi AI tanpa latihan semula. Seni bina Tokenformer memegang janji untuk penyelidikan AI masa hadapan, menawarkan laluan untuk membangunkan model berskala besar secara mampan dan cekap.

Lihat Kertas, Halaman GitHub dan Model pada HuggingFace.

Semua kredit untuk penyelidikan ini diberikan kepada penyelidik projek ini. Juga, jangan lupa untuk mengikuti kami di Twitter dan sertai Saluran Telegram dan Kumpulan LinkedIn kami. Jika anda menyukai kerja kami, anda akan menyukai surat berita kami. Jangan Lupa sertai 55k ML SubReddit kami.

[Peluang Penajaan bersama kami] Promosikan Penyelidikan/Produk/Webinar Anda dengan 1Juta Pembaca Bulanan dan 500k Ahli Komuniti

Atas ialah kandungan terperinci Tokenformer: Memikirkan Semula Transformers dengan Merawat Parameter sebagai Token. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
QUBETICS ($ tics): Revolusi AI CryptoQUBETICS ($ tics): Revolusi AI CryptoMar 23, 2025 am 10:08 AM

Cryptocurrency sentiasa menjadi alam di mana canggih teknologi memenuhi cita -cita berani, dan ia hanya menjadi lebih menarik pada masa akan datang. Oleh kerana kecerdasan buatan terus berkembang, terdapat segelintir aset digital yang

Bitcoin [BTC] berada di aliran menurun selepas kehilangan tahap sokongan $ 92,000 pada minggu terakhir FebruariBitcoin [BTC] berada di aliran menurun selepas kehilangan tahap sokongan $ 92,000 pada minggu terakhir FebruariMar 16, 2025 am 10:10 AM

Petunjuk teknikal seperti OBV menunjukkan bahawa tekanan jualan telah dominan, yang bermaksud lebih banyak kerugian mungkin akan berlaku.

Senarai Harga Bersejarah Bitcoin 2015-2025 Carta Trend Harga Bitcoin dalam dekad yang laluSenarai Harga Bersejarah Bitcoin 2015-2025 Carta Trend Harga Bitcoin dalam dekad yang laluMar 12, 2025 pm 06:54 PM

Artikel ini mengkaji trend harga sepuluh tahun Bitcoin dari 2015 hingga 2025 secara terperinci. Dalam tempoh ini, harga bitcoin terjejas oleh pelbagai faktor, termasuk mengurangkan ganjaran blok, sentimen pasaran, dasar pengawalseliaan, dan keadaan makroekonomi global. Artikel ini menganalisis kenaikan dan kejatuhan harga bitcoin tahun demi tahun, dan memberi tumpuan kepada menafsirkan perubahan harga pada tahun -tahun utama, memberikan rujukan kepada pelabur untuk memahami sejarah harga bitcoin dan meramalkan trend masa depan. Kata kunci: harga bitcoin, trend bitcoin, dekad bitcoin, mata wang digital, cryptocurrency

Top 10 Pertukaran Mata Wang Maya Percuma Percuma Sepuluh Platform Perdagangan Mata Wang Mata Wang Terbaik Sepuluh MayaTop 10 Pertukaran Mata Wang Maya Percuma Percuma Sepuluh Platform Perdagangan Mata Wang Mata Wang Terbaik Sepuluh MayaMar 11, 2025 am 10:18 AM

Sepuluh mata wang maya percuma disenaraikan: 1. Platform ini masing -masing mempunyai kelebihan sendiri.

Carta Trend Harga Sejarah Ethereum 2015-2024 Trend Trend Ethereum K-Line Sepuluh TahunCarta Trend Harga Sejarah Ethereum 2015-2024 Trend Trend Ethereum K-Line Sepuluh TahunMar 12, 2025 pm 06:57 PM

Artikel ini mengkaji semula trend harga Ethereum sejak penyenaraiannya pada tahun 2015, dari awal $ 0.31, ia mengalami lonjakan pada tahun 2017 kepada hampir $ 1,400, serta terjun pasaran pada 2018 dan 2022, dan kemudian mencecah rekod tinggi $ 4,891.70 pada tahun 2021, serta rebound dan kestabilan pada tahun 2023. Data artikel meliputi perubahan ketara dalam harga Ethereum sepanjang tahun dan meramalkan trend harga untuk 2024-2025, menyediakan pelabur dengan rujukan sejarah yang komprehensif dan prospek masa depan untuk harga Ethereum. Memahami sejarah turun naik harga Ethereum dan merebut peluang pelaburan!

Platform aplikasi mata wang digital teratas Peringkat Pertukaran Mata Wang Maya Maya pada tahun 2025Platform aplikasi mata wang digital teratas Peringkat Pertukaran Mata Wang Maya Maya pada tahun 2025Mar 13, 2025 pm 06:45 PM

10 platform aplikasi mata wang digital: 1. Okx, 2. Binance, 3. Sokongan harus dipertimbangkan.

Penjenayah siber dapat mencuri cryptocurrency bernilai 1.5 bilion dolar ASPenjenayah siber dapat mencuri cryptocurrency bernilai 1.5 bilion dolar ASMar 16, 2025 am 11:12 AM

Sejak itu, pembekal telah menyiasat bagaimana ini boleh berlaku dan bagaimana ia akan (mudah -mudahan) tidak berlaku lagi pada masa akan datang.

BTFD Coin: Presale yang memecahkan rekodBTFD Coin: Presale yang memecahkan rekodMar 14, 2025 pm 03:15 PM

Pernah tertanya-tanya duit syiling meme mana yang boleh menjadikan pelaburan kecil anda menjadi keuntungan yang berubah-ubah? Dengan pemanasan pasaran Coin Meme pada tahun 2025, pelabur menyelam ke peluang baru, dengan harapan dapat menangkap gelombang besar seterusnya sebelum harga meroket.

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod