Rumah >Peranti teknologi >AI >Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu

Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu

王林ke hadapan: 2024-04-15 09:10:061260semak imbas

Daripada mengambil laluan biasa Transformer, kami mengubah suai seni bina domestik baharu RNN RWKV dan membuat kemajuan baharu:

mencadangkan dua seni bina RWKV baharu, iaitu Eagle (RWKV-5)

RWKV-6)

. Dua model jujukan ini adalah berdasarkan seni bina RWKV-4 dan kemudian dipertingkatkan. Kemajuan reka bentuk dalam seni bina baharu termasuk keadaan bernilai matriks berbilang kepala(keadaan bernilai matriks berbilang kepala) dan

mekanisme pengulangan dinamik

(mekanisme pengulangan dinamik)

meningkatkan keupayaan ekspresif ini model RWKV, manakala Mengekalkan ciri kecekapan inferens RNN. Pada masa yang sama, seni bina baharu memperkenalkan korpus berbilang bahasa baharu yang mengandungi 1.12 trilion token.

Pasukan ini juga membangunkan tokenizer pantas berdasarkan padanan tamak

untuk meningkatkan kepelbagaian bahasa RWKV.

Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu Pada masa ini, 4 model Eagle dan 2 model Finch telah dikeluarkan pada Huo Hua Face~

Model baharu Eagle dan Finch

RWKV yang dikemas kini ini mengandungi sejumlah 6 model iaitu : (RWKV-5)Model
: 0.4B, 1.5B, 3B, 7B saiz parameter masing-masing 2 Finch(RWKV-6)Model

: Saiz parameter masing-masing ialah 1.B6. Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu

Eagle menambah baik seni bina dan pereputan pembelajaran yang dipelajari daripada RWKV-4 dengan menggunakan keadaan bernilai matriks berbilang kepala

(bukannya keadaan bernilai vektor)

, keadaan penerimaan yang distruktur semula dan jadual penerimaan tambahan. Finch meningkatkan lagi keupayaan prestasi dan fleksibiliti seni bina dengan memperkenalkan fungsi berkaitan data baharu

untuk modul pencampuran masa dan anjakan token, termasuk interpolasi linear berparameter.

Selain itu, Finch mencadangkan penggunaan baharu fungsi penyesuaian peringkat rendah untuk membolehkan matriks berat boleh dilatih untuk menambah vektor pereputan data yang dipelajari secara berkesan dalam cara yang sensitif konteks. Akhirnya, seni bina RWKV baharu memperkenalkan tokenizer baharu RWKV World Tokenizer, dan set data baharu

RWKV World v2, yang kedua-duanya digunakan untuk meningkatkan prestasi data RWKV dan pada model berbilang bahasa . Tokenizer baharu RWKV World Tokenizer mengandungi perkataan daripada bahasa luar biasa, dan melakukan tokenisasi pantas melalui padanan tamak berasaskan Trie

(padanan tamak)

Dataset baharu RWKV World v2 ialah set data token 1.12T berbilang bahasa baharu, diambil daripada pelbagai sumber data yang tersedia secara terbuka yang dipilih sendiri.

Dalam komposisi datanya, kira-kira 70% ialah data Bahasa Inggeris, 15% ialah data berbilang bahasa dan 15% ialah data kod.

Apakah keputusan penanda aras?

Inovasi seni bina sahaja tidak mencukupi, kuncinya terletak pada prestasi sebenar model.

Mari kita lihat keputusan model baharu pada senarai penilaian berwibawa utama -

Keputusan ujian MQARMQAR

(Model Menilai Tugasan Berbilang Tugasan)

, direka untuk menguji keupayaan ingatan bersekutu model di bawah berbilang pertanyaan.

Dalam jenis tugasan ini, model perlu mendapatkan semula maklumat yang berkaitan diberikan berbilang pertanyaan.

Matlamat tugas MQAR adalah untuk mengukur keupayaan model untuk mendapatkan maklumat di bawah pelbagai pertanyaan, serta kebolehsuaian dan ketepatannya kepada pertanyaan yang berbeza.

Gambar di bawah menunjukkan keputusan ujian tugasan MQAR bagi seni bina bukan Transformer RWKV-4, Eagle, Finch dan lain-lain. Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu

Dapat dilihat bahawa dalam ujian ketepatan tugas MQAR, prestasi ketepatan Finch dalam pelbagai ujian panjang jujukan adalah sangat stabil Berbanding dengan RWKV-4, RWKV-5 dan model seni bina bukan Transformer yang lain, Prestasi ketara. kelebihan.

Eksperimen konteks panjang

Kedudukan kehilangan dan urutan RWKV-4, Eagle dan Finch bermula dari 2048 token telah diuji pada set ujian PG19.

(Semua model adalah pra-latihan berdasarkan panjang konteks 4096)

. Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu

Hasil ujian menunjukkan bahawa Eagle telah meningkat dengan ketara berbanding RWKV-4 pada tugasan urutan yang panjang, manakala Finch, yang dilatih dengan panjang konteks 4096, berprestasi lebih baik daripada Eagle dan boleh menyesuaikan diri dengan lebih daripada 20,000 konteks secara automatik .

Tanda Aras Kelajuan dan Memori

🎜Dalam tanda aras kelajuan dan ingatan, pasukan membandingkan kelajuan dan penggunaan memori inti seperti Perhatian Finch, Mamba dan Flash Attention. 🎜

Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu

Dapat dilihat bahawa Finch sentiasa lebih baik daripada Mamba dan Flash Attention dari segi penggunaan memori, dan penggunaan memori masing-masing adalah 40% dan 17% kurang daripada Flash Attention dan Mamba.

multi-bahasa prestasi tugas-jepun

Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu Japanese

Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu spanish

Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu arabic

Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu japanese-english

next workabove content penyelidikan, diterbitkan oleh RWKV Foundation The Paper terbaru

"Eagle and Finch: RWKV dengan Negeri Bernilai Matriks dan Ulangan Dinamik"

Kertas kerja itu disiapkan bersama oleh pengasas RWKV Bo PENG

(Bloomberg) Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu dan ahli komuniti sumber terbuka RWKV.

co-pengarang Bloomberg, lulus dari

Hong Kong University-Jabatan Fizik, dengan 20+ tahun pengalaman pengaturcaraan. untuk dagangan kuantitatif frekuensi tinggi.

Juga menerbitkan buku tentang rangkaian konvolusi yang mendalam "Rangkaian Konvolusi Dalam · Prinsip dan Amalan".

Fokus dan minat utamanya terletak pada pembangunan perisian dan perkakasan dalam temu bual awam sebelum ini, dia telah menjelaskan bahawa AIGC adalah minatnya, terutamanya generasi novel.

Pada masa ini, Bloomberg mempunyai 2.1k pengikut di Github. Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu

Tetapi identiti awamnya yang paling penting ialah pengasas bersama syarikat pencahayaan, Xinlin Technology, yang kebanyakannya membuat lampu matahari, lampu siling, lampu meja mudah alih dan sebagainya.

Dan dia sepatutnya menjadi pencinta kucing senior Terdapat kucing oren pada avatar Github, Zhihu dan WeChat, serta pada laman web rasmi syarikat pencahayaan dan Weibo. Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu

Qubit mengetahui bahawa kerja berbilang modal semasa RWKV termasuk RWKV Music (arah muzik) dan VisualRWKV

(arah imej)

Meluaskan korpus latihan untuk menjadikannya lebih pelbagai (ini adalah perkara penting untuk meningkatkan prestasi model)
Melatih dan mengeluarkan versi Finch yang lebih besar, seperti parameter 7B dan 14B, dan meningkatkan lagi prestasinya dengan mengurangkan kos inferens dan latihan melalui KPM.
Pengoptimuman lanjut pelaksanaan CUDA Finch (termasuk penambahbaikan algoritma), membawa peningkatan kelajuan dan kesejajaran yang lebih besar.

Pautan kertas:

https://arxiv.org/pdf/2404.05892.pdf

Atas ialah kandungan terperinci Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构递归 github 算法 rnn transformer https AIGC Foundation

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Al Agent--Satu hala tuju pelaksanaan yang penting dalam era model besarArtikel seterusnya：Al Agent--Satu hala tuju pelaksanaan yang penting dalam era model besar

Artikel berkaitan

Lihat lagi