cari
RumahPeranti teknologiAIModel besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Selepas Google, Meta juga datang untuk melancarkan konteks yang sangat panjang.

Kerumitan kuadratik dan ekstrapolasi panjang yang lemah bagi Transformer mengehadkan keupayaan mereka untuk menskalakan kepada jujukan yang panjang Walaupun penyelesaian kuadratik seperti perhatian linear dan model ruang nyata wujud, dari pengalaman lepas, Mereka berprestasi rendah dari segi kecekapan pra-latihan. dan ketepatan tugas hiliran.

Baru-baru ini, Infini-Transformer yang dicadangkan oleh Google telah menarik perhatian orang ramai dengan memperkenalkan kaedah berkesan yang boleh memanjangkan model bahasa besar (LLM) berasaskan Transformer kepada input yang tidak terhingga panjang tanpa meningkatkan keperluan storan dan pengkomputeran.

Hampir pada masa yang sama, Meta juga mencadangkan teknologi teks yang tidak terhingga panjangnya.

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

  • Alamat kertas: https://arxiv.org/pdf/2404.08801.pdf

  • Tajuk kertas: MEGALODON: Cekap LLM Pralatihan dan Inferens Konteks🜎🜎 / /github.com/XuezheMax/megalodon

  • Dalam kertas kerja yang diserahkan pada 12 April, institusi dari Meta, University of Southern California, CMU, UCSD dan institusi lain memperkenalkan MEGALODON, rangkaian saraf untuk pemodelan jujukan yang cekap, panjang konteks tidak terhad.

  • MEGALODON membangunkan lagi struktur MEGA (Purata Pergerakan Eksponen dengan Perhatian Berpagar) dan memperkenalkan pelbagai komponen teknikal untuk meningkatkan keupayaan dan kestabilannya, termasuk Purata Pergerakan Eksponen Kompleks (CEMA), lapisan normalisasi langkah masa, mekanisme perhatian yang dinormalkan dan sambungan baki pra-normal dengan dua ciri.

Dalam perbandingan langsung dengan LLAMA2, MEGALODON mencapai kecekapan yang lebih baik daripada Transformer pada skala 7 bilion parameter dan 2 trilion token latihan. Kehilangan latihan MEGALODON mencecah 1.70, iaitu antara LLAMA2-7B (1.75) dan 13B (1.67). Penambahbaikan MEGALODON ke atas Transformers menunjukkan prestasi yang kukuh merentas pelbagai penanda aras merentas tugas dan modaliti yang berbeza.

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbukaMEGALODON pada asasnya ialah seni bina MEGA yang dipertingkatkan (Ma et al., 2023), yang menggunakan mekanisme perhatian berpagar dan kaedah purata bergerak eksponen (EMA) klasik. Untuk meningkatkan lagi keupayaan dan kecekapan MEGALODON dalam pra-latihan konteks panjang berskala besar, penulis mencadangkan pelbagai komponen teknikal. Mula-mula, MEGALODON memperkenalkan komponen purata bergerak eksponen kompleks (CEMA) yang memanjangkan EMA lembap berbilang dimensi dalam MEGA kepada domain kompleks. Kedua, MEGALODON mencadangkan lapisan normalisasi langkah masa, yang menyamaratakan lapisan normalisasi kumpulan kepada tugas pemodelan jujukan autoregresif untuk membenarkan normalisasi sepanjang dimensi jujukan.

Untuk meningkatkan kestabilan pra-latihan berskala besar, MEGALODON seterusnya mencadangkan perhatian yang dinormalisasi, serta pra-penormalan dengan konfigurasi baki dua hop dengan mengubah suai kaedah pra-normalisasi dan pasca-normalisasi yang diterima pakai secara meluas. Dengan hanya memotong jujukan input ke dalam ketulan tetap, seperti yang dilakukan dalam ketulan MEGA, MEGALODON mencapai kerumitan pengiraan dan ingatan linear dalam latihan model dan inferens.

Dalam perbandingan langsung dengan LLAMA2, sambil mengawal data dan pengiraan, MEGALODON-7B dengan ketara mengatasi varian Transformer tercanggih yang digunakan untuk melatih LLAMA2-7B dari segi kebingungan latihan. Penilaian pada pemodelan konteks panjang, termasuk kebingungan dalam pelbagai panjang konteks sehingga 2M dan tugasan QA konteks panjang dalam Tatal, menunjukkan keupayaan MEGALODON untuk memodelkan jujukan panjang tak terhingga. Hasil percubaan tambahan pada penanda aras kecil dan sederhana, termasuk LRA, ImageNet, Perintah Pertuturan, WikiText-103, dan PG19 menunjukkan keupayaan MEGALODON pada volum dan pelbagai mod.

Pengenalan kepada kaedah

Pertama sekali, artikel itu mengkaji secara ringkas komponen utama dalam seni bina MEGA (Moving Average Equipped Gated Attention) dan membincangkan masalah yang wujud dalam MEGA. MEGA membenamkan komponen EMA (purata bergerak eksponen) ke dalam pengiraan matriks perhatian untuk menggabungkan bias induktif merentas dimensi langkah masa. Khususnya, EMA terlembap berbilang dimensi mula-mula mengembangkan setiap dimensi jujukan input Borangnya adalah seperti berikut:

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbukaUntuk mengurangkan kerumitan kuadratik dalam mekanisme perhatian penuh, MEGA hanya membahagikan urutan pertanyaan, kunci dan nilai dalam (14-16) kepada ketulan panjang c. Perhatian dalam (17) digunakan pada setiap blok secara individu, menghasilkan kerumitan linear O (kc^2 ) = O (nc).

Secara teknikal, sub-lapisan EMA dalam MEGA membantu menangkap maklumat kontekstual setempat berhampiran setiap token, dengan itu mengurangkan masalah kehilangan maklumat dalam konteks melangkaui sempadan blok. Walaupun MEGA mencapai keputusan yang mengagumkan, ia menghadapi masalah berikut:

i) Disebabkan kuasa ekspresif terhad sub-lapisan EMA dalam MEGA, prestasi MEGA dengan perhatian peringkat blok masih ketinggalan berbanding MEGA tumpuan penuh.

ii) Untuk tugasan dan jenis data yang berbeza, mungkin terdapat perbezaan seni bina dalam seni bina MEGA akhir, seperti lapisan penormalan yang berbeza, mod penormalan dan fungsi perhatian f (・).

iii) Tiada bukti empirikal bahawa skala MEGA untuk pra-latihan berskala besar.

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

CEMA: Memperluaskan EMA redaman multidimensi ke domain kompleks

Untuk menyelesaikan masalah yang dihadapi oleh MEGA, penyelidikan ini mencadangkan MEGALODON.

Secara khusus, mereka secara kreatif mencadangkan purata bergerak eksponen kompleks CEMA (purata bergerak eksponen kompleks), menulis semula persamaan di atas (1) ke dalam bentuk berikut:

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

dan parameterkan θ_j dalam (2) sebagai :

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Penormalan Langkah Masa

Walaupun prestasi penormalan lapisan yang digabungkan dengan Transformer sangat mengagumkan, adalah jelas bahawa penormalan lapisan tidak dapat secara langsung mengurangkan sepanjang dimensi ruang (juga Anjakan kovariat dalaman dipanggil langkah masa atau dimensi jujukan).

Dalam MEGALODON, kajian ini memanjangkan normalisasi kumpulan kepada kes autoregresif dengan mengira min dan varians kumulatif.

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Rajah 2 menggambarkan penormalan lapisan dan penormalan langkah masa.

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Perhatian yang dinormalkan dalam MEGALODON

Selain itu, penyelidikan itu juga mencadangkan mekanisme perhatian ternormal yang disesuaikan khusus untuk MEGA untuk meningkatkan kestabilannya. Bentuknya adalah seperti berikut:

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Kemudian operasi perhatian dalam persamaan di atas (17) ditukar kepada:

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Pra-Norma dengan baki Dua-hop didapati melalui penyiasatan, Meningkatkan saiz model boleh menyebabkan ketidakstabilan pranormalisasi. Pra-normalisasi berdasarkan blok Transformer boleh dinyatakan seperti (ditunjukkan dalam Rajah 3 (b)):

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbukaDalam seni bina MEGA asal, φ (19) digunakan untuk sambungan baki berpagar (21 ) untuk mengurangkan masalah ini. Walau bagaimanapun, gerbang kemas kini φ memperkenalkan lebih banyak parameter model, dan masalah ketidakstabilan masih wujud apabila saiz model dikembangkan kepada 7 bilion. MEGALODON memperkenalkan konfigurasi baharu yang dipanggil pra-norma dengan baki dua hop, yang hanya menyusun semula sambungan baki dalam setiap blok, seperti yang ditunjukkan dalam Rajah 3(c):

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Eksperimen

menilai kebolehskalaan dan kecekapan MEGALODON dalam pemodelan jujukan konteks panjang, makalah ini memanjangkan MEGALODON kepada skala 7 bilion.

LLM pra-latihan

Untuk meningkatkan kecekapan data, penyelidik menunjukkan kemungkinan log negatif (NLL) MEGALODON-7B, LLAMA2-7B dan LLAMA2-13B semasa proses latihan, seperti ditunjukkan dalam Rajah 1.

Di bawah bilangan token latihan yang sama, MEGALODON-7B mencapai NLL yang jauh lebih baik (rendah) daripada LLAMA2-7B, menunjukkan kecekapan data yang lebih baik.

Rajah 4 menggambarkan purata WPS (perkataan/token sesaat) setiap peranti untuk LLAMA2-7B dan MEGALODON-7B masing-masing menggunakan panjang konteks 4K dan 32K. Untuk model LLAMA2, kajian menggunakan Flash-Attention V2 untuk mempercepatkan pengiraan perhatian penuh. Pada panjang konteks 4K, MEGALODON-7B adalah lebih perlahan (~6%) daripada LLAMA2-7B disebabkan pengenalan CEMA dan penormalan langkah masa. Apabila memanjangkan panjang konteks kepada 32K, MEGALODON-7B jauh lebih pantas daripada LLAMA2-7B (kira-kira 32%), yang menunjukkan kecekapan pengiraan MEGALODON untuk pra-latihan konteks yang panjang.

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Penilaian Konteks Ringkas

Jadual 1 meringkaskan keputusan MEGALODON dan LLAMA2 pada penanda aras akademik, serta hasil perbandingan model asas sumber terbuka lain, termasuk MPT, RWKV, dan Gemba, Mistral Selepas pra-latihan pada token 2T yang sama, MEGALODON-7B mengatasi LLAMA2-7B pada semua penanda aras. Pada sesetengah tugas, prestasi MEGALODON-7B adalah setanding atau lebih baik daripada LLAMA2-13B.

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Penilaian konteks panjang

Rajah 5 menunjukkan kebingungan (PPL) set data pengesahan di bawah pelbagai panjang konteks daripada 4K hingga 2M. Dapat diperhatikan bahawa PPL berkurangan secara monoton dengan panjang konteks, mengesahkan keberkesanan dan keteguhan MEGALODON dalam memodelkan urutan yang sangat panjang.

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Penalaan halus arahan

Jadual 3 meringkaskan prestasi model 7B pada MT-Bench. MEGALODON menunjukkan prestasi unggul pada MT-Bench berbanding Vicuna dan setanding dengan LLAMA2-Chat, yang menggunakan RLHF untuk penyelarasan lebih lanjut.

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Penilaian Penanda Aras Skala Sederhana

Untuk menilai prestasi MEGALODON pada tugas pengelasan imej, kajian itu menjalankan eksperimen pada dataset Imagenet-1K. Jadual 4 melaporkan ketepatan Top-1 pada set pengesahan. Ketepatan MEGALODON adalah 1.3% lebih tinggi daripada DeiT-B dan 0.8% lebih tinggi daripada MEGA.

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Jadual 5 menggambarkan kekeliruan peringkat perkataan (PPL) MEGALODON pada PG-19, dan perbandingan dengan model terkini yang terkini, termasuk Compressive Transformer, Perceiver AR, Perceiver AR, Block Loop Transformer dan MEGABYTE, dsb. Prestasi MEGALODON jelas di hadapan.

Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka

Sila rujuk kertas asal untuk butiran lanjut.

Atas ialah kandungan terperinci Model besar teks panjang tanpa had Meta ada di sini: hanya parameter 7B, sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:机器之心. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Let's Dance: Gerakan berstruktur untuk menyempurnakan jaring saraf manusia kitaLet's Dance: Gerakan berstruktur untuk menyempurnakan jaring saraf manusia kitaApr 27, 2025 am 11:09 AM

Para saintis telah mengkaji secara meluas rangkaian saraf manusia dan mudah (seperti yang ada di C. elegans) untuk memahami fungsi mereka. Walau bagaimanapun, soalan penting timbul: Bagaimana kita menyesuaikan rangkaian saraf kita sendiri untuk berfungsi dengan berkesan bersama -sama dengan novel AI s

New Google Leak mendedahkan perubahan langganan untuk Gemini AINew Google Leak mendedahkan perubahan langganan untuk Gemini AIApr 27, 2025 am 11:08 AM

Gemini Google Advanced: Tahap Langganan Baru di Horizon Pada masa ini, mengakses Gemini Advanced memerlukan pelan premium AI $ 19.99/bulan. Walau bagaimanapun, laporan Pihak Berkuasa Android menunjukkan perubahan yang akan datang. Kod dalam google terkini p

Bagaimana Pecutan Analisis Data Menyelesaikan Bots Tersembunyi AIBagaimana Pecutan Analisis Data Menyelesaikan Bots Tersembunyi AIApr 27, 2025 am 11:07 AM

Walaupun gembar -gembur di sekitar keupayaan AI maju, satu cabaran penting bersembunyi dalam perusahaan AI perusahaan: kesesakan pemprosesan data. Walaupun CEO merayakan kemajuan AI, jurutera bergelut dengan masa pertanyaan yang perlahan, saluran paip yang terlalu banyak, a

Markitdown MCP boleh menukar mana -mana dokumen ke Markdowns!Markitdown MCP boleh menukar mana -mana dokumen ke Markdowns!Apr 27, 2025 am 09:47 AM

Dokumen pengendalian tidak lagi hanya mengenai pembukaan fail dalam projek AI anda, ia mengenai mengubah kekacauan menjadi kejelasan. Dokumen seperti PDF, PowerPoints, dan perkataan banjir aliran kerja kami dalam setiap bentuk dan saiz. Mengambil semula berstruktur

Bagaimana cara menggunakan Google ADK untuk ejen bangunan? - Analytics VidhyaBagaimana cara menggunakan Google ADK untuk ejen bangunan? - Analytics VidhyaApr 27, 2025 am 09:42 AM

Memanfaatkan kuasa Kit Pembangunan Ejen Google (ADK) untuk membuat ejen pintar dengan keupayaan dunia sebenar! Tutorial ini membimbing anda melalui membina ejen perbualan menggunakan ADK, menyokong pelbagai model bahasa seperti Gemini dan GPT. W

Penggunaan SLM Over LLM untuk Penyelesaian Masalah Berkesan - Analisis VidhyaPenggunaan SLM Over LLM untuk Penyelesaian Masalah Berkesan - Analisis VidhyaApr 27, 2025 am 09:27 AM

Ringkasan: Model bahasa kecil (SLM) direka untuk kecekapan. Mereka lebih baik daripada model bahasa yang besar (LLM) dalam persekitaran yang kurang sensitif, masa nyata dan privasi. Terbaik untuk tugas-tugas berasaskan fokus, terutamanya di mana kekhususan domain, kawalan, dan tafsiran lebih penting daripada pengetahuan umum atau kreativiti. SLMs bukan pengganti LLM, tetapi mereka sesuai apabila ketepatan, kelajuan dan keberkesanan kos adalah kritikal. Teknologi membantu kita mencapai lebih banyak sumber. Ia sentiasa menjadi promoter, bukan pemandu. Dari era enjin stim ke era gelembung internet, kuasa teknologi terletak pada tahap yang membantu kita menyelesaikan masalah. Kecerdasan Buatan (AI) dan AI Generatif Baru -baru ini tidak terkecuali

Bagaimana cara menggunakan model Google Gemini untuk tugas penglihatan komputer? - Analytics VidhyaBagaimana cara menggunakan model Google Gemini untuk tugas penglihatan komputer? - Analytics VidhyaApr 27, 2025 am 09:26 AM

Memanfaatkan kekuatan Google Gemini untuk Visi Komputer: Panduan Komprehensif Google Gemini, chatbot AI terkemuka, memanjangkan keupayaannya di luar perbualan untuk merangkumi fungsi penglihatan komputer yang kuat. Panduan ini memperincikan cara menggunakan

Gemini 2.0 Flash vs O4-Mini: Bolehkah Google lebih baik daripada Openai?Gemini 2.0 Flash vs O4-Mini: Bolehkah Google lebih baik daripada Openai?Apr 27, 2025 am 09:20 AM

Landskap AI pada tahun 2025 adalah elektrik dengan kedatangan Flash Gemini 2.0 Google dan Openai's O4-mini. Model-model canggih ini, yang dilancarkan minggu-minggu, mempunyai ciri-ciri canggih yang setanding dan skor penanda aras yang mengagumkan. Perbandingan mendalam ini

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual

SublimeText3 versi Inggeris

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!