cari
RumahPeranti teknologiAIKerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Meta FAIR Projek penyelidikan yang disertai Tian Yuandong menerima pujian meluas bulan lepas. Dalam kertas kerja mereka "MobileLLM: Mengoptimumkan Model Bahasa Parameter Sub-bilion untuk Kes Penggunaan Pada Peranti", mereka mula meneroka cara mengoptimumkan model kecil dengan kurang daripada 1 bilion parameter, bertujuan untuk mencapai matlamat menjalankan model bahasa besar pada peranti mudah alih .

Pada 6 Mac, pasukan Tian Yuandong mengeluarkan hasil penyelidikan terkini, kali ini memfokuskan pada meningkatkan kecekapan memori LLM. Selain Tian Yuandong sendiri, pasukan penyelidik juga termasuk penyelidik dari California Institute of Technology, University of Texas di Austin, dan CMU. Penyelidikan ini bertujuan untuk mengoptimumkan lagi prestasi memori LLM dan memberikan sokongan dan bimbingan untuk pembangunan teknologi masa hadapan.

Mereka bersama-sama mencadangkan strategi latihan yang dipanggil GaLore (Gradient Low-Rank Projection), yang membolehkan pembelajaran parameter penuh Berbanding dengan kaedah penyesuaian peringkat rendah biasa seperti LoRA, GaLore mempunyai kecekapan Memori yang lebih tinggi.

Kajian ini menunjukkan buat kali pertama bahawa model 7B boleh dilatih dengan jayanya pada GPU pengguna dengan memori 24GB (cth. NVIDIA RTX 4090) tanpa menggunakan strategi selari model, pemeriksaan atau pemunggahan. . Kandungan utama artikel.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatihPada masa ini, Model Bahasa Besar (LLM) telah menunjukkan potensi yang luar biasa dalam banyak bidang, tetapi kita juga mesti menghadapi masalah sebenar, iaitu pra-latihan dan penalaan halus LLM bukan sahaja memerlukan sejumlah besar sumber pengkomputeran, tetapi juga memerlukan sejumlah besar sokongan memori.

Keperluan memori LLM termasuk bukan sahaja parameter dalam berbilion-bilion, tetapi juga kecerunan dan Keadaan Pengoptimum (seperti momentum kecerunan dan varians dalam Adam), yang boleh lebih besar daripada storan itu sendiri. Contohnya, LLaMA 7B, dipralatih dari awal menggunakan saiz kelompok tunggal, memerlukan sekurang-kurangnya 58 GB memori (14 GB untuk parameter boleh dilatih, 42 GB untuk Adam Optimizer States dan kecerunan berat dan 2 GB untuk pengaktifan). Ini menjadikan latihan LLM tidak dapat dilaksanakan pada GPU gred pengguna seperti NVIDIA RTX 4090 dengan memori 24GB.

Untuk menyelesaikan masalah di atas, penyelidik terus membangunkan pelbagai teknik pengoptimuman untuk mengurangkan penggunaan memori semasa pra-latihan dan penalaan halus.

Kaedah ini mengurangkan penggunaan memori sebanyak 65.5% di bawah Negeri Pengoptimum, sambil mengekalkan kecekapan dan prestasi pra-latihan pada seni bina LLaMA 1B dan 7B menggunakan set data C4 dengan token sehingga 19.7B, dan dalam GLUE Penalaan Halus kecekapan dan prestasi RoBERTa pada tugas. Berbanding dengan garis dasar BF16, GaLore 8-bit seterusnya mengurangkan memori pengoptimum sebanyak 82.5% dan jumlah memori latihan sebanyak 63.3%.

Selepas melihat penyelidikan ini, netizen berkata: "Sudah tiba masanya untuk melupakan awan dan HPC. Dengan GaLore, semua AI4Science akan disiapkan pada GPU gred pengguna $2,000

berkata: "Dengan GaLore, kini mungkin untuk melatih model 7B dalam NVidia RTX 4090s dengan memori 24G.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatihKami tidak menganggap struktur berat peringkat rendah seperti LoRA, tetapi membuktikan bahawa kecerunan berat secara semula jadi rendah- rank , dan dengan itu boleh diunjurkan ke dalam ruang dimensi rendah (berbeza-beza) Oleh itu, kami pada masa yang sama menyimpan memori untuk kecerunan, momentum Adam dan varians

Oleh itu, tidak seperti LoRA, GaLore tidak mengubah dinamik latihan dan boleh. digunakan dari awal. Mulakan pra-latihan model 7B tanpa sebarang pemanasan yang memakan memori juga boleh digunakan untuk penalaan halus, menghasilkan hasil yang setanding dengan LoRA.

Pengenalan Kaedah

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatihSeperti yang dinyatakan sebelum ini, GaLore ialah strategi latihan yang membolehkan pembelajaran parameter penuh, tetapi lebih cekap memori daripada kaedah penyesuaian peringkat rendah biasa (seperti LoRA). Idea utama GaLore adalah untuk menggunakan struktur peringkat rendah yang berubah secara perlahan bagi kecerunan

matriks berat W, dan bukannya cuba menganggarkan secara langsung matriks berat ke dalam bentuk peringkat rendah.

Artikel ini terlebih dahulu secara teori membuktikan bahawa matriks kecerunan G akan menjadi peringkat rendah semasa proses latihan Berdasarkan teori, artikel ini menggunakan GaLore untuk mengira dua matriks unjuran Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih dan Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih untuk menayangkan matriks kecerunan G ke dalam. Borang peringkat rendah P^⊤GQ. Dalam kes ini, kos memori Negeri Pengoptimum yang bergantung pada statistik kecerunan komponen boleh dikurangkan dengan ketara. Seperti yang ditunjukkan dalam Jadual 1, GaLore lebih cekap ingatan daripada LoRA. Malah, ini boleh mengurangkan ingatan sehingga 30% semasa pra-latihan berbanding LoRA.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Artikel ini membuktikan bahawa GaLore menunjukkan prestasi yang baik dalam pra-latihan dan penalaan halus. Semasa pra-latihan LLaMA 7B pada set data C4, GaLore 8-bit menggabungkan teknologi kemas kini berat 8-bit dan lapisan demi lapisan untuk mencapai prestasi yang setanding dengan kedudukan penuh dengan kos memori kurang daripada 10% dalam keadaan pengoptimum.

Perlu diingat bahawa untuk pra-latihan, GaLore mengekalkan daya ingatan yang rendah sepanjang proses latihan tanpa memerlukan latihan peringkat penuh seperti ReLoRA. Terima kasih kepada kecekapan memori GaLore, buat pertama kalinya, LLaMA 7B boleh dilatih dari awal pada satu GPU dengan memori 24GB (cth., pada NVIDIA RTX 4090) tanpa memerlukan sebarang teknik pemunggahan memori yang mahal (Rajah 1).

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Sebagai kaedah unjuran kecerunan, GaLore adalah bebas daripada pilihan pengoptimum dan boleh dipalamkan dengan mudah ke pengoptimum sedia ada dengan hanya dua baris kod, seperti yang ditunjukkan dalam Algoritma 1.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Angka berikut menunjukkan algoritma untuk menggunakan GaLore kepada Adam:

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Eksperimen dan keputusan

Penyelidik yang telah menguji dan menilai. Semua eksperimen dilakukan pada NVIDIA A100 GPU.

Untuk menilai prestasinya, para penyelidik menggunakan GaLore untuk melatih model bahasa besar berdasarkan LLaMA pada set data C4. Set data C4 ialah versi korpus rangkak web Common Crawl yang besar dan bersih, digunakan terutamanya untuk melatih model bahasa dan perwakilan perkataan. Untuk mensimulasikan terbaik senario pra-latihan sebenar, para penyelidik melatih jumlah data yang cukup besar tanpa menduplikasi data, dengan saiz model antara sehingga 7 bilion parameter.

Makalah ini mengikuti persediaan percubaan Lialin et al., menggunakan seni bina berasaskan LLaMA3 dengan pengaktifan RMSNorm dan SwiGLU. Untuk setiap saiz model, kecuali untuk kadar pembelajaran, mereka menggunakan set hiperparameter yang sama dan menjalankan semua eksperimen dalam format BF16 untuk mengurangkan penggunaan memori sambil melaraskan kadar pembelajaran untuk setiap kaedah dengan belanjawan pengiraan yang sama dan melaporkan prestasi optimum.

Selain itu, para penyelidik menggunakan tugas GLUE sebagai penanda aras untuk penalaan halus GaLore dan LoRA yang cekap ingatan. GLUE ialah penanda aras untuk menilai prestasi model NLP dalam pelbagai tugas, termasuk analisis sentimen, menjawab soalan dan korelasi teks.

Kertas ini mula-mula menggunakan pengoptimum Adam untuk membandingkan GaLore dengan kaedah peringkat rendah sedia ada, dan hasilnya ditunjukkan dalam Jadual 2.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Penyelidik telah membuktikan bahawa GaLore boleh digunakan untuk pelbagai algoritma pembelajaran, terutamanya pengoptimum yang cekap memori, untuk mengurangkan lagi penggunaan memori. Para penyelidik menggunakan GaLore pada pengoptimum AdamW, 8-bit Adam, dan Adafactor. Mereka menggunakan Adafaktor statistik pesanan pertama untuk mengelakkan kemerosotan prestasi.

Percubaan menilai mereka pada seni bina LLaMA 1B dengan 10K langkah latihan, menala kadar pembelajaran untuk setiap tetapan dan melaporkan prestasi terbaik. Seperti yang ditunjukkan dalam Rajah 3, graf di bawah menunjukkan bahawa GaLore berfungsi dengan pengoptimum popular seperti AdamW, Adam 8-bit dan Adafactor. Tambahan pula, memperkenalkan sangat sedikit hiperparameter tidak menjejaskan prestasi GaLore.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Seperti yang ditunjukkan dalam Jadual 4, GaLore boleh mencapai prestasi yang lebih tinggi daripada LoRA dengan penggunaan memori yang kurang dalam kebanyakan tugas. Ini menunjukkan bahawa GaLore boleh digunakan sebagai strategi latihan cekap memori tindanan penuh untuk pra-latihan dan penalaan halus LLM.

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Seperti yang ditunjukkan dalam Rajah 4, berbanding dengan penanda aras BF16 dan 8 bit Adam, 8 bit GaLore memerlukan lebih sedikit memori, hanya memerlukan memori 22.0G apabila pra-latihan LLaMA 7B, dan setiap saiz kumpulan GPU adalah token lebih kecil (sehingga 500 token).

Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Untuk butiran lanjut teknikal, sila baca kertas asal.

Atas ialah kandungan terperinci Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Elakkan 5 kesilapan biasa ini di AI yang setiap orang baru membuatElakkan 5 kesilapan biasa ini di AI yang setiap orang baru membuatApr 18, 2025 am 11:25 AM

Memulakan perjalanan AI anda? Elakkan perangkap biasa ini! Panduan ini menyoroti lima pemula kesilapan yang kerap membuat dan menawarkan penyelesaian untuk pengalaman pembelajaran yang lebih lancar dan lebih berjaya. Takeaways Kunci: Menguasai fundamental AI sebelum mengatasi masalah

Tech dengan hormat: AI dan Kuasa Komuniti Orang AsliTech dengan hormat: AI dan Kuasa Komuniti Orang AsliApr 18, 2025 am 11:21 AM

Jawapannya kompleks. AI membawa potensi besar untuk menyokong penentuan nasib sendiri, pemeliharaan bahasa, dan pengawasan iklim. Tetapi ia juga risiko memperdalam corak pemadaman, eksploitasi, dan pengecualian yang lama-kecuali jika ia berlaku

Kesan ejen AI maya mengenai pengalaman produk digitalKesan ejen AI maya mengenai pengalaman produk digitalApr 18, 2025 am 11:13 AM

Revolusi Perkhidmatan Pelanggan: Kebangkitan Ejen AI Maya dalam Sistem Maklumat Bersepadu Dalam landskap digital yang pesat berkembang, perniagaan sentiasa mencari cara inovatif untuk meningkatkan komunikasi pelanggan. Integrasi

Google bersalah sekali lagi, Meta di Percubaan, Openai Social, IR Rolls Up Touchcast AIGoogle bersalah sekali lagi, Meta di Percubaan, Openai Social, IR Rolls Up Touchcast AIApr 18, 2025 am 11:10 AM

Pada 17 April 2025, Hakim Daerah A.S. Leonie Brinkema memutuskan bahawa Google telah memonopoli segmen utama pasaran pengiklanan digital secara haram. Mahkamah memutuskan bahawa Google menyalahgunakan dominasinya dengan mengikat pelayan iklan penerbit dan pertukaran iklannya,

AV Bytes: Inovasi AI Mingguan yang menampilkan SearchGPT, Llama 3.1 dan banyak lagiAV Bytes: Inovasi AI Mingguan yang menampilkan SearchGPT, Llama 3.1 dan banyak lagiApr 18, 2025 am 11:06 AM

Satu kejayaan besar dalam bidang AI minggu ini! Av Bytes membawa anda kemajuan terkini dalam bidang AI, dan kegembiraan tidak boleh dilepaskan! Masa depan enjin carian? Openai's SearchGPT, Meta's Llama 3.1, dan Model 2 besar Mistral AI semua menolak AI ke ketinggian baru. Di samping itu, AI memenangi pingat dalam Olimpik Matematik dan menunjukkan potensi melampaui doktor manusia dalam bidang diagnosis perubatan. Semua ini menunjukkan bahawa fiksyen sains secara beransur -ansur menjadi realiti! Sorotan minggu ini: Openai's SearchGPT: Prototaip enjin carian baru yang menggunakan teknologi pemprosesan bahasa semulajadi maju untuk meningkatkan kecekapan pengambilan maklumat. Meta's Llama 3.1: Merangkul

Apakah rantaian ketumpatan dalam kejuruteraan segera? - Analytics VidhyaApakah rantaian ketumpatan dalam kejuruteraan segera? - Analytics VidhyaApr 18, 2025 am 11:04 AM

Menguasai rantaian ketumpatan dalam kejuruteraan segera: Buat arahan ringkas dan berkesan Dalam pemprosesan bahasa semulajadi (NLP) dan kecerdasan buatan, menguasai kejuruteraan segera menjadi penting. Kemahiran ini menggabungkan sains dan seni, dan ia melibatkan dengan teliti merancang arahan yang tepat untuk membimbing model AI untuk menghasilkan hasil yang diinginkan. Di antara banyak teknologi, rantai ketumpatan menonjol sebagai cara yang kuat untuk mewujudkan tip ringkas dan berkesan. Artikel ini secara mendalam meneroka konsep, penerapan rantai ketumpatan dalam kejuruteraan tip dan kepentingan mereka dalam penciptaan kandungan yang didorong oleh AI. Gambaran Keseluruhan Petua mengenai kaedah rantaian ketumpatan dalam kejuruteraan adalah penting dalam NLP dan AI. Secara beransur -ansur meningkatkan pelbagai ringkasan dengan memampatkan dan menambah maklumat yang relevan.

Elevenlabs API: Panduan untuk Sintesis Suara, Pengklonan, dan banyak lagiElevenlabs API: Panduan untuk Sintesis Suara, Pengklonan, dan banyak lagiApr 18, 2025 am 10:59 AM

Elevenlabs: merevolusikan sintesis suara dengan AI Mengubah teks menjadi suara yang menawan dengan mudah dengan sintesis suara dan penyelesaian audio AI ElevenLabs. Panduan ini meneroka ciri utama ElevenLabs, menyediakan demo API praktikal

Membangun Carian Persamaan Imej yang cekap dengan VGG16 dan FAIMembangun Carian Persamaan Imej yang cekap dengan VGG16 dan FAIApr 18, 2025 am 10:56 AM

Pengambilan Imej Rapid: Membina Sistem Carian Kesamaan Berkelajuan Tinggi dengan VGG16 dan Faiss Bayangkan kekecewaan mencari secara manual melalui foto -foto yang tidak terhingga untuk mencari imej tertentu. Artikel ini menerangkan penyelesaian: membina kilat cepat

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual

PhpStorm versi Mac

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

MantisBT

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

Versi Mac WebStorm

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna