ホームページ > 記事 > テクノロジー周辺機器 > Nvidia はプルーニングと蒸留に取り組んでいます。Llama 3.1 8B パラメーターを半分にカットして、同じサイズでより良いパフォーマンスを実現します。
小型モデルの台頭。
先月、Meta は Llama 3.1 シリーズのモデルをリリースしました。これには、Meta のこれまでで最大のモデルである 405B と 2 つの小型モデルが含まれます。パラメータの量はそれぞれ 700 億と 80 億です。
Llama 3.1 は、オープンソースの新時代の到来を告げるものと考えられています。ただし、新世代モデルはパフォーマンスが強力ですが、導入時には依然として大量のコンピューティング リソースが必要です。
したがって、業界では別の傾向が現れています。それは、多くの言語タスクで十分なパフォーマンスを発揮し、導入が非常に安価な小規模言語モデル (SLM) を開発することです。
最近、NVIDIA の研究により、構造化された重み枝刈りと知識の蒸留を組み合わせることで、最初は大きなモデルから徐々に小さな言語モデルを取得できることが示されました。 #🎜🎜 ##### 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#、Meta のチーフ AI サイエンティストである Jann LECun 氏もこの研究を賞賛しました。
NVIDIA 研究チームは、枝刈りと蒸留を経て、Llama 3.1 8B を Llama-3.1-Minitron 4B に改良し、オープンソースにしました。これは、Llama 3.1 オープンソース シリーズにおける Nvidia の最初のリリースです。Llama-3.1-Minitron 4B は、Minitron 4B、Phi-2 2.7B、Gemma2 2.6B、Qwen2-1.5B など、同様のサイズの最先端のオープンソース モデルよりも優れたパフォーマンスを発揮します。
この研究の関連論文は先月早くも発表されました。
紙のリンク: https://www.arxiv.org/pdf/2407.14679
#🎜 🎜#NVIDIA では、枝刈りと古典的な知識の抽出を組み合わせた方法を使用して大規模なモデルを構築しています。次の図は、単一モデルの枝刈りおよび抽出のプロセス (上) とモデルの枝刈りおよび抽出のチェーンを示しています (下)。 )。具体的なプロセスは次のとおりです:
1. NVIDIA は 15B モデルから開始し、各コンポーネント (レイヤー、ニューロン、ヘッド、エンベディング チャネル) の重要性を評価し、モデルをソートおよびプルーニングして作成します。目標サイズに達しました: 8B モデル。 2 次に、元のモデルを教師、枝刈りしたモデルを生徒として、モデル蒸留を使用して軽い再トレーニングを実行しました。 3. トレーニング後、小さいモデル (8B) を開始点として取り、それを枝刈りしてより小さい 4B モデルに蒸留します。 #🎜🎜## ## 注意すべき点は、モデルを枝刈りする前に、モデルのどの部分が重要であるかを理解する必要があるということです。 NVIDIA は、1024 サンプルの小さなキャリブレーション データセットを使用して、関連するすべての次元 (深度、ニューロン、ヘッド、埋め込みチャネル) の情報を同時に計算する、アクティベーション ベースの純粋な重要性評価戦略を提案しています。必要なのは順方向伝播のみです。このアプローチは、勾配情報に依存しバックプロパゲーションを必要とする戦略よりもシンプルでコスト効率が高くなります。 枝刈り中、特定の軸または軸の組み合わせについて枝刈りと重要度推定を繰り返し交互に行うことができます。実証研究では、単一の重要度推定値を使用するだけで十分であり、反復推定では追加の利点がもたらされないことが示されています。古典知識の蒸留を用いた再トレーニング
Rajah 2 di bawah menunjukkan proses penyulingan, di mana model pelajar lapisan N (model cantas) disuling daripada model guru lapisan M (model asal tidak dipangkas). Model pelajar dipelajari dengan meminimumkan gabungan kehilangan output pembenaman, kehilangan logit, dan kerugian khusus pengekod Transformer yang dipetakan ke blok pelajar S dan blok guru T. Rajah 2: Kehilangan latihan penyulingan.
Amalan terbaik untuk pemangkasan dan penyulinganNVIDIA pemangkasan dan model penyulingan berdasarkan pengetahuan penyelidikan ablasi yang meluas, saya meringkaskan hasil pembelajaran saya ke dalam amalan terbaik pemampatan berstruktur berikut.
Pertama ialah melaraskan saiz.Untuk melatih satu set LLM, yang terbesar dilatih terlebih dahulu, dan kemudian dipangkas dan disuling secara berulang untuk mendapatkan LLM yang lebih kecil. Jika strategi latihan pelbagai peringkat digunakan untuk melatih model terbesar, sebaiknya memangkas dan melatih semula model yang diperoleh pada peringkat terakhir latihan.
#🎜🎜 ciri berkuasa #Meta Llama yang dilancarkan baru-baru ini 3.1 keluarga model sumber terbuka adalah setanding dengan model sumber tertutup dalam banyak penanda aras. Parameter Llama 3.1 berjulat daripada 405B besar hingga 70B dan 8B.
#🎜🎜 ##🎜 🎜# penalaan halus guru
Pemangkasan mendalam sahaja
#🎜🎜🎜##🎜🎜 🎜🎜#Tanda Aras Ketepatan
Tanda Aras Prestasi#🎜##🎜🎜🎜🎜🎜 🎜 ## 🎜🎜#penalaan halus guru
5: Kepentingan pemangkasan kedalaman sahaja lapisan tengah.
Walau bagaimanapun, NVIDIA memerhatikan bahawa kerugian LM ini tidak semestinya berkaitan secara langsung dengan prestasi hiliran. Rajah 6 di bawah menunjukkan ketepatan Winogrande bagi setiap model yang dipangkas, yang menunjukkan bahawa adalah yang terbaik untuk memadamkan lapisan ke-16 hingga ke-31, di mana lapisan ke-31 ialah lapisan kedua terakhir, 5 daripada model pangkas -shot ketepatan adalah jauh lebih tinggi daripada ketepatan rawak (0.5). Nvidia mengambil cerapan ini dan mengalih keluar lapisan 16 hingga 31.
Pemangkasan lebar sahaja
NVIDIA membenamkan prun di sepanjang paksi lebar antara media (tersembunyi) dan MLP untuk memampatkan Llama 3.1 8B. Khususnya, mereka menggunakan strategi berasaskan pengaktifan yang diterangkan sebelum ini untuk mengira skor kepentingan bagi setiap kepala perhatian, saluran pembenaman dan dimensi tersembunyi MLP.
Selepas anggaran kepentingan, NVIDIA memilih
untuk memangkas dimensi pertengahan MLP dari 14336 kepada 9216.Pangkas saiz tersembunyi dari 4096 hingga 3072.
Latih semula perhatian kepada bilangan kepala dan bilangan lapisan.
Perlu dinyatakan bahawa selepas pemangkasan sampel tunggal, kehilangan LM pemangkasan lebar adalah lebih tinggi daripada pemangkasan kedalaman. Walau bagaimanapun, selepas tempoh latihan semula yang singkat, arah aliran berubah.
Tanda Aras Ketepatan
NVIDIA menggunakan parameter berikut untuk menyuling model
#🎜##🎜🎜🎜🎜##🎜🎜 #Kadar pembelajaran puncak = 1e-4#🎜🎜 linear Warmup
Cosine Decay Plan
Saiz kelompok global = ###saiz kelompok = 1152🎜🎜 🎜🎜#
Jadual 1 di bawah menunjukkan varian model Llama-3.1-Minitron 4B (pantasan lebar dan pemangkasan kedalaman) berbanding model asal Llama 3.1 8B dan model bersaiz serupa lain pada penanda aras merentas berbilang domain Perbandingan prestasi dalam ujian. Secara keseluruhan, NVIDIA sekali lagi mengesahkan keberkesanan strategi pemangkasan yang luas berbanding pemangkasan mendalam yang mengikut amalan terbaik.untuk Bandingkan.
Untuk mengesahkan sama ada model suling boleh menjadi model arahan yang berkuasa, NVIDIA menggunakan NeMo-Aligner untuk memperhalusi model Llama-3.1-Minitron 4B.Mereka menggunakan data latihan Nemotron-4 340B dan menilai pada IFEval, MT-Bench, ChatRAG-Bench dan Berkeley Function Calling Leaderboard (BFCL) untuk menguji arahan mengikut, main peranan, RAG dan fungsi panggilan fungsi. Akhirnya, telah disahkan bahawa model Llama-3.1-Minitron 4B boleh menjadi model arahan yang boleh dipercayai, mengatasi prestasi SLM asas yang lain. #🎜🎜 ##### 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Jadual 2: Jajarkan ketepatan model penjajaran dengan model penjajaran skala yang serupa.
Tanda Aras Prestasi
NVIDIA memanfaatkan NVIDIA TensorRT-LLM, alat pengoptimuman LLM, alat sumber terbuka ) model Llama 3.1 8B dan Llama-3.1-Minitron 4B yang dioptimumkan.Varian Llama-3.1-Minitron-4B-Depth-Base adalah yang terpantas, dengan daya pemprosesan purata kira-kira 2.7 kali ganda berbanding Llama 3.1 8B, manakala Llama-3.1-Minitron-4B-Width -Varian asas adalah yang terpantas Purata daya pemprosesan varian adalah kira-kira 1.8 kali ganda berbanding Llama 3.1 8B. Penggunaan dalam FP8 juga meningkatkan prestasi ketiga-tiga model sebanyak lebih kurang 1.3x berbanding BF16.
# 🎜🎜# e Figur 1 : BS =32, Llama-3.1-Minitron 4B model BS=64 1x H100 80GB GPU.
Kesimpulan
https://arxiv.org/abs/2407.14679# 🎜🎜#
https://github.com/NVlabs/Minitron
https://huggingface.co/nvidia/Llama- 3.1-Minitron-4B-Width-Base
https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Depth-Base#🎜🎜
Pautan rujukan:
以上がNvidia はプルーニングと蒸留に取り組んでいます。Llama 3.1 8B パラメーターを半分にカットして、同じサイズでより良いパフォーマンスを実現します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。