検索
ホームページテクノロジー周辺機器AINvidia はプルーニングと蒸留に取り組んでいます。Llama 3.1 8B パラメーターを半分にカットして、同じサイズでより良いパフォーマンスを実現します。

小型モデルの台頭。

先月、Meta は Llama 3.1 シリーズのモデルをリリースしました。これには、Meta のこれまでで最大のモデルである 405B と 2 つの小型モデルが含まれます。パラメータの量はそれぞれ 700 億と 80 億です。

Llama 3.1 は、オープンソースの新時代の到来を告げるものと考えられています。ただし、新世代モデルはパフォーマンスが強力ですが、導入時には依然として大量のコンピューティング リソースが必要です。

したがって、業界では別の傾向が現れています。それは、多くの言語タスクで十分なパフォーマンスを発揮し、導入が非常に安価な小規模言語モデル (SLM) を開発することです。

最近、NVIDIA の研究により、構造化された重み枝刈りと知識の蒸留を組み合わせることで、最初は大きなモデルから徐々に小さな言語モデルを取得できることが示されました。 #🎜🎜 ##### 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#、Meta のチーフ AI サイエンティストである Jann LECun 氏もこの研究を賞賛しました。

英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强
NVIDIA 研究チームは、枝刈りと蒸留を経て、Llama 3.1 8B を Llama-3.1-Minitron 4B に改良し、オープンソースにしました。これは、Llama 3.1 オープンソース シリーズにおける Nvidia の最初のリリースです。

Llama-3.1-Minitron 4B は、Minitron 4B、Phi-2 2.7B、Gemma2 2.6B、Qwen2-1.5B など、同様のサイズの最先端のオープンソース モデルよりも優れたパフォーマンスを発揮します。

この研究の関連論文は先月早くも発表されました。

英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强

紙のリンク: https://www.arxiv.org/pdf/2407.14679

#🎜 🎜#
英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强論文タイトル: 剪定と知識の蒸留によるコンパクト言語モデル
  • 剪定と蒸留
  • # 🎜 🎜#
  • 枝刈りを行うと、モデルがより小さくスリムになります。これは、レイヤーを削除する (深さ枝刈り) か、ニューロンとアテンション ヘッドを削除してチャネルを埋め込む (幅枝刈り) ことで実現できます。通常、プルーニングには、精度を回復するためのある程度の再トレーニングが伴います。

    モデルの蒸留は、大規模で複雑なモデル (教師モデルと呼ばれることが多い) から、より小さく単純な学生モデルに知識を伝達するための手法です。目標は、元のより大きなモデルの予測能力の多くを維持しながら、より高速に実行し、リソースの消費を少なくする、より効率的なモデルを作成することです。
主な蒸留方法は 2 つあります: SDG ファインチューニングと古典的な知識の蒸留 これら 2 つの蒸留方法は補完的です。この記事では、古典的な知識の蒸留方法に焦点を当てます。

NVIDIA では、枝刈りと古典的な知識の抽出を組み合わせた方法を使用して大規模なモデルを構築しています。次の図は、単一モデルの枝刈りおよび抽出のプロセス (上) とモデルの枝刈りおよび抽出のチェーンを示しています (下)。 )。具体的なプロセスは次のとおりです:

1. NVIDIA は 15B モデルから開始し、各コンポーネント (レイヤー、ニューロン、ヘッド、エンベディング チャネル) の重要性を評価し、モデルをソートおよびプルーニングして作成します。目標サイズに達しました: 8B モデル。

2 次に、元のモデルを教師、枝刈りしたモデルを生徒として、モデル蒸留を使用して軽い再トレーニングを実行しました。

3. トレーニング後、小さいモデル (8B) を開始点として取り、それを枝刈りしてより小さい 4B モデルに蒸留します。 #🎜🎜## ##

注意すべき点は、モデルを枝刈りする前に、モデルのどの部分が重要であるかを理解する必要があるということです。 NVIDIA は、1024 サンプルの小さなキャリブレーション データセットを使用して、関連するすべての次元 (深度、ニューロン、ヘッド、埋め込みチャネル) の情報を同時に計算する、アクティベーション ベースの純粋な重要性評価戦略を提案しています。必要なのは順方向伝播のみです。このアプローチは、勾配情報に依存しバックプロパゲーションを必要とする戦略よりもシンプルでコスト効率が高くなります。

枝刈り中、特定の軸または軸の組み合わせについて枝刈りと重要度推定を繰り返し交互に行うことができます。実証研究では、単一の重要度推定値を使用するだけで十分であり、反復推定では追加の利点がもたらされないことが示されています。

古典知識の蒸留を用いた再トレーニング

Rajah 2 di bawah menunjukkan proses penyulingan, di mana model pelajar lapisan N (model cantas) disuling daripada model guru lapisan M (model asal tidak dipangkas). Model pelajar dipelajari dengan meminimumkan gabungan kehilangan output pembenaman, kehilangan logit, dan kerugian khusus pengekod Transformer yang dipetakan ke blok pelajar S dan blok guru T. Rajah 2: Kehilangan latihan penyulingan.

英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强

Amalan terbaik untuk pemangkasan dan penyulinganNVIDIA pemangkasan dan model penyulingan berdasarkan pengetahuan penyelidikan ablasi yang meluas, saya meringkaskan hasil pembelajaran saya ke dalam amalan terbaik pemampatan berstruktur berikut.

Pertama ialah melaraskan saiz.

Untuk melatih satu set LLM, yang terbesar dilatih terlebih dahulu, dan kemudian dipangkas dan disuling secara berulang untuk mendapatkan LLM yang lebih kecil.

Jika strategi latihan pelbagai peringkat digunakan untuk melatih model terbesar, sebaiknya memangkas dan melatih semula model yang diperoleh pada peringkat terakhir latihan.
  • Pangkas model sumber yang tersedia paling hampir dengan saiz sasaran.
  • Yang kedua ialah pemangkasan.
  • Utamakan pemangkasan lebar berbanding pemangkasan kedalaman, yang berfungsi dengan baik untuk model di bawah saiz parameter 15B.

Gunakan anggaran kepentingan satu pukulan kerana tiada faedah daripada anggaran kepentingan berulang.
  • Yang ketiga ialah melatih semula.
  • Hanya gunakan kehilangan penyulingan untuk latihan semula dan bukannya latihan biasa.

Gunakan logit, keadaan pertengahan dan penyulingan benam apabila kedalaman berkurangan dengan ketara.
  • Gunakan penyulingan logit sahaja apabila kedalaman tidak berkurangan dengan ketara.
  • Llama-3.1-Minitron: Melaksanakan amalan terbaik
  • #🎜🎜 ciri berkuasa #Meta Llama yang dilancarkan baru-baru ini 3.1 keluarga model sumber terbuka adalah setanding dengan model sumber tertutup dalam banyak penanda aras. Parameter Llama 3.1 berjulat daripada 405B besar hingga 70B dan 8B.

  • Dengan pengalaman penyulingan Nemotron, NVIDIA berhasrat untuk menyaring model Llama 3.1 8B menjadi model 4B yang lebih kecil dan lebih cekap, mengambil langkah berikut:

#🎜🎜 ##🎜 🎜# penalaan halus guru

Pemangkasan mendalam sahaja

#🎜🎜🎜##🎜🎜 🎜🎜#
  • Tanda Aras Ketepatan

  • Tanda Aras Prestasi#🎜##🎜🎜🎜🎜🎜 🎜 ## 🎜🎜#penalaan halus guru

  • Untuk membetulkan bias pengedaran set data asal yang menjadi asas latihan model, NVIDIA mula-mula melatih model 8B yang tidak dipangkas pada mereka set data (token 94B) Ditala halus. Eksperimen menunjukkan bahawa jika bias pengedaran tidak diperbetulkan, model guru menyediakan panduan suboptimum untuk set data semasa penyulingan.

  • Pemangkasan mendalam sahaja
  • Untuk mengurangkan daripada 8B kepada 4B, NVIDIA memangkas 16 lapisan (50%). Mula-mula mereka menilai kepentingan setiap lapisan atau kumpulan sub-lapisan berturut-turut dengan mengalih keluarnya daripada model dan memerhatikan peningkatan kehilangan LM atau penurunan ketepatan dalam tugas hiliran.
  • Rajah 5 di bawah menunjukkan nilai kehilangan LM pada set pengesahan selepas mengeluarkan 1, 2, 8 atau 16 lapisan. Sebagai contoh, plot merah untuk lapisan 16 menunjukkan kehilangan LM yang berlaku jika 16 lapisan pertama dialih keluar. Lapisan 17 menunjukkan kehilangan LM juga berlaku jika lapisan pertama dikekalkan dan lapisan 2 hingga 17 dipadamkan. Nvidia memerhati: Lapisan permulaan dan penamat adalah yang paling penting.

                                                                                                                                                                                                                                                             5: Kepentingan pemangkasan kedalaman sahaja lapisan tengah.

Walau bagaimanapun, NVIDIA memerhatikan bahawa kerugian LM ini tidak semestinya berkaitan secara langsung dengan prestasi hiliran. Rajah 6 di bawah menunjukkan ketepatan Winogrande bagi setiap model yang dipangkas, yang menunjukkan bahawa adalah yang terbaik untuk memadamkan lapisan ke-16 hingga ke-31, di mana lapisan ke-31 ialah lapisan kedua terakhir, 5 daripada model pangkas -shot ketepatan adalah jauh lebih tinggi daripada ketepatan rawak (0.5). Nvidia mengambil cerapan ini dan mengalih keluar lapisan 16 hingga 31.

英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强                                                                                                                                                                                                                                                                                             

Pemangkasan lebar sahaja

NVIDIA membenamkan prun di sepanjang paksi lebar antara media (tersembunyi) dan MLP untuk memampatkan Llama 3.1 8B. Khususnya, mereka menggunakan strategi berasaskan pengaktifan yang diterangkan sebelum ini untuk mengira skor kepentingan bagi setiap kepala perhatian, saluran pembenaman dan dimensi tersembunyi MLP.

Selepas anggaran kepentingan, NVIDIA memilih

英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强
untuk memangkas dimensi pertengahan MLP dari 14336 kepada 9216.

Pangkas saiz tersembunyi dari 4096 hingga 3072.

Latih semula perhatian kepada bilangan kepala dan bilangan lapisan.

Perlu dinyatakan bahawa selepas pemangkasan sampel tunggal, kehilangan LM pemangkasan lebar adalah lebih tinggi daripada pemangkasan kedalaman. Walau bagaimanapun, selepas tempoh latihan semula yang singkat, arah aliran berubah.

Tanda Aras Ketepatan

NVIDIA menggunakan parameter berikut untuk menyuling model

#🎜##🎜🎜🎜🎜##🎜🎜 #Kadar pembelajaran puncak = 1e-4
  • Kadar pembelajaran minimum = 1e-5
  • #🎜🎜 linear Warmup

  • Cosine Decay Plan

  • Saiz kelompok global = ###saiz kelompok = 1152🎜🎜 🎜🎜#

    Jadual 1 di bawah menunjukkan varian model Llama-3.1-Minitron 4B (pantasan lebar dan pemangkasan kedalaman) berbanding model asal Llama 3.1 8B dan model bersaiz serupa lain pada penanda aras merentas berbilang domain Perbandingan prestasi dalam ujian. Secara keseluruhan, NVIDIA sekali lagi mengesahkan keberkesanan strategi pemangkasan yang luas berbanding pemangkasan mendalam yang mengikut amalan terbaik.

                                                                                                                   untuk  Bandingkan.

英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强
Untuk mengesahkan sama ada model suling boleh menjadi model arahan yang berkuasa, NVIDIA menggunakan NeMo-Aligner untuk memperhalusi model Llama-3.1-Minitron 4B.

Mereka menggunakan data latihan Nemotron-4 340B dan menilai pada IFEval, MT-Bench, ChatRAG-Bench dan Berkeley Function Calling Leaderboard (BFCL) untuk menguji arahan mengikut, main peranan, RAG dan fungsi panggilan fungsi. Akhirnya, telah disahkan bahawa model Llama-3.1-Minitron 4B boleh menjadi model arahan yang boleh dipercayai, mengatasi prestasi SLM asas yang lain. #🎜🎜 ##### 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Jadual 2: Jajarkan ketepatan model penjajaran dengan model penjajaran skala yang serupa.

Tanda Aras Prestasi

NVIDIA memanfaatkan NVIDIA TensorRT-LLM, alat pengoptimuman LLM, alat sumber terbuka ) model Llama 3.1 8B dan Llama-3.1-Minitron 4B yang dioptimumkan.
英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强Dua angka seterusnya menunjukkan permintaan pemprosesan sesaat bagi model berbeza dengan ketepatan FP8 dan FP16 di bawah kes penggunaan yang berbeza, dinyatakan sebagai panjang jujukan input/panjang jujukan output model 8B dengan saiz kelompok sebanyak 32 (ISL/OSL) serta kombinasi panjang jujukan input/panjang jujukan output (ISL/OSL) dengan saiz kelompok 64 untuk model 4B, terima kasih kepada pemberat yang lebih kecil yang membenarkan saiz kelompok yang lebih besar pada NVIDIA H100 80GB GPU .

Varian Llama-3.1-Minitron-4B-Depth-Base adalah yang terpantas, dengan daya pemprosesan purata kira-kira 2.7 kali ganda berbanding Llama 3.1 8B, manakala Llama-3.1-Minitron-4B-Width -Varian asas adalah yang terpantas Purata daya pemprosesan varian adalah kira-kira 1.8 kali ganda berbanding Llama 3.1 8B. Penggunaan dalam FP8 juga meningkatkan prestasi ketiga-tiga model sebanyak lebih kurang 1.3x berbanding BF16.

# 🎜🎜#  e      Figur 1    : BS =32, Llama-3.1-Minitron 4B model BS=64 1x H100 80GB GPU.

Kesimpulan

英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强Pemangkasan dan pemurnian pengetahuan klasik ialah kaedah yang sangat menjimatkan kos yang boleh diperolehi LLM bersaiz lebih kecil boleh mencapai ketepatan yang lebih tinggi daripada melatihnya dari awal dalam semua domain. Ini adalah pendekatan yang lebih cekap dan cekap data daripada penalaan halus pada data sintetik atau pra-latihan dari awal.
Llama-3.1-Minitron 4B ialah percubaan pertama Nvidia menggunakan siri Llama 3.1 sumber terbuka terkini. Untuk menggunakan penalaan halus SDG Llama-3.1 dengan NVIDIA NeMo, lihat bahagian /sdg-law-title-generation di GitHub. 英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强
Untuk maklumat lanjut, sila lihat sumber berikut:

https://arxiv.org/abs/2407.14679# 🎜🎜#

https://github.com/NVlabs/Minitron

https://huggingface.co/nvidia/Llama- 3.1-Minitron-4B-Width-Base

https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Depth-Base#🎜🎜

  • Pautan rujukan:

  • https://developer.nvidia.nvidia. /cara-memangkas-dan-menyuling-llama-3-1-8b-kepada-an-nvidia-llama-3-1-minitron-4b-model/

以上がNvidia はプルーニングと蒸留に取り組んでいます。Llama 3.1 8B パラメーターを半分にカットして、同じサイズでより良いパフォーマンスを実現します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません