Llama3 のトレーニングコストがわずか 1/17 の Snowflake オープンソース 128x3B MoE モデル-AI-php.cn

ホームページ

テクノロジー周辺機器

Llama3 のトレーニングコストがわずか 1/17 の Snowflake オープンソース 128x3B MoE モデル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 25, 2024 pm 04:10 PM

apache業界圧縮技術

Snowflake が LLM の乱闘に参加します。

Snowflake は、社内のエンタープライズアプリケーションに焦点を当てた、高度な「エンタープライズインテリジェンス」モデル Arctic をリリースします。

たった今、データ管理およびウェアハウスのプロバイダーである Snowflake が、LLM 乱戦に参加し、エンタープライズレベルのアプリケーションに焦点を当てたトップレベルの大規模言語モデル (LLM) をリリースしたと発表しました。 - スノーフレーク北極。

# Arctic はクラウドコンピューティング企業が立ち上げた LLM として、主に次の 2 つの利点があります。

効率的なインテリジェンス: Arctic は、SQL 生成、プログラミング、命令追従などのエンタープライズタスクに優れており、より高い計算コストでトレーニングされたオープンソースモデルとさえ競合します。 Arctic は、費用対効果の高いトレーニングのための新しいベースラインを設定し、Snowflake の顧客が企業のニーズに合わせた高品質のカスタムモデルを低コストで作成できるようにします。
オープンソース: Arctic は Apache 2.0 ライセンスを採用し、重みとコードへのオープンアクセスを提供します。また、Snowflake もすべてのデータソリューションと研究結果をオープンソースにします。

Hugging Face で北極モデルにアクセスできるようになりました。 Snowflake 氏は次のように述べています。ユーザーは、Snowflake Cortex、AWS、Microsoft Azure、NVIDIA API、Lamini、Perplexity、Replicate and Together などを含む多くのモデルライブラリを通じて間もなくそれを入手できるようになります。

仅需Llama3 1/17的训练成本，Snowflake开源128x3B MoE模型

ハグフェイス: https://huggingface.co/Snowflake/snowflake-arctic-instruct

北極コンテキストウィンドウは 4K に設定されており、研究チームはアテンションシンクに基づくスライディングウィンドウの実装を開発中です。これにより、今後数週間で無制限のシーケンス生成がサポートされ、近い将来には 32K アテンションウィンドウに拡張される予定です。

高パフォーマンス、低コスト

Snowflake の研究チームは企業顧客の AI を活用しています要件とユースケースには一貫したパターンが見られます。企業は、LLM を使用して会話型 SQL データコパイロット、コードコパイロット、RAG チャットボットを構築したいと考えています。

これは、LLM が SQL、コードに優れ、複雑な命令に従い、具体的な応答を生成する必要があることを意味します。 Snowflake は、エンコード (HumanEval および MBPP)、SQL 生成 (Spider)、および命令追従 (IFEval) のパフォーマンスレベルを平均化することで、これらの機能を「Enterprise Intelligence」と呼ばれる単一のメトリクスに結合します。

Arctic は、オープンソース LLM の「エンタープライズインテリジェンス」のトップレベルに達し、トレーニングコンピューティングコストは約 200 万ドル未満 (3,000 GPU 週未満) で実現します。状況下で。これは、Arctic が同様の計算コストでトレーニングされた他のオープンソースモデルよりも高性能であることを意味します。

#さらに重要なのは、はるかに高い計算コストでトレーニングされたモデルと比較しても、Arctic はエンタープライズインテリジェンスにおいて優れていることです。 Arctic の高いトレーニング効率は、Snowflake の顧客と AI コミュニティ全体がよりコスト効率よくカスタムモデルをトレーニングできることを意味します。

図 1 に示すように、Arctic はエンタープライズインテリジェンスメトリクスにおいて LLAMA 3 8B および LLAMA 2 70B と同等でありながら、トレーニングコンピューティングコストの半分未満を使用しています。また、Arctic は、コンピューティングコストが 1/17 倍しか使用していないにもかかわらず、エンコーディング (HumanEval および MBPP)、SQL (Spider)、命令追従 (IFEval) などの指標において Llama3 70B に匹敵します。つまり、Arctic は全体的なパフォーマンスの競争力を維持しています。 . これも同時に行いました。

さらに、Snowflake は世界の知識、常識的推論、数学的能力を含む学術的なベンチマークに基づいて北極を評価しました。完全な評価結果は以下のとおりです。図に示すように:

##トレーニング効率

上記のトレーニング効率を達成するために、Arctic は独自の Dense-MoE ハイブリッド変圧器アーキテクチャを使用しています。これは、10B の高密度トランスモデルと 128×3.66B の残留 MoE MLP を組み合わせ、合計 480B のパラメータと 17B のアクティブパラメータを備え、選択にトップ 2 ゲートを使用します。

北極の設計と訓練に際し、研究チームは次の 3 つの重要な洞察と革新を利用しました:

MoE の専門家には多数の専門家がおり、圧縮技術を採用

2021 年末、DeepSpeed チームは MoE が自己回帰に適用できることを証明しました。 LLM を使用することで、計算コストを増加させることなくモデルの品質を大幅に向上させます。北極を設計する際、研究チームは、この考えに基づいて、モデルの品質の向上は主に専門家の数とMoEモデルのパラメータの総数、およびこれらの専門家の組み合わせの数に依存することに気づきました。

これに基づいて、Arctic は 128 人のきめ細かい専門家に 480B のパラメーターを分配し、トップ 2 のゲートを使用して 17B のアクティブなパラメーターを選択するように設計されています。

アーキテクチャとシステムの共同設計

強力な AI トレーニングハードウェアでのトレーニングには、多数の専門家を含む基本的な MoE アーキテクチャは、専門家間の完全に接続された通信のオーバーヘッドが高いため、非常に非効率的です。 Snowflake は、通信が計算と重複できれば、このオーバーヘッドを排除できることを発見しました。

したがって、Arctic は高密度トランスフォーマーと残留 MoE コンポーネント (図 2) を組み合わせて通信を介してオーバーラップを計算し、トレーニングシステムが良好なトレーニング効率を達成し、通信を隠蔽できるようにします。オーバーヘッド。

#エンタープライズデータに焦点を当てたコース学習

コード生成とエンタープライズレベルの学習SQL メトリクスに優れるには、一般的なメトリクスとはまったく異なる種類のデータカリキュラムの学習が必要です。何百もの小規模なアブレーション実験を通じて、チームは、常識的な推論などの一般的なスキルは初期段階で学習できる一方で、コーディング、数学、SQL などのより複雑な指標は後で効果的に学習できることを学びました。研修中。

#これは、簡単なものから難しいものまで徐々に能力を身につけていく、人間の人生教育にたとえることができます。そのため、Arctic では 3 段階のカリキュラムを採用しており、各段階でデータ構成が異なり、最初の段階では一般スキル (1T トークン) に重点を置き、最後の 2 段階ではエンタープライズスキル (1.5T および 1T トークン) に重点を置いています。

#推論効率

推論効率はモデル効率の重要な側面でもあり、影響を与えます。モデルが低コストで現実的に導入できるかどうか。仅需Llama3 1/17的训练成本，Snowflake开源128x3B MoE模型

Arctic は、他のオープンソース回帰 MoE モデルよりも多くの専門家と総パラメーターを使用して、MoE モデルの規模が飛躍的に向上したことを示しています。したがって、Snowflake には、Arctic が効率的に推論できるようにするためのいくつかの革新的なアイデアが必要です。

#a) バッチサイズ 1 など、小さなバッチサイズでの対話型推論では、 MoE モデルの推論レイテンシは、すべてのアクティブなパラメータを読み取る時間によって制限され、推論はメモリ帯域幅によって制限されます。このバッチサイズでは、Arctic (アクティブパラメーター 17B) のメモリ読み取り量は Code-Llama 70B のわずか 1/4、Mixtral 8x22B (アクティブパラメーター 44B) の 2/5 となり、推論速度が速くなります。

b) バッチサイズが大幅に増加すると (各フォワードパスで数千のトークンが増加するなど)、Arctic はメモリ帯域幅の制限から計算上の制限に変化し、推論がアクティブな制限に影響を受けます。各トークンのパラメータ。この点で、Arctic の計算量は CodeLlama 70B および Llama 3 70B の 1/4 です。

北極の少数のアクティブなパラメーターに一致するコンピューティング限定の推論と高スループットを実現するには、より大きなバッチサイズが必要です。これを達成するには、それをサポートするのに十分な KV キャッシュと、モデルのほぼ 500B のパラメーターを保存するのに十分なメモリが必要です。

困難ではありますが、Snowflake は 2 つのノードを使用して推論を実行し、FP8 の重み、分割ヒューズと連続バッチ処理、ノード内テンソル並列処理、およびノードを組み合わせます。これはシステムの最適化によって実現されます。パイプライン間の並列処理など。

研究チームは、NVIDIA と緊密に連携して、TensorRT-LLM を利用した NVIDIA NIM マイクロサービスの推論を最適化してきました。同時に、研究チームは vLLM コミュニティとも協力しており、社内の開発チームも今後数週間以内にエンタープライズユースケース向けに Arctic の効率的な推論を実装する予定です。

参考リンク：https://www.snowflake.com/blog/arctic-open-efficient-foundation- language-models-snowflake/

以上がLlama3 のトレーニングコストがわずか 1/17 の Snowflake オープンソース 128x3B MoE モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35