Microsoft の 6 ページの論文は爆発的です: 三元 LLM、とてもおいしいです!-AI-php.cn

ホームページ

テクノロジー周辺機器

Microsoft の 6 ページの論文は爆発的です: 三元 LLM、とてもおいしいです!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 29, 2024 pm 10:01 PM

ai電車メモリ使用量

これは、Microsoft と中国科学院大学が最新の研究で提示した結論です。

すべての LLM は 1.58 ビットになります。

Microsoft の 6 ページの論文は爆発的です: 三元 LLM、とてもおいしいです!

具体的には、この研究で提案された手法は BitNet b1.58 と呼ばれるもので、これは、大規模な言語モデル。「パラメーターをオンにして始めます。

16 ビット浮動小数点数 (FP16 や BF16 など) 形式の従来のストレージは、三進数 、つまり に変更されました。 {- 1, 0, 1}。

Microsoft の 6 ページの論文は爆発的です: 三元 LLM、とてもおいしいです!

「1.58 ビット」とは、各パラメータが 1.58 バイトの記憶領域を占有することを意味するのではなく、各パラメータが 1.58 ビットの情報を使用できることを意味することに注意してください。

このような変換後、行列の計算には整数の加算のみが含まれるため、大規模なモデルでは、一定の精度を維持しながら、必要なストレージスペースとコンピューティングリソースを大幅に削減できます。

たとえば、モデルサイズが 3B の場合に BitNet b1.58 を Llama と比較すると、速度は 2.71 倍向上しますが、GPU メモリ使用量は元のほぼ 4 分の 1 にすぎません。

そして、モデルのサイズが

(たとえば、70B) より大きくなると、速度の向上とメモリの節約がより顕著になります。

この伝統に対する破壊的なアイデアは、ネチズンを本当に輝かせます。この論文は X についても高い注目を集めました:

Microsoft の 6 ページの論文は爆発的です: 三元 LLM、とてもおいしいです!

ネチズンは「変化しながら」驚きましたゲームのルール」では、Google のアテンションペーパーの古いジョークも再現されています。

必要なのは 1 ビットだけです。

Microsoft の 6 ページの論文は爆発的です: 三元 LLM、とてもおいしいです!

では、BitNet b1.58 はどのように実装されているのでしょうか?読み続けてみましょう。

パラメータを 3 値に変更します

この研究は実際には、以前に公開された論文に基づいて元のチームによって行われた最適化です。つまり、元の BitNet に追加のデータを追加します。追加の値は 0 です。が追加されます。

Microsoft の 6 ページの論文は爆発的です: 三元 LLM、とてもおいしいです!

全体として、BitNet b1.58 は引き続き BitNet アーキテクチャ

(トランスフォーマー) に基づいており、nn.Linear を BitLinear に置き換えます。

具体的な最適化については、まず先ほどの「0を足す」、つまり

重み量子化(重み量子化)です。

BitNet b1.58 モデルの重みは 3 進値 {-1, 0, 1} に量子化されます。これは、2 進法で各重みを表すのに 1.58 ビットを使用するのと同等です。この定量化方法により、モデルのメモリフットプリントが削減され、計算プロセスが簡素化されます。

Microsoft の 6 ページの論文は爆発的です: 三元 LLM、とてもおいしいです!

第二に、

定量関数設計の観点から、重みを-1、0、または1に制限するために、研究者らはA定量化を採用しました。アブ平均と呼ばれる関数。

Microsoft の 6 ページの論文は爆発的です: 三元 LLM、とてもおいしいです!

この関数は、まず重み行列の平均絶対値に従ってスケーリングし、次に各値を最も近い整数 (-1、0、1) に丸めます。

次のステップは、

活性化量子化(活性化量子化)です。

アクティベーション値の量子化は BitNet での実装と同じですが、アクティベーション値は非線形関数の前で範囲 [0, Qb] にスケーリングされません。代わりに、アクティベーションは [-Qb, Qb] の範囲にスケーリングされて、ゼロ点量子化が排除されます。

BitNet b1.58 をオープンソースコミュニティと互換性を持たせるために、研究チームは RMSNorm、SwiGLU などの LLaMA モデルのコンポーネントを採用し、簡単に統合できるようにしたことは言及する価値があります。主流のオープンソースソフトウェア。

最後に、実験的なパフォーマンスの比較に関して、チームは、BitNet b1.58 と FP16 LLaMA LLM をさまざまなサイズのモデルで比較しました。

Microsoft の 6 ページの論文は爆発的です: 三元 LLM、とてもおいしいです!

結果は、BitNet b1.58 が 3B モデルサイズでの複雑さにおいて完全精度 LLaMA LLM に匹敵し始め、同時にレイテンシ、メモリ使用量、およびスループットのパフォーマンスが向上していることを示しています。 . 大幅に改善されました。

そして、モデルのサイズが大きくなると、このパフォーマンスの向上はより顕著になります。

ネチズン: 消費者グレードの GPU で 120B の大規模モデルを実行可能

前述したように、この研究のユニークな方法は、インターネット上で多くの激しい議論を引き起こしました。

DeepLearning.scala 作者の Yang Bo 氏は次のように述べています:

オリジナルの BitNet と比較して、BitNet b1.58 の最大の特徴はパラメータが 0 であることです。量子化関数を少し変更することで、パラメータ 0 の割合を制御できるのではないかと思います。 0 パラメータの割合が大きい場合、重みをスパース形式で保存できるため、各パラメータが占める平均ビデオメモリは 1 ビット未満になります。これは重量レベルの MoE に相当します。通常のMoEよりも上品な印象だと思います。

同時に、彼は BitNet の欠点も提起しました。

BitNet の最大の欠点は、推論中のメモリオーバーヘッドを削減できるにもかかわらず、オプティマイザーの状態と勾配が依然として浮動小数点数を使用していることです。ポイント番号、トレーニングは依然として非常に多くのメモリを消費します。 BitNet をトレーニング中にビデオメモリを節約するテクノロジーと組み合わせることができれば、従来の半精度ネットワークと比較して、同じ計算能力とビデオメモリでより多くのパラメータをサポートできるため、大きな利点が得られると思います。

オプティマイザ状態のグラフィックスメモリのオーバーヘッドを節約する現在の方法は、オフロードです。勾配のメモリ使用量を節約する方法としては、ReLoRA が考えられます。ただし、ReLoRA の論文実験では 10 億のパラメータを持つモデルのみが使用されており、それを数百億、数千億のパラメータを持つモデルに一般化できるという証拠はありません。

##△画像出典: Zhihu、許可を得て引用

しかし、一部のネットユーザーは次のように分析しています。 , そうすれば、24GBのコンシューマーグレードGPUで120Bの大型モデルを実行できるようになります。

Microsoft の 6 ページの論文は爆発的です: 三元 LLM、とてもおいしいです! それでは、この新しいアプローチについてどう思いますか?

以上がMicrosoft の 6 ページの論文は爆発的です: 三元 LLM、とてもおいしいです!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません