ホームページ >テクノロジー周辺機器 >AI >7B? 13B? 175B?大規模モデルのパラメータを解釈する
大きなモデルのサイズも異なり、そのサイズはパラメーターの数によって測定されます。 GPT-3 には 175 億のパラメータがあり、Grok-1 にはさらに優れた 314 億のパラメータがあります。もちろん、ラマのような、パラメータの数が 70 億から 700 億の間にしかない、よりスリムなものもあります。
ここで言及されている 70B は、トレーニング データの量を指すのではなく、モデル内に密に詰め込まれたパラメーターを指す場合があります。これらのパラメータは小さな「脳細胞」のようなもので、パラメータが多ければ多いほど、モデルはより賢くなり、データ内の複雑な関係をよりよく理解できるようになります。これらの「脳細胞」を使用すると、モデルのタスクのパフォーマンスが向上する可能性があります。 ただし、多くの場合、特に大規模なモデルでは、これらのパラメーターが問題を引き起こす可能性があります。これらの「脳細胞」はタスクを処理するときに相互作用する可能性があり、モデルがデータ内の複雑な関係を理解することが困難になります。これらの「脳細胞」を使用すると、モデルのタスクのパフォーマンスが向上する可能性があります。 したがって、タスクに取り組むときにこれらのパラメータ間の関係を管理する方法を見つける必要があります。一般的に使用される方法は、正則化によるものです。これらの大規模なモデルのパラメーターは、複雑なアルゴリズムとトレーニング プロセスを通じて、少しずつ構築されます。各パラメータには役割があり、それらが連携してモデルが言語をより正確に理解し、より適切な回答を提供できるようにします。
では、大規模モデルのパラメータはどのように構成されているのでしょうか?
1. 大規模モデルのパラメータ
2. 大規模なモデルパラメータのメモリ要件
2.1 トレーニングフェーズのメモリ要件
トレーニング中のいつでも、各モデル パラメーターに対して、保存するのに十分な GPU メモリが常に必要です:
推論フェーズは、pre-テキスト生成や翻訳などの訓練された LLM タスク。ここで、メモリ要件は通常低くなり、主な影響要因は次のとおりです:
限られたコンテキスト: 推論は通常、より短い入力シーケンスを処理するため、より小さいテキストの塊に関連付けられたアクティベーションを保存するために必要なメモリが少なくなります。 逆伝播なし: 推論中、LLM はパラメータを調整するためのトレーニングに使用される手法である逆伝播の中間値を保存する必要がありません。これにより、メモリのオーバーヘッドが大幅に軽減されます。2.3 Transformer に基づく大規模モデルのメモリ推定
具体的には、Transformer に基づく大規模モデルの場合、トレーニングに必要なメモリを計算してみます。注目の頭数
s: 系列長
picture
ここで、18は、トレーニング中のさまざまなコンポーネントのメモリ使用率です。
1.25は、必要なアクティブ化プロセスのメモリ量を表します。 Factor,Activation は、モデルが入力データを処理するにつれて変化する動的データ構造です。 GPU サイズ (GB) は、利用可能な GPU メモリの合計量です
実際の例として、24GB の VRAM を備えた NVIDIA RTX 4090 GPU を使用していると仮定して、「Llama3 7B」のトレーニングに必要な GPU の数を計算します。 ' モデル、おおよそ:
推論の場合、トレーニング段階の 1/8 ~ 1/9 に単純化できます。もちろん、これらは一般的な意味での概算にすぎません。
大規模なモデル パラメーターの構成と、そのメモリと GPU の要件を理解することは、エンジニアリングの実践における分散トレーニングが直面する課題を深く理解するのに役立ちます。
分散トレーニング戦略の実装プロセスは、豊富なツールと API を提供する TensorFlow や PyTorch など、分散トレーニング用に設計されたフレームワークを採用することで大幅に簡素化できます。モデルを更新する前に勾配累積などの手法を使用するか、勾配圧縮などの手法を使用してノード間のデータ交換量を削減することにより、通信コストを効果的に削減できます。分散トレーニングの最適なバッチ サイズ (前述のパラメーター b) を決定することが重要です。a b の値が小さすぎると通信オーバーヘッドが増加する可能性があり、値が大きすぎるとメモリ不足が発生する可能性があります。
LLMOps の重要性はますます高まっています。分散トレーニング用に構成されたパフォーマンス指標を定期的に監視し、ハイパーパラメーター、パーティショニング戦略、通信設定を調整してパフォーマンスを最適化することが、トレーニング効率を向上させる鍵となります。モデルにチェックポイント メカニズムを実装し、障害が発生した場合に効率的に回復することで、トレーニング プロセスを最初から開始することなく確実に継続できます。
言い換えると、大規模モデルのトレーニング/推論は、本質的には次のような複雑な分散システム アーキテクチャのエンジニアリングの課題です。
しかし、実際には、ほとんどのエンジニアは特定のトレーニング作業には直接関与せず、アプリケーションを構築する際に大規模なモデルのパラメーターをどのように利用するかに重点を置いている可能性があります。
写真
ここでは主に、大規模モデルを使用してテキストを出力するときに設定できる 3 つのパラメータ、温度、Top-K、Top-P に焦点を当てます。
温度パラメータは、モデルの創造性を制御するだけのスイッチであるとよく誤解されますが、実際には、そのより深い役割は、確率分布の「柔らかさ」を調整することです。温度値を高く設定すると、確率分布がより柔らかく均一になり、モデルがより多様で創造的な出力を生成することが促進されます。逆に、温度値が低いほど、分布がよりシャープになり、ピークがより明確になり、トレーニング データと同様の出力が生成される傾向があります。
Top-K パラメーターは、各ステップで最も可能性の高い Top-K トークンを出力するようにモデルを制限するために使用されます。これにより、出力内の一貫性のないコンテンツや無意味なコンテンツを減らすことができます。この戦略は、出力の可能な限り最高の一貫性を維持しながら、ある程度の創造的なサンプリングを可能にすることの間のバランスを生み出します。
Top-P は、設定された P 値 (0≤P≤1) に基づいて、累積確率が P 値を超える単語の最小セットを出力として選択する別の復号方法です。この方法では、次の単語の確率分布に基づいて、選択される単語の数を動的に増減できます。特に、P 値が 1 の場合、Top-P はすべての単語を選択します。これは分布全体からサンプリングすることと同等であり、それによってより多様な出力が生成されます。一方、P 値が 0 の場合、Top-P は単語のみを選択します。最も高い確率で、貪欲なデコードと同様に、出力がより集中的で一貫性のあるものになります。
これら 3 つのパラメーターは連携してモデルの動作に影響を与えます。たとえば、Temperature=0.8、Top-K=36、Top-P=0.7 と設定すると、モデルはまずコンテキストに基づいて語彙全体の完全な非正規化対数確率分布を計算します。温度=0.8 は、各対数確率が 0.8 で除算されることを意味します。これにより、正規化前のモデルの予測における信頼性が効果的に高まります。 Top-K=36 は、周波数比対数確率が最も高い 36 個のマーカーを選択することを意味します。次に、Top-P=0.7 は、この Top-K=36 セットにフィルタリングを適用し、累積確率が 0.7 に達するまで、高確率から低確率への並べ替えを続けます。最後に、このフィルタリングされたセットは再正規化され、後続のサンプリング プロセスで使用されます。
エンジニアリングの実践においては、大規模なモデルのパラメータを理解することが重要です。パラメータは、大規模モデルの動作、パフォーマンス、実装コスト、およびリソース要件を定義する決定的な役割を果たします。エンジニアリングにおいて大規模モデルのパラメータを理解するということは、モデルの複雑さ、パフォーマンス、機能の間の関係を把握することを意味します。ストレージとコンピューティングの観点からこれらのパラメーターを適切に構成および最適化すると、実際のアプリケーションでモデルをより適切に選択および最適化し、さまざまなタスク要件やリソース制約に適応できます。
【参考】
以上が7B? 13B? 175B?大規模モデルのパラメータを解釈するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。