2020 年に GPT-3 が登場して以来、ChatGPT の人気により、GPT ファミリーの生成大規模言語モデルが再び脚光を浴びるようになり、さまざまなタスクで優れたパフォーマンスを示しています。
しかし、モデルの規模が巨大になると、コンピューティング コストの増加と展開の難易度の増加も引き起こされます。
たとえば、GPT-175B モデルは、半精度 (FP16) 形式で合計 320 GB 以上のストレージ スペースを占有します。推論中は、80 GB の A100 GPU が少なくとも 5 つ必要です。保管スペースが必要です。
モデル圧縮は現在、大規模モデルの計算コストを削減するために一般的に使用されている方法ですが、これまでのところ、既存の GPT 圧縮方法のほとんどは量子化 (量子化) に重点を置いています。単一の重量の数値表現の精度が低下します。
もう 1 つのモデル圧縮方法は枝刈りです。これは、個々の重み (非構造化枝刈り) から、行/列全体の重み行列 (構造化枝刈り) などのより粒度の高いコンポーネントに至るまで、ネットワーク要素を削除します。 )。このアプローチは視覚モデルや小規模な言語モデルではうまく機能しますが、結果として精度が失われ、精度を回復するにはモデルの大規模な再トレーニングが必要になるため、GPT のような大規模モデルになるとコストが再び高くなります。 。再トレーニングせずにモデルを圧縮できるシングルショットの枝刈り手法がいくつかありますが、それらは計算量が多すぎるため、数十億のパラメータを持つモデルに適用するのは困難です。
では、GPT-3 のサイズの大規模モデルの場合、精度の損失を最小限に抑え、計算コストを削減しながらモデルを正確に枝刈りする方法はあるのでしょうか?
最近、オーストリア科学技術大学 (ISTA) の 2 人の研究者、エリアス フランター氏とダン アリスタール氏が共同で、初めて次のようなモデル規模を対象とした研究を行いました。パラメータ数は 100 ~ 1000 億、精度の高いシングルショット プルーニング手法 SparseGPT が提案されています。
#SparseGPT は、再トレーニングを行わずに、GPT シリーズ モデルを 1 ステップで 50% のスパース度までプルーニングできます。公開されている最大のモデルである GPT-175B は、単一の GPU を使用してわずか数時間でこの枝刈りを実現します。
さらに、SparseGPT は非常に正確であり、精度の損失を最小限に抑えることができます。たとえば、現在最大のオープンソース モデルである OPT-175B および BLOOM-176B で SparseGPT を実行すると、精度の損失を最小限に抑えながら 60% のスパース性を達成できます。
電気ドライブ SparseGPT アルゴリズム
非常に大規模なモデルの研究は近年非常に活発に行われていますが、これまでのところ、研究は行われていません。 100 億を超えるパラメーターを備えたこのモデルは、非常に正確な高スパース化を実現できます。
既存の手法では計算コストの要件が高すぎます。最も正確なポストトレーニング手法である OBC を例にとると、10 億パラメータのモデルを実行するには 1 時間以上かかります。圧縮。既知の最速のポストトレーニング手法である AdaPrune も、10 億パラメータのモデルをプルーニングするのに数分かかります。この速度で、GPT-3 規模のモデルを構築するには数百時間 (週) の計算が必要になると推定されています。
段階的規模枝刈りなどの既存の枝刈り手法のほとんどは、精度を回復するために枝刈りステップ後に広範な再トレーニングを必要としますが、GPT スケール モデルは通常、トレーニングまたは微調整のために大量の計算とパラメータ調整を必要とします。 -チューニングにより、再トレーニングベースの手法の適用が困難になります。したがって、この漸進的な枝刈りアプローチを GPT スケールで適用することは現実的ではありません。
ISTA チームによるこの研究では、SparseGPT 手法を提案しています。この手法は、単一 GPU 上で 1,000 億を超えるパラメータを持つモデルを数時間で実行でき、モデルをプルーニングするのに十分な精度を備えています。パフォーマンスを大幅に低下させることなく、スパース性レベルを 50 % ~ 60% に設定できます。
SparseGPT のコアは、半構造化 (2:4 および 4:8) パターンに一般化でき、既存の互換性のある新しい大規模近似スパース回帰アルゴリズムです。重量定量化手法を使用します。
プログレッシブ マグニチュード プルーニングなど、ほとんどの既存のプルーニング手法では、プルーニングが必要です。ステップの後には、精度を回復するための大規模な再トレーニングが必要です。 GPT スケールのモデルは、トレーニングや微調整のために大量の計算とパラメーター調整を必要とすることが多く、そのため再トレーニングベースの手法を適用することが困難になります。したがって、この漸進的な枝刈りアプローチを GPT スケールで適用することは現実的ではありません。
SparseGPT は微調整を行わないため、GPT スケール モデルのポストトレーニング方法です。
現在、GPT スケール モデルのポストトレーニングを定量化する方法は、ZeroQuant、LLM.int8()、nuQmm など、数多くありますが、異常な特徴が存在するため、活性化の量子化は困難な場合があります。 GPTQ は、近似二次情報を利用して重みを 2 ~ 4 ビットに正確に量子化し、最大のモデルに適しており、効率的な GPU コアと組み合わせることで、推論を 2 ~ 5 倍高速化できます。
ただし、GPTQ は量子化ではなくスパース化に重点を置いているため、SparseGPT は定量化手法を補完するものであり、この 2 つを組み合わせて適用できます。
さらに、SparseGPT は、非構造化プルーニングに加えて、2 の比率で使用できる人気の n:m スパース形式などの半構造化パターンにも適しています。 Ampere NVIDIA GPU で :4 の高速化を実現します。
SparseGPT: 高いスパース化レベル、低い精度損失
SparseGPT 圧縮モデルの有効性を評価した後、研究者らは、言語が大きいと困難であることを発見しました。既存のマグニチュード プルーニング (Magnitude Pruning) 手法と比較して、SparseGPT を使用すると、精度の低下を最小限に抑えながら、より高度なモデルのスパース化を実現できます。
研究者らは PyTorch に SparseGPT を実装し、HuggingFace の Transformers ライブラリを使用してモデルとデータセットをすべて 80 GB のメモリを備えた単一の NVIDIA A100 GPU 上で処理しました。このような実験条件下では、SparseGPT は約 4 時間で 1,750 億のパラメータ モデルの完全なスパース化を達成できます。
研究者らは、Transformer レイヤーを順次スパース化することで、メモリ要件を大幅に削減し、すべてのレイヤーを並行して処理する精度も大幅に向上させました。すべての圧縮実験は、微調整を行わずに一度に実行されました。
評価対象は主に OPT シリーズ モデルです。これには 1 億 2,500 万から 1,750 億のパラメータのモデルのセットが含まれており、モデル サイズに対する枝刈りのスケーリング パフォーマンスを簡単に観察できます。 。さらに、BLOOM の 1,760 億個のパラメーター バリアントが分析されました。
データ セットと評価指標の観点から、実験では元の WikiText2 テスト セットの複雑さを使用して、SparseGPT 圧縮方法の精度を評価しました。解釈可能性が向上し、ZeroShot の精度指標が向上します。さらに、評価では、絶対的な数値ではなく、密モデルのベースラインに対する疎モデルの精度に焦点が当てられます。
研究者らは、OPT モデル シリーズ全体 (標準の埋め込みとヘッダーを除く) のすべての線形層をプルーニングして、50% の非構造化スパース性、完全 4:8 または完全 2:4 半構造化を達成しました。スパース性の場合、結果は以下のようになります。
振幅枝刈りを使用して圧縮されたモデルの精度は、すべてのサイズで低く、モデルが値が大きくなるほど精度が低下します。
SparseGPT を使用して圧縮されたモデルの傾向は異なり、27 億パラメータの下ではパープレキシティ損失は 1 ポイント未満で、660 億パラメータの下では損失はゼロです。さらに、密度の高いモデルのベースラインと比較して、非常に大きなモデル サイズでも精度が向上します。
大規模なモデルほどスパース化される可能性が高くなります
一般的な傾向として、大規模なモデルほどスパース化される可能性が高くなります。密モデルに対する疎モデルの相対的な精度の低下は、モデルのサイズが大きくなるにつれて小さくなります。著者らは、これは高度なパラメータ化と全体的に優れたノイズ耐性によるものではないかと推測しています。
最大スケールでの高密度モデルのベースラインと比較すると、SparseGPT を使用してモデルを 4:8 および 2:4 のスパース性に圧縮した場合、パープレキシティの増加はそれぞれ 0.11 と 0.39 のみです。 . .この結果は、実際に 2 倍の高速化を達成できることを意味し、商用 NVIDIA Ampere GPU はすでに 2:4 スパース性をサポートしています。
著者は、2 千億個のモデル OPT-175B および BLOOM-176B のパフォーマンスと、SparseGPT を使用することによってもたらされるスパース性の程度との関係を研究しました。結果は次のとおりです。下の図。
BLOOM-176B モデルの場合、振幅プルーニングは精度を大幅に損なうことなく 30% のスパース性を達成できますが、それに比べて、SparseGPT は 1.66 倍の改善である 50% のスパース性を達成できます。さらに、80% のスパース性では、SparseGPT を使用して圧縮されたモデルのパープレキシティは依然として妥当なレベルに留まっていますが、振幅枝刈りが OPT の 40% のスパースシティと 60% の BLOOM のスパース性に達すると、パープレキシティはすでに 100 を超えています。
さらに、SparseGPT は、モデルの精度への影響を限定的にしながら、これらのモデルから約 1,000 億の重みを削除できます。
最後に、この研究は、Transformer に基づく大規模な事前トレーニング済みモデルが、再トレーニングなしで 1 回の重み枝刈りによって高いスパース性まで圧縮できることを初めて示しています。精度の低下が少なく、低い。
SparseGPT のアプローチはローカルであることは注目に値します: 各枝刈りステップの後に、各層の入出力関係を維持するように設計された重み更新が実行されます。これらの更新は、グローバルな計算を行わずに計算されます。グラデーション情報。したがって、大規模な GPT モデルの高度なパラメーター化により、このアプローチにより、密な事前トレーニング済みモデルの「近傍」の中から疎で正確なモデルを直接識別できるようになります。
さらに、実験で使用された精度指標 (パープレキシティ) は非常に敏感であるため、生成された疎モデルの出力は密モデルの出力と密接に関連していると思われます。
この研究は、大規模モデルの計算能力の制限を緩和する上で、非常に前向きな意義を持っています。今後の作業の方向性の 1 つは、大規模モデルの微調整メカニズムを研究して精度をさらに回復することです。同時に、モデルのトレーニング中の SparseGPT メソッドの適用可能性を拡大することで、大規模なモデルのトレーニングにかかる計算コストが削減されます。
以上が最初の 1,000 億モデル圧縮アルゴリズム SparseGPT が登場、高精度を維持しながらコンピューティング電力コストを削減の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

我昨天看到了一张有趣的图片,上面是一个“AI取代人类路径的级别图”。图片根据图中的显示,游戏分为六个不同的等级,从E1到E8+。从图中我们可以观察到,人工智能(AI)正在取代人类在不同领域的应用。而人工智能的应用领域路径则是由其容错率来决定的。简而言之,这里的容错率就是指试错所带来的成本。AI将逐渐取代从容错率较高到较低的行业,逐渐“取代”人类职业。以往,我们常认为创意型的工作需要依赖人类的思维,是不容易被取代的。然而,随着人工智能的发展,这种看法似乎并不完全正确。像创意类的工作往往没有固定答案

自 2020 年 GPT-3 横空出世以来,ChatGPT 的爆火再一次将 GPT 家族的生成式大型语言模型带到聚光灯下,它们在各种任务中都已显示出了强大的性能。但模型的庞大规模也带来了计算成本的上升和部署难度的增加。比如,GPT‑175B 模型总计至少占 320GB 半精度 (FP16) 格式的存储空间,在推理时,起码需要五个 80 GB 存储空间的 A100 GPU。模型压缩(model compression)是当前使用较多的一种降低大模型计算成本的方法,但迄今为止,几乎所有现有的

大卫·林思高编译|言征51CTO技术栈(微信号:blog51cto)的出品在技术领域有一个不成文的规则:大家都喜欢采用别人的技术。但对于许多企业来说,生成式人工智能似乎并不符合这一模式生成式AI正在迅速推动一些关键决策。每个组织都面临着一个重要的选择:是内部构建定制的生成式AI平台,还是从AI供应商那里购买预打包的解决方案(通常作为云服务提供)DIY有利于数量和机会。这很奇怪,但原因可能会让你感到惊讶。它们甚至可能会引导您重新思考您的企业genAI战略1、完整的定制和控制重新写内容如下:建立一个

假设我们有一个尺寸为hxw的网格。网格中的每个单元格包含一个正整数。现在有一个路径查找机器人放置在特定的单元格(p,q)上(其中p是行号,q是列号),它可以移动到单元格(i,j)。移动操作有一个特定的成本,等于|p-i|+|q-j|。现在有q个旅行,具有以下属性。每个旅行有两个值(x,y),并且有一个共同的值d。机器人放置在一个值为x的单元格上,然后移动到另一个值为x+d的单元格。然后它移动到另一个值为x+d+d的单元格。这个过程将继续,直到机器人到达一个值大于或等于y的单元格。y-x是d的倍数

我们可以使用以下技术来找到乘以X或将其数字从1右旋转到N的最便宜方法。要监控初始最低成本,请创建一个成本变量。当从N到1时,检查每个阶段N是否被X整除。如果是,则将N除以X来更新它并继续该过程。如果N不能被X整除,则将N的数字向右循环以增加其值。在这种情况下增加成本变量。最终的成本变量值将是将1变为N所需的最少数量。该算法有效地确定使用数字旋转或乘法进行所需转换所需的最少操作。使用的方法NaiveApproach:数字的右旋转高效方法:乘以X简单的方法:数字右旋天真的方法是从数字1开始,反复将其

随着全球范围内对环保意识的不断增强,各国纷纷倡导新能源汽车的发展,使得电动汽车成为汽车市场的一大亮点。然而,尽管电动汽车在减少碳排放和降低用车成本方面有着显著优势,却面临一个问题,即电动汽车的轮胎不仅价格更高,还更容易磨损。这个问题引发了广泛关注,专家对其原因进行了解释电动汽车的轮胎与传统轮胎不同,需要满足更高的性能标准。由于电动汽车较重,轮胎需要具备更高的承载能力和结构强度,这增加了设计和制造的成本。此外,电动汽车通常具有更强的加速和制动性能,因此轮胎需要更好的抓地力和耐热性能,这也增加了制造

成本与定价因素:实例定价:按使用时间和函数配置计费。内存和CPU使用:使用量越大,成本越高。网络流量:与其他服务的通信产生费用。存储:持久性存储需要单独计费。实战案例:调用10,000次、持续100毫秒的函数,成本约为0.000067美元(实例定价0.000055美元,网络流量0.000012美元)。

据外媒报道,Meta的首席技术官几乎确认了公司放弃开发能够与苹果VisionPro相媲美的设备。MetaLaJolla在VisionPro发布之前,Meta公布了其虚拟现实和混合现实耳机的四年发展规划。其中一个重要部分是开发一款内部代号为LaJolla的产品,它本有可能成为VisionPro的主要竞争对手。据了解,Meta于2023年11月开始了LaJolla的开发工作,但在2024年8月中旬左右叫停了该项目,原因可能是成本问题。据说这一决定是MetaCEO扎克伯格和CTO安德鲁·博斯沃思等人做


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

SublimeText3 中国語版
中国語版、とても使いやすい

WebStorm Mac版
便利なJavaScript開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

ホットトピック



