Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす-AI-php.cn

ホームページ

テクノロジー周辺機器

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

王林

Oct 12, 2023 pm 02:29 PM

ai電車

計算の 3% のみ 、コストの 5% SOTA を取得し、オープンの 1B ～ 3B スケールを独占出典大型モデル。

この結果は、LLM-ShearingLarge Model Pruning Method と呼ばれるプリンストン Chen Danqi チームによるものです。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

アルパカ LLaMA 2 7B に基づいて、1.3B および 3B プルーニングされた Sheared-LLama モデルは、指向性構造化プルーニング によって取得されます。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

#下流タスク評価の点で同規模の以前のモデルを超えるには、書き換える必要があります

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

筆頭著者の #Xia Mengzhou 氏は、「ゼロから事前トレーニングするよりもはるかに費用対効果が高い」と述べています。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

この論文では、プルーニングされた Sheared-LLaMA 出力の例も示しており、わずか 1.3B と 2.7B の規模にもかかわらず、すでに一貫性のあるリッチなコンテンツを生成できることを示しています。。返事。

「半導体業界アナリストとして行動する」という同じタスクについて、バージョン 2.7B の回答構造はさらに明確です。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

チームは、現在プルーニング実験には Llama 2 7B バージョンのみが使用されていますが、この方法は

他のモデルアーキテクチャにも拡張可能であると述べています、は任意のスケールに拡張することもできます。

プルーニング後のさらなる利点は、継続的な事前トレーニングのために高品質のデータセットを選択できることです

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

一部の開発者は、わずか 6 か月前にこう言いました、ほとんどの人が、65B 未満のモデルは実用的ではないと信じていました。

これが続けば、1B ～ 3B モデルも、今すぐではないにしても、すぐに大きな価値を生み出すことができると私は確信しています。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす # 制約付き最適化として枝刈りを扱う

LLM-Shearing、具体的には

指向性構造化枝刈りブランチ、大規模なモデルを指定されたターゲット構造に合わせてプルーニングします。 以前の枝刈り手法では、一部の構造が削除され、表現力に影響を与えるため、モデルのパフォーマンスが低下する可能性があります。

枝刈りを制約付き最適化問題として扱うことで、新しい手法を提案します。パフォーマンスを最大化することを目的として、プルーニングマスクマトリックスを学習することで、指定された構造に一致するサブネットワークを検索します。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす # 次に、プルーニングされたモデルを続行します。事前トレーニングにより、ある程度の枝刈りによるパフォーマンスの低下。

この段階で、チームは、枝刈りしたモデルと最初からトレーニングしたモデルでは、データセットごとに損失低減率が異なるため、データ利用効率が低いという問題が発生していることを発見しました。

この目的のために、チームは、モデルの損失削減率に応じて各ドメインのデータを動的に調整する

Dynamic Batch Loading(Dynamic Batch Loading)を提案しました。異なるドメインのデータに比例してデータ利用効率が向上します。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす研究によると、枝刈りされたモデルは、最初からトレーニングされた同じサイズのモデルに比べて初期パフォーマンスが劣りますが、継続的な事前トレーニングを通じてすぐに改善され、最終的には向上する可能性があります。超える

これは、強力な基本モデルから枝刈りを行うことで、事前トレーニングを継続するためのより良い初期化条件を提供できることを示しています。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

は引き続き更新されます。1 つずつ切り取ってみましょう

この論文の著者はプリンストン大学の博士課程の学生です Xia Mengzhou, Gao Tianyu、清華大学Zhiyuan Zeng、プリンストン大学助教授陈 Danqi。

Xia Mengzhou は、復旦大学で学士号を取得し、CMU で修士号を取得しました。

Gao Tianyu は清華大学を卒業した学部生で、2019 年に清華特別賞を受賞しました

二人とも陳丹祁の学生で、陳丹祁は現在プリンストン大学の助手ですプリンストン自然言語処理グループの教授兼共同リーダー

最近、Chen Danqi 氏は個人のホームページで研究の方向性を更新しました。

「この期間は主に大規模モデルの開発に焦点を当てています。研究テーマには次のものが含まれます。」

次世代モデルにおいて、信頼性、適応性、解釈可能性と信頼性。
大規模モデルの低コストのトレーニングとデプロイメント、改善されたトレーニング方法、データ管理、モデル圧縮、下流のタスク適応の最適化。
また、現在の大規模モデルの機能と限界について、経験的および理論的に理解を深める研究にも興味があります。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

Sheared-Llama は Hugging Face で利用できるようになりました

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

チームは、今後も継続して提供すると述べました。オープンソースライブラリを更新します。

さらに大きなモデルがリリースされたら、それらを 1 つずつ切り分けて、高性能の小さなモデルをリリースし続けます。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

もう 1 つ

大きなモデルは縮れすぎていると言わざるを得ません。

Mengzhou Xia 氏は、論文執筆時に SOTA テクノロジーを使用したが、論文完成後は最新の Stable-LM-3B テクノロジーによってその技術を上回られたと訂正を発表しました。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

論文アドレス: https://arxiv.org/abs/2310.06694

##ハグフェイス: https://huggingface.co/princeton-nlp

プロジェクトのホームページのリンク: https://xiamengzhou.github.io/sheared-llama/

以上がChen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35