検索
ホームページテクノロジー周辺機器AIChen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

計算の 3% のみ 、コストの 5% SOTA を取得し、オープンの 1B ~ 3B スケールを独占出典 大型モデル。

この結果は、LLM-ShearingLarge Model Pruning Method と呼ばれるプリンストン Chen Danqi チームによるものです。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

アルパカ LLaMA 2 7B に基づいて、1.3B および 3B プルーニングされた Sheared-LLama モデルは、指向性構造化プルーニング によって取得されます。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

#下流タスク評価の点で同規模の以前のモデルを超えるには、書き換える必要があります

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

筆頭著者の #Xia Mengzhou 氏は、「ゼロから事前トレーニングするよりもはるかに費用対効果が高い」と述べています。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

この論文では、プルーニングされた Sheared-LLaMA 出力の例も示しており、わずか 1.3B と 2.7B の規模にもかかわらず、すでに一貫性のあるリッチなコンテンツを生成できることを示しています。 。 返事。

「半導体業界アナリストとして行動する」という同じタスクについて、バージョン 2.7B の回答構造はさらに明確です。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

チームは、現在プルーニング実験には Llama 2 7B バージョンのみが使用されていますが、この方法は

他のモデル アーキテクチャにも拡張可能であると述べています は任意のスケール に拡張することもできます。

プルーニング後のさらなる利点は、継続的な事前トレーニングのために高品質のデータセットを選択できることです

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

一部の開発者は、わずか 6 か月前にこう言いました、ほとんどの人が、65B 未満のモデルは実用的ではないと信じていました。

これが続けば、1B ~ 3B モデルも、今すぐではないにしても、すぐに大きな価値を生み出すことができると私は確信しています。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす# 制約付き最適化として枝刈りを扱う

LLM-Shearing、具体的には

指向性構造化枝刈りブランチ、大規模なモデルを指定されたターゲット構造に合わせてプルーニングします。 以前の枝刈り手法では、一部の構造が削除され、表現力に影響を与えるため、モデルのパフォーマンスが低下する可能性があります。

枝刈りを制約付き最適化問題として扱うことで、新しい手法を提案します。パフォーマンスを最大化することを目的として、プルーニング マスク マトリックスを学習することで、指定された構造に一致するサブネットワークを検索します。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす# 次に、プルーニングされたモデルを続行します。 事前トレーニングにより、ある程度の枝刈りによるパフォーマンスの低下。

この段階で、チームは、枝刈りしたモデルと最初からトレーニングしたモデルでは、データセットごとに損失低減率が異なるため、データ利用効率が低いという問題が発生していることを発見しました。

この目的のために、チームは、モデルの損失削減率に応じて各ドメインのデータを動的に調整する

Dynamic Batch Loading(Dynamic Batch Loading)を提案しました。異なるドメインのデータに比例してデータ利用効率が向上します。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす 研究によると、枝刈りされたモデルは、最初からトレーニングされた同じサイズのモデルに比べて初期パフォーマンスが劣りますが、継続的な事前トレーニングを通じてすぐに改善され、最終的には向上する可能性があります。超える

これは、強力な基本モデルから枝刈りを行うことで、事前トレーニングを継続するためのより良い初期化条件を提供できることを示しています。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

は引き続き更新されます。1 つずつ切り取ってみましょう

この論文の著者はプリンストン大学の博士課程の学生です Xia Mengzhou, Gao Tianyu、清華大学Zhiyuan Zeng、プリンストン大学助教授陈 Danqi

Xia Mengzhou は、復旦大学で学士号を取得し、CMU で修士号を取得しました。

Gao Tianyu は清華大学を卒業した学部生で、2019 年に清華特別賞を受賞しました

二人とも陳丹祁の学生で、陳丹祁は現在プリンストン大学の助手ですプリンストン自然言語処理グループの教授兼共同リーダー

最近、Chen Danqi 氏は個人のホームページで研究の方向性を更新しました。

「この期間は主に大規模モデルの開発に焦点を当てています。研究テーマには次のものが含まれます。」

  • 次世代モデルにおいて、信頼性、適応性、解釈可能性と信頼性。
  • 大規模モデルの低コストのトレーニングとデプロイメント、改善されたトレーニング方法、データ管理、モデル圧縮、下流のタスク適応の最適化。
  • また、現在の大規模モデルの機能と限界について、経験的および理論的に理解を深める研究にも興味があります。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

Sheared-Llama は Hugging Face で利用できるようになりました

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

チームは、今後も継続して提供すると述べました。オープンソース ライブラリを更新します。

さらに大きなモデルがリリースされたら、それらを 1 つずつ切り分けて、高性能の小さなモデルをリリースし続けます。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

もう 1 つ

大きなモデルは縮れすぎていると言わざるを得ません。

Mengzhou Xia 氏は、論文執筆時に SOTA テクノロジーを使用したが、論文完成後は最新の Stable-LM-3B テクノロジーによってその技術を上回られたと訂正を発表しました。

Chen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こす

論文アドレス: https://arxiv.org/abs/2310.06694

##ハグフェイス: https://huggingface.co/princeton-nlp

プロジェクトのホームページのリンク: https://xiamengzhou.github.io/sheared-llama/

以上がChen Danqi チームの革新的な作品: 5% のコストで SOTA を入手し、「アルパカの毛刈り」の流行を引き起こすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ai合并图层的快捷键是什么ai合并图层的快捷键是什么Jan 07, 2021 am 10:59 AM

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西怎么办ai橡皮擦擦不掉东西怎么办Jan 13, 2021 am 10:23 AM

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开Apr 07, 2023 pm 02:54 PM

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式吗ai可以转成psd格式吗Feb 22, 2023 pm 05:56 PM

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑Apr 04, 2023 am 11:55 AM

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

ai顶部属性栏不见了怎么办ai顶部属性栏不见了怎么办Feb 22, 2023 pm 05:27 PM

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

ai移动不了东西了怎么办ai移动不了东西了怎么办Mar 07, 2023 am 10:03 AM

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。

强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程Mar 31, 2023 pm 10:38 PM

引入密集强化学习,用 AI 验证 AI。 自动驾驶汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里,自动驾驶汽车的发展取得了长足的进步,尤其是随着深度学习的出现更是如此。到 2015 年,开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止,并且没有 level 4 级别的 AV 可以在市场

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン