パラメータ数は7億7千万、5,400億PaLMを突破！ UW Google、トレーニングデータの 80% のみが必要な「段階的蒸留」を提案

ホームページ

テクノロジー周辺機器

パラメータ数は7億7千万、5,400億PaLMを突破！ UW Google、トレーニングデータの 80% のみが必要な「段階的蒸留」を提案 | ACL 2023

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 07, 2023 pm 04:49 PM

ai電車

大規模な言語モデルはパフォーマンスに優れており、ゼロまたは数ショットのヒントで新しいタスクを解決できます。しかし、LLM はメモリ利用効率が低く、大量のコンピューティングリソースを必要とするため、実際のアプリケーション展開ではあまり実用的ではありません。たとえば、1,750 億個のパラメータを持つ言語モデルサービスを実行するには、少なくとも 350 GB のビデオメモリが必要です。現在の最先端の言語モデルには 5,000 億を超えるパラメーターがあり、多くの研究チームにはそれらを実行するための十分なリソースがなく、実際のアプリケーションでの低遅延パフォーマンスを満たすことができません。

手動でラベル付けされたデータや、LLM で生成されたラベルを使用した蒸留を使用して、より小規模なタスク固有のモデルをトレーニングする研究もいくつかありますが、LLM と同等のパフォーマンスを達成するには、微調整と蒸留に大量のトレーニングデータが必要です。。

大規模モデルのリソース要件の問題を解決するために、ワシントン大学と Google は協力して、「ステップバイステップ蒸留」と呼ばれる新しい蒸留メカニズムを提案しました。段階的な蒸留により、蒸留されたモデルのサイズは元のモデルより小さくなりますが、パフォーマンスは向上し、微調整および蒸留プロセス中に必要なトレーニングデータの量は少なくなります

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023 #論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/abs/2305.02301

分配蒸留メカニズムは、LLM から予測理由を抽出します (理論的根拠 ) は、マルチタスクフレームワーク内で小規模モデルをトレーニングするための追加の監視情報として使用されます。

4 つの NLP ベンチマークの実験後、次のことがわかりました: 7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

1. 微調整や蒸留と比較して、このメカニズムでは使用するトレーニングサンプルが少なくなり、より優れたパフォーマンスが得られます;

少数サンプルのプロンプト LLM と比較して、このメカニズムはより小さなサイズのモデルを使用してより優れたパフォーマンスを実現します

3。同時に、モデルのサイズを削減し、データ量も削減できます。 LLM よりも優れたパフォーマンス。

実験では、微調整後の 770M T5 モデルは、利用可能なデータの 80% のみを使用したベンチマークテストでサンプルヒントがほとんどなかった 540B PaLM モデルよりも優れていましたが、同じ標準の T5 モデルよりも優れていました。 100% 使用したデータセットでも微調整することも困難です。

蒸留方法

分散蒸留の重要なアイデアは、自然言語で記述された情報豊富な予測理由、つまり中間推論ステップを徐々に抽出して、入力間のつながりを説明することです。問題とモデルの出力を分析し、これらのデータを使用して小さなモデルをより効率的にトレーニングします。

分配蒸留には主に 2 つの段階が含まれます: 7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

1. LLM の抽出原理 (根拠) から

#研究者は、少数サンプルの思考連鎖 (CoT) プロンプトを使用して、LLM から予測中間ステップを抽出します。

対象タスクを決定したら、まず LLM 入力プロンプトでいくつかのサンプルを準備します。各例は、入力、原理、出力を含むトリプレットで構成されています。

プロンプトを入力した後、LLM はトリプレットのデモンストレーションを模倣して、他の新しい問題を生成できます。たとえば、予測原理などです。常識的な質問と回答のタスクで、 7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023 という入力質問が与えられた場合:

サミーは群衆が集まる場所に行きたいと考えています。彼はどこを選ぶでしょうか？オプションは次のとおりです: (a) 人口密集地域、(b) 競馬場、(c) 砂漠、(d) アパート、(e) 道路障害物

(サミーは人々がいる場所に行きたかった。彼はどこへ行くのでしょう? 回答の選択肢: (a) 人口密集地域、(b) 競馬場、(c) 砂漠、(d) アパート、(e) 道路封鎖）

段階的な改良の後、LLM あなたは「(a) 人口密集地」の設問に正解し、「答えは人の多い場所でなければなりません。上記の選択肢のうち、人が多いのは人口密集地だけです。」の設問にその理由を述べることができる。徐々に改良を加えた結果、LLM は正解は「(a) 人口密集地域」であると結論付けることができ、質問の回答理由を「答えは多くの人が集まる場所でなければなりません。上記の選択肢のうち、人口密集地域のみです」と回答しました。たくさんの人がいます。「人。」

プロンプトで根拠と組み合わせた CoT 例を提供することにより、コンテキスト学習機能により、LLM は、遭遇していない質問タイプに対して適切な回答理由を生成できるようになります

2. トレーニングミニモデル

トレーニングプロセスをマルチタスク問題として構築することで、予測の理由を抽出し、トレーニング用の小規模モデルに組み込むことができます。

標準のラベル予測タスクに加えて、研究者らはまた、新しい理由生成タスクを使用して小規模モデルをトレーニングしました。これにより、モデルは予測のための中間推論ステップを生成する方法を学習し、結果ラベルをより適切に予測できるようにモデルをガイドできるようになりました。

入力プロンプトにタスクのプレフィックス「label」と「rationale」を追加して、ラベル予測タスクと理由生成タスクを区別します。

実験結果

実験では、研究者らはLLMベースラインとして5,400億個のパラメータを持つPaLMモデルを選択し、タスク関連の下流小規模モデルとしてT5モデルを使用しました。

この研究では、自然言語推論用の e-SNLI と ANLI、常識的な質問応答用の CQA、および算術数学のアプリケーション問題用の SVAMP という 4 つのベンチマークデータセットで実験を実施しました。これら 3 つの異なる NLP タスクについて実験を行いました。

トレーニングデータが少ない

段階的蒸留法の方が、標準の微調整よりもパフォーマンスが高く、必要なトレーニングデータが少なくなります

e-SNLI データセットでは、完全なデータセットの 12.5% を使用したときに標準の微調整よりも優れたパフォーマンスが達成されますが、ANLI では、わずか 75%、25%、および 20% を使用した場合に達成されます。トレーニングデータは CQA と SVAMP でそれぞれ必要です。

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

手動でラベル付けされたさまざまなサイズのデータセットに対して 220M T5 モデルを使用した標準的な微調整と比較して、すべてのデータセットで使用するトレーニングサンプルの数が少ない場合、分布の抽出が優れています。少数ショットの CoT 蒸留によって LLM を実行すると、サイズははるかに小さくなりますが、パフォーマンスは向上します。

e-SNLI データセットでは、220M T5 モデルを使用すると 540B PaLM よりも優れたパフォーマンスが得られます。ANLI では、770M T5 モデルを使用すると、540B PaLM よりも優れたパフォーマンスが得られます。モデルサイズはわずか 1/700 #より小さなモデル、より少ないデータ

モデルのサイズとトレーニングデータを削減しながら、数ショット PaLM

# を超えるパフォーマンスを達成することに成功しました。 ## ANLI では、データセット全体の 80% のみを使用しながら、770M T5 モデルを使用して 540B PaLM を上回りました

##標準的な微調整では、完全な 100% データセットでも PaLM のパフォーマンスレベルを維持できます。これは、段階的な蒸留によってモデルサイズとトレーニングデータの量を同時に削減できるため、LLM を超えるパフォーマンスを達成できることを示しています。

以上がパラメータ数は7億7千万、5,400億PaLMを突破！ UW Google、トレーニングデータの 80% のみが必要な「段階的蒸留」を提案 | ACL 2023の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AI内部展開の隠された危険：ガバナンスのギャップと壊滅的なリスクApr 28, 2025 am 11:12 AM

Apollo Researchの新しいレポートによると、高度なAIシステムの未確認の内部展開は、重大なリスクをもたらします。主要なAI企業の間で一般的なこの監視の欠如は、Uncontに及ぶ潜在的な壊滅的な結果を可能にします

AIポリグラフの構築Apr 28, 2025 am 11:11 AM

従来の嘘検出器は時代遅れです。リストバンドで接続されたポインターに依存すると、被験者のバイタルサインと身体的反応を印刷する嘘発見器は、嘘を識別するのに正確ではありません。これが、嘘の検出結果が通常裁判所で採用されない理由ですが、多くの罪のない人々が投獄されています。対照的に、人工知能は強力なデータエンジンであり、その実用的な原則はすべての側面を観察することです。これは、科学者がさまざまな方法で真実を求めるアプリケーションに人工知能を適用できることを意味します。 1つのアプローチは、嘘発見器のように尋問されている人の重要な符号応答を分析することですが、より詳細かつ正確な比較分析を行います。別のアプローチは、言語マークアップを使用して、人々が実際に言うことを分析し、論理と推論を使用することです。ことわざにあるように、ある嘘は別の嘘を繁殖させ、最終的に

AIは航空宇宙産業の離陸のためにクリアされていますか？Apr 28, 2025 am 11:10 AM

イノベーションの先駆者である航空宇宙産業は、AIを活用して、最も複雑な課題に取り組んでいます。近代的な航空の複雑さの増加は、AIの自動化とリアルタイムのインテリジェンス機能を必要とします。

北京の春のロボットレースを見ていますApr 28, 2025 am 11:09 AM

ロボット工学の急速な発展により、私たちは魅力的なケーススタディをもたらしました。 NoetixのN2ロボットの重量は40ポンドを超えており、高さは3フィートで、逆流できると言われています。 UnitreeのG1ロボットの重量は、N2のサイズの約2倍で、高さは約4フィートです。また、競争に参加している多くの小さなヒューマノイドロボットがあり、ファンによって前進するロボットさえあります。データ解釈ハーフマラソンは12,000人以上の観客を惹きつけましたが、21人のヒューマノイドロボットのみが参加しました。政府は、参加しているロボットが競争前に「集中トレーニング」を実施したと指摘したが、すべてのロボットが競争全体を完了したわけではない。チャンピオン - 北京ヒューマノイドロボットイノベーションセンターによって開発されたティアンゴニ

ミラートラップ：AI倫理と人間の想像力の崩壊Apr 28, 2025 am 11:08 AM

人工知能は、現在の形式では、真にインテリジェントではありません。既存のデータを模倣して洗練するのに熟達しています。私たちは人工知能を作成するのではなく、人工的な推論を作成しています。情報を処理するマシン、人間は

新しいGoogleリークは、便利なGoogle写真機能の更新を明らかにしますApr 28, 2025 am 11:07 AM

レポートでは、更新されたインターフェイスがGoogle Photos Androidバージョン7.26のコードに隠されていることがわかり、写真を見るたびに、新しく検出された顔のサムネイルの行が画面の下部に表示されます。新しいフェイシャルサムネイルには名前タグが欠落しているため、検出された各人に関する詳細情報を見るには、個別にクリックする必要があると思います。今のところ、この機能は、Googleフォトが画像で見つけた人々以外の情報を提供しません。この機能はまだ利用できないため、Googleが正確にどのように使用するかはわかりません。 Googleはサムネイルを使用して、選択した人のより多くの写真を見つけるためにスピードアップしたり、編集して個人を選択するなど、他の目的に使用することもできます。待って見てみましょう。今のところ