ホームページ > 記事 > テクノロジー周辺機器 > 30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。
人工知能の重要な目標は、強力な一般化機能を備えたモデルを開発することです。自然言語処理 (NLP) の分野では、事前トレーニングされた言語モデルがこの点で大きな進歩を遂げました。このようなモデルは、新しいタスクに適応するために微調整されることがよくあります。
最近、Google の研究者は、命令の微調整に対する拡張機能の影響を含む、さまざまな命令の微調整方法を分析しました。実験によると、命令の微調整はタスクの数とモデルのサイズに応じて実際に適切に拡張でき、最大 5,400 億のパラメーターのモデルで大きなメリットが得られることが示されており、将来の研究ではタスクの数とモデルのサイズがさらに拡大されるはずです。さらに、この研究では、モデルの推論実行能力に対する微調整の影響も分析されており、その結果は非常に魅力的です。
結果として得られた Flan-T5 には、1,800 を超える言語タスク向けに微調整された命令が含まれており、プロンプトと複数ステップの推論機能が大幅に向上しており、1,750 億個のパラメータのうち GPT-3 を超える可能性があります。
#Google は大規模モデルの機能を向上させる方向性を見つけたようです。しかし、この研究は機械学習コミュニティの歓迎を集めただけでなく、Gary Marcus 氏の苦情も引き付けました。 Google のモデル Google の有名な科学者ジェフリー ヒントンの生年月日が間違ったのはなぜですか?彼は明らかに1947年生まれの古株だ。
Google Brain の主任科学者であり、この論文の著者の 1 人であるクオック・リー氏は、すぐに状況を正すために出てきました。派遣労働者の写真は間違っていました。そして、Flan-T5 モデルは論文に含まれていませんでした。ジェフの生年月日を間違えましたが、それを証明する写真があります。ちなみに、1963年生まれの有名なAI学者はユルゲン・シュミットフーバーです。
間違っているのは AI モデルではないので、Google の新しい手法が事前トレーニング済みモデルにどのような変化をもたらすかを見てみましょう。
#論文: スケーリング命令 - 微調整された言語モデル
##論文アドレス: https://arxiv.org/abs/2210.11416
公開モデル: https://arxiv.org/abs/2210.11416 github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints方法
具体的には、この研究は主に、(1) タスクの数の拡大、(2) タスクの拡大など、指導の微調整に影響を与えるいくつかの側面に焦点を当てています。モデルのサイズ、および (3) 思考連鎖データを微調整します。
研究では、上記の側面による命令の微調整により、さまざまなモデル クラス (PaLM、T5、U-PaLM)、プロンプト設定 (ゼロ ショット、少数ショット、CoT)、および評価ベンチマークが大幅に改善されたことがわかりました。 MMLU、BBH、TyDiQA、MGSM、オープン世代)。たとえば、命令を微調整した Flan-PaLM 540B は、1.8K タスクで PALM 540B を大幅に上回ります (平均 9.4%)。 Flan-PaLM 540B は、5 つの MMLU で 75.2% など、いくつかのベンチマークで最先端のパフォーマンスを達成します。
研究者らは、PaLM 62B などの大型モデルと比較した場合でも強力な数ショット性能を達成する Flan-T5 チェックポイントも公開しました。全体として、命令の微調整は、事前トレーニングされた言語モデルのパフォーマンスと使いやすさを向上させるための一般的なアプローチです。
図 1. 研究者は、1,800 を超えるタスクでさまざまな言語モデルを微調整しました。サンプル数 (ゼロまたは少数のサンプル) と思考チェーンの有無により、さまざまな評価シナリオにわたる一般化が可能になります。
# 図 2. 微調整データには 473 のデータセット、146 のタスク カテゴリ、および合計が含まれます1836 のタスク。
データの微調整とプログラムの微調整プロセスが完了した後、研究者は、タスクの影響に対するモデル サイズのパフォーマンス。まず、3 つのモデル サイズすべてにおいて、マルチタスク命令の微調整を行うと、微調整を行わない場合と比較してパフォーマンスが大幅に向上し、9.4% ~ 15.5% の範囲で向上します。次に、微調整タスクの数を増やすと、パフォーマンスが向上します。
最後に、モデル サイズを 1 桁増やす (8B → 62B または 62B → 540B) と、微調整されたモデルと非微調整されたモデルの両方のパフォーマンスが大幅に向上することがわかります。 -チューンドモデル。
マルチタスク命令の微調整がモデル サイズ (パラメーターの量) と相対的な精度に及ぼす影響と、微調整タスクの数と規模の拡大 影響。
微調整データ内のタスクの数を増やすと、ほとんどの点で Flan-PaLM が改善されます。パフォーマンスのベンチマークを評価します。
# 研究者らは、思考連鎖 (CoT) の注釈が付けられた 9 つのデータセットを微調整混合に含めることで、推論機能が向上することを実証しました。以下の表は、Flan-PaLM の CoT プロンプト機能が 4 つの評価ベンチマークで PaLM を上回っていることを示しています。
この研究では、CoT データの命令を微調整することのもう 1 つの利点は、ゼロショット推論を達成できることであることがわかりました。 CoT は、わずか数個のサンプルを使用して独自に推論機能を生成しますが、正しく実装するには大規模なエンジニアリング調整が必要になる場合があります。
図 6: 23 個の困難な BIG-Bench タスク (BBH) ゼロのセットでの PaLM と Flan-PaLMショットパフォーマンスオン。 Flan-PaLM では、「ステップごとに考えてみましょう」コマンドによってアクティブ化される思考連鎖 (CoT) の生成が必要です。
新しい手法の汎用性を実証するために、Google は T5、PaLM、U-PaLM をトレーニングし、8,000 万から 5,400 億パラメータの範囲のモデル サイズをカバーし、すべてのモデルがパフォーマンスを大幅に向上できることを発見しました。
#表 5. 命令微調整 (Flan) は、他の継続的な事前トレーニング方法よりもパフォーマンスを向上させます。
テスト後、命令の微調整により、すべてのモデル タイプの正規化された平均パフォーマンスが大幅に向上し、T5 モデルは、命令の微調整を行わなかったモデルと比較して恩恵を受けました。微調整されたモデルがほとんどです。これらの結果は、一部のベンチマークでは非常に強力です。たとえば、Flan-T5-XL は、わずか 30 億のパラメーターで 47.6% の MMLU スコアを達成し、1,750 億のパラメーターでの GPT-3 の 43.9% スコアを上回りました。
NLP ベンチマークに加えて、言語モデルは自由形式の質問リクエストに対する長い形式の回答を生成できます。この点において、標準的な NLP ベンチマークとその評価に使用される自動化された指標は、人間の好みを測定するには不十分です。研究者らはこれを評価し、190 例からなる評価セットを作成しました。評価セットは、創造性、文脈上の推論、複雑な推論、計画、説明という、それぞれ 20 問からなる 5 つの難しいカテゴリにわたって、ゼロショット方式でモデルに提示される質問で構成されます。
これらの例のうち 60 個 (複雑な推論、計画、説明のカテゴリーから) について、研究では思考連鎖トリガー フレーズ (例: 「段階的に考えてみましょう」) とのリンクを作成しました。 .”)、CoT でゼロショットを有効にして微調整が行われたかどうかの別の評価として。前述の 160 個のゼロショット入力に加えて、この研究には、指導による微調整のない強力な言語モデルが良好に機能することが示されている少数ショット機能をテストするための 30 個の入力も含まれています。
研究者らは、命令の微調整とスケール拡張の両方で大規模な言語モデルのパフォーマンスを継続的に向上させることができ、微調整は推論機能にとって重要であり、モデルの機能を一般化することもできると考えています。命令の微調整と UL2R などの他のモデル適応手法を組み合わせることで、Google はこの作業で最強のモデル Flan-U-PaLM を提案します。
重要なのは、命令の微調整は、モデル スケールの拡張のようなコンピューティング コストを大幅に増加させるものではありません。たとえば、PaLM 540B の場合、命令の微調整には事前トレーニング計算の 0.2% しか必要ありません。ただし、評価ベンチマーク全体の正規化平均を 9.4% 向上させることができます。ディレクティブ ナッジを使用する小規模なモデルは、ナッジを使用しない大きなモデルよりもパフォーマンスが優れている場合があります。
これらの理由から、研究者は、ほぼすべての事前トレーニング済み言語モデルに対して命令を微調整することを推奨しています。
以上が30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。