大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い-AI-php.cn

ホームページ

テクノロジー周辺機器

大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 05, 2024 pm 08:48 PM

deepmindプロジェクト

主に人間が生成したデータに依存して大規模なモデルを微調整するという現在の一般的な慣行に直面して、Google DeepMind はこの依存性を軽減するより効率的な方法を模索しました。

あなたも私もお分かりのとおり、大規模言語モデル (LLM) は深層学習の状況を変え、人間品質のテキストを生成し、さまざまな言語タスクを解決する優れた機能を実証しています。業界は人間が収集したデータを監視しながら微調整することで特定のタスクのパフォーマンスをさらに向上させてきましたが、高品質の人間データを取得することは大きなボトルネックに直面しています。これは、多大なリソースと専門知識を必要とする複雑な問題の解決を伴うタスクに特に当てはまります。

どうやって解決しますか？モデルによって生成された合成データは、データの品質が維持されている限り、スケーラブルでコスト効率の高い有望な代替手段です。

LLM は生成されたデータを自己評価できますが、この論文では、Google DeepMind が、生成された各サンプルの品質指標として外部スカラーフィードバック信号を使用する、より単純なセットアップを検討します。

大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

論文アドレス: https://arxiv.org/pdf/2312.06585.pdf

モデル生成データのトレーニングを研究するために、研究者らは、シンプルだが強力な言語モデルの自己トレーニングを検討しました。このメソッドに必要な機能は 2 つだけです。1 つはモデルに基づいてサンプルを生成すること、もう 1 つはスコアリングメカニズムを使用してこれらのサンプルを評価することです。

明確さと一貫性を確保するために、研究者らは強化自己学習法 ReST^?? を採用し、この方法が強化学習に期待値最大化 (EM) を使用できることを証明しました。具体的には、ReST^?? は期待ステップと最大化ステップを交互に行います。

生成 (E ステップ): 言語モデルは、入力コンテキストごとに複数の出力サンプルを生成し、バイナリ報酬を使用してこれらのサンプルをフィルター処理して、トレーニングデータセットを収集します。
改善 (M ステップ): 元の言語モデルは、前の E ステップからのトレーニングデータセットに基づいて微調整され、次の E ステップで使用されます。

研究者らは、ReST^?? とその亜種が、機械翻訳、意味分析、好みの調整、基本的な推論などのさまざまな分野で言語モデルの強化に成功していることを確認しました。

さらに、以前の研究では主に比較的小規模なモデル (最大 70 億のパラメータ) に ReST^?? を使用し、より大きなモデルのスケーラビリティには制限がありました。したがって、このホワイトペーパーは、競争レベルでの数学的問題解決 (MATH) とコード生成 (APPS) という、困難だがあまり研究されていない 2 つの領域において、モデル生成の合成データと人間生成のデータの有効性とスケーラビリティを調査することを目的としています。

実験結果は、異なるサイズの PaLM 2 モデルに ReST^?? を使用すると、数学的推論とコード生成タスクで大幅なパフォーマンスの向上が達成されることを示しています。モデルによって生成された合成データに基づいて微調整されたモデルは、人間が作成したデータに基づいてトレーニングされたモデルよりも大きなパフォーマンスの向上を達成しました。興味深いことに、一定の ReST^?? 反復回数を超えるとパフォーマンスが低下し、少数のトレーニング問題で過剰適合が発生する可能性が示されています。

さらに、モデルは ReST^?? を使用して微調整され、 pass@k メトリクスと多数決のパフォーマンスが向上しました。これらの微調整されたモデルは、数学 (GSM8K およびハンガリーの HS 決勝)、コーディング (HumanEval)、ビッグベンチハードタスクなど、関連するものの保留されているベンチマークでもパフォーマンスの向上を示しています。

要約すると、この論文の結果は、フィードバックによる自己トレーニングが人間のデータへの依存を減らす有望な方法であることを示しています。

強化自己訓練のための期待最大値(EM)

まず、この研究は、ダヤンとヒントンの以前の研究に基づいており、言語モデルを使用してEMベースの強化学習フレームワークを記述しています。。具体的には、まず、?(?= 1|?,?)∝?(?(?,?)) となるようなバイナリ最適変数 O を定義し、次に非減少関数 ?: ℝ → ℝ+ に対して、最大化を達成しました。観測?= 1 (高い報酬を得る) とすると、次の式が得られます:

大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

ただし、上記の方程式の数列の和を解くのは難しいです。したがって、この論文では、log ?(? = 1; ?) を最大化する代わりに、パラメータ ? および変分分布 ?( ?|?) に関してその ELBO ?( ??, ?) を最大化することを検討します。具体的には:

大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

式 (2) の EM アルゴリズムは、E ステップ (期待値) と M ステップ (最大化) を交互に実行します。

ReST^??: EM フレームワークに触発された次の論文では、Gulcehre らによって提案された ReST メソッドの簡易バージョンについて説明します。わかりやすくするために、この記事ではこのアプローチを ReST^?? と呼びます。これは、RL パイプラインのデータ収集 (E ステップ) とポリシーの最適化 (M ステップ) を分離します。アルゴリズム 1:

大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

生成 (E ステップ) : このステップでは、スタディは現在のポリシー大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

から出力シーケンスをサンプリングすることでデータセット大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

を生成します。ここでは、入力は元のデータセット大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

からリサンプリングされています。大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

の出力シーケンスは、バイナリ報酬関数 ?(?, ?) を使用してスコア付けされます。

改善 (M ステップ) : ? 反復では、研究は E ステップで新しいデータセット大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

を使用して戦略 ?? を微調整します。 Gulcehre 氏の研究とは異なり、彼らは基本的な事前トレーニング済み言語モデルを微調整して、タスク固有の過剰適合を最小限に抑え、基本モデルからの逸脱を最小限に抑えます。微調整のために、研究では報酬で重み付けされた負の対数尤度損失大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

を最小限に抑えます。戦略が改善されると、より高品質のサンプルを含む新しいデータセットを再度作成できます。

実験と分析

この論文で実験を行う主な目的は、次の質問に答えることです:

ReST^ は微調整と比較してどの程度効果的ですか??人間が生成したデータについて?
最高のパフォーマンスを得るには何回の反復が必要ですか? ReST^??トレーニングセットをオーバーフィットするのにどれくらい時間がかかりますか?
ReST^??pass@k と多数決のパフォーマンスにどのような影響がありますか?
ユーザーがモデルによって生成されたデータを特定のタスクの微調整に使用した場合、そのデータは他のタスクに移行されますか?さまざまなタスクで微調整されたモデルを評価する場合、基本モデルと比較してパフォーマンスは低下しますか?
ReST によるパフォーマンスの向上を最大限に得るために必要な入力データの量はおよそどのくらいですか^??? ReST^ を 1 回繰り返すだけで十分ですか?

この調査では、PaLM 2 モデルと、PaLM 2-S (Bison)、PaLM 2-S* (Codey)、PaLM 2-L (Unicorn) などの Google Cloud 上のパブリック API を使用した実験を実施しました。トレーニングデータセットは、MATH データセットと APPS データセットを使用します。

図 2 と図 3 は、それぞれ MATH データセットと APPS データセットでトレーニングされた ReST^?? のパフォーマンスを示しています。 MATH は、MATH テストセットでのパフォーマンスと GSM8K への移行の両方の観点から、ReST^?? を複数回繰り返すことによって恩恵を受けると結論付けることができます。一方、APPS の利点のほとんどは最初の反復から得られる一方、反復をさらに実行すると、APPS と HumanEval の両方のパフォーマンスが低下することがわかります。

大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

トレーニングとテストの成績の間のギャップ。図 4 は、トレーニングセットのパフォーマンスが ReST^?? の反復回数に応じて直線的に増加する一方で、テストセットのパフォーマンスは増加しないことを示しています。 MATH の場合、最初の反復後にテストパフォーマンスの向上はほとんど観察されませんでしたが、APPS の場合、2 回目の反復でパフォーマンスの低下が観察されました。この研究では、パフォーマンスの低下は過学習によるものである可能性があると推測しています。 APPS データセットのサイズは MATH データセットの約 3 分の 1 であるため、この問題の影響を受けやすくなります。

大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

図 5 は、pass@K メトリクスにおける Palm-2-L モデルのパフォーマンスを示しています。結果は、微調整後に得られた ReST^?? モデルが K のすべての値に対してより強力であり、パフォーマンスのギャップは一般に K=1 で最大であることを示しています。大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良い

以上が大規模なモデルの微調整は人間のデータに依存する必要がありますか? DeepMind: フィードバックを伴う自己トレーニングの方が良いの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Gemma Scope：AI＆＃039;の思考プロセスを覗くためのGoogle＆＃039;の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか？Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除：ビジネスインテリジェンスアナリストになるためのガイド生データを組織の成長を促進する実用的な洞察に変換することを想像してください。これはビジネスインテリジェンス（BI）アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント：データベースに列を動的に追加するデータ管理では、SQLの適応性が重要です。その場でデータベース構造を調整する必要がありますか？ Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。シム

ExcelのCountとCountaとは何ですか？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析：カウントとカウントの機能の詳細な説明特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。キーポイントの概要カウントとcouを理解します

ChromeはAIと一緒にここにいます：毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution：パーソナライズされた効率的なブラウジングエクスペリエンス人工知能（AI）は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。この記事では、興奮を探ります

ai＆＃x27; s Human Side：Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考：四重材のボトムライン長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。