GPT によって推進されるインコンテキスト学習はなぜ機能するのでしょうか?モデルは秘密裏に勾配降下法を実行します-AI-php.cn

ホームページ

テクノロジー周辺機器

GPT によって推進されるインコンテキスト学習はなぜ機能するのでしょうか?モデルは秘密裏に勾配降下法を実行します

PHPz

Apr 25, 2023 pm 10:16 PM

gptモデル

BERT の後、研究者は大規模な事前トレーニングモデルの可能性に気づき、さまざまな事前トレーニングタスク、モデルアーキテクチャ、トレーニング戦略などが提案されています。ただし、BERT タイプのモデルには通常 2 つの大きな欠点があります: 1 つはラベル付きデータへの過度の依存、もう 1 つは過剰適合です。

具体的には、現在の言語モデルは 2 段階のフレームワーク、つまり、事前トレーニングと下流タスクの微調整を使用する傾向がありますが、微調整中に大量のサンプルが必要になります。 -下流タスクのプロセスを調整するそうしないと、効果は低くなりますが、データのラベル付けのコストが高くなります。ラベル付きデータも限られており、モデルはトレーニングデータの分布にのみ適合できますが、データが少ないと過剰適合につながりやすく、モデルの汎化能力が低下します。

大規模モデルのパイオニアとして、大規模な事前トレーニング済み言語モデル、特に GPT-3 は、驚くべき ICL (In-Context Learning) 機能を示しています。追加のパラメーター更新が必要な微調整とは異なり、ICL ではデモンストレーション用の「入力ラベル」ペアが数個だけ必要であり、モデルは目に見えない入力ラベルであってもラベルを予測できます。多くの下流タスクでは、大規模な GPT モデルは非常に優れたパフォーマンスを達成でき、教師あり微調整を使用すると一部の小規模モデルを上回ることさえあります。

なぜ ICL は非常に優れたパフォーマンスを発揮するのでしょうか? OpenAI の 70 ページを超える論文「言語モデルは少数回の学習者である」で、ICL について詳しく説明されています。使用するドメインデータが少なくなり、微調整せずに問題を解決できます。

次の図に示すように、ICL には 3 つのカテゴリがあります: いくつかの例とタスクの説明を入力できる少数ショット学習、タスクの説明のみを入力できるワンショット学習1 つの例と 1 つのタスクの説明の入力タスクの説明; ゼロショット学習では例の入力は許可されず、タスクの説明のみが許可されます。結果は、ICL はバックプロパゲーションを必要とせず、入力テキストのコンテキストに少数のラベル付きサンプルを配置するだけで、GPT-3 に回答を出力させることができることを示しています。

##GPT-3 コンテキスト学習# 実験により、GPT-3 がフューショット下で非常に優れたパフォーマンスを発揮することが証明されました:

GPT を研究できる理由インコンテキストで?

被GPT带飞的In-Context Learning为什么起作用？模型在秘密执行梯度下降

ICL はパフォーマンスの面で大きな成功を収めていますが、その動作メカニズムはまだ研究すべき未解決の問題です。 ICL の仕組みをより深く理解するために、次に北京大学、清華大学、その他の機関による研究で ICL がどのように説明されているかを紹介します。

被GPT带飞的In-Context Learning为什么起作用？模型在秘密执行梯度下降論文アドレス: https://arxiv.org/pdf/2212.10559v2.pdf

プロジェクトアドレス: https://github.com/microsoft/LMOps
#ネチズンの言葉で要約すると、すなわち、「この研究は、GPT が特定の実行を実行するために内部最適化を使用することを自然に学習することを示しています。この研究はまた、コンテキスト内学習と明示的な微調整が複数のレベルで同様に実行されるという経験的証拠も提供します。」

ICL の仕組みをより深く理解するために、この研究では、言語モデルをメタオプティマイザーとして、ICL をメタ最適化プロセスとして、ICL を暗黙的な微調整として解釈し、GPT ベース間のリンクを確立することを試みます。 ICLと微調整。理論的には、この研究では、Transformer の注意には勾配降下法に基づく二重最適化の形式があることがわかりました。

これに基づいて、この研究は ICL を説明するための新しい視点を提案します。GPT は最初に実証例に基づいてメタ勾配を生成し、次にこれらのメタ勾配を元の GPT に適用して構築します。 ICLモデル。

図 1 に示すように、ICL と明示的微調整は、勾配降下法に基づく二重最適化形式を共有します。唯一の違いは、ICL は順方向計算によってメタ勾配を生成するのに対し、微調整は逆伝播によって勾配を計算することです。したがって、ICL をある種の暗黙的な微調整として理解するのが合理的です。

被GPT带飞的In-Context Learning为什么起作用？模型在秘密执行梯度下降 ICR は暗黙的な微調整を実行します

調査では、最初に定性分析勾配降下法ベースの最適化との二重性を見つけるための、リラックスした線形注意の形でのトランスフォーマーの注意。次にこの研究では、ICL と明示的な微調整を比較し、これら 2 つの最適化形式間の関連性を確立します。これらの理論的発見に基づいて、彼らは ICL を暗黙的な微調整として理解することを提案しています。

まず第一に、この研究では、Transforme の注意をメタ最適化と見なし、ICL をメタ最適化プロセスとして解釈します。 (1) Transformer に基づく事前トレーニング済み言語モデルは、メタオプティマイザー; ( 2) 順計算を通じてインスタンスに基づいてメタグラデーションを生成; (3) ICL を構築するための注意を通じて元の言語モデルにメタグラデーションを適用します。

次はICLとファインチューニングの比較です。研究では、さまざまな設定において、ICL は微調整により多くの特性を共有していることがわかりました。彼らは、これらの共通点を次の 4 つの側面から整理しました: どちらも勾配降下法を実行すること、同じトレーニング情報、トレーニング例の同じ因果関係の順序、そして両方とも注意を中心に展開することです。

ICL と微調整の間のこれらすべての共通特性を考慮すると、この研究では、ICL を暗黙的な微調整として理解するのが合理的であると主張しています。このペーパーの残りの部分では、この研究では、この理解を裏付ける定量的な結果を提供するために、ICL と微調整を複数の側面から経験的に比較します。

実験結果

この研究では、ICL の動作と実際のタスクに基づく明示的な微調整を包括的に比較する一連の実験を実施しました。事前トレーニングされた GPT は ICL で比較され、予測、注意出力、注意スコアに関して微調整された設定が行われます。予想通り、ICL は、予測、表現、注意レベルの点で明示的な微調整と非常によく似ています。これらの結果は、この妥当性を強く裏付けています。ICL は暗黙的な微調整を実行します。

さらに、この研究は、メタ最適化の理解に触発されて、運動量ベースの勾配降下法アルゴリズムと類似して、運動量ベースの注意を設計しました。これは、バニラのアテンションのパフォーマンスを常に上回っています。

表 2 は、6 つの分類データセットに対する ZSL (ゼロショット学習)、ICL、および微調整 (FT) 設定における検証精度を示しています。 ICL と微調整はどちらも ZSL と比較して大幅な改善を達成しています。これは、行われた最適化がこれらの下流タスクに役立つことを意味します。さらに、この研究では、ショット数が少ないシナリオでは、微調整よりも ICL の方が優れたパフォーマンスを発揮することがわかりました。

6 つのデータセットに対する 2 つの GPT モデルの Rec2FTP スコアを表 3 に示します。平均して、ICL は微調整で修正できる ZSL の例の 87.64% を正確に予測できます。これらの結果は、予測レベルでは、ICL が正しい微調整動作のほとんどをカバーできることを示しています。被GPT带飞的In-Context Learning为什么起作用？模型在秘密执行梯度下降

表 3 には、6 つのデータセット上の 2 つの GPT モデルの例と層の平均 SimAOU スコアも示しています。比較のために、この研究では、ICL アップデートとランダムに生成されたアップデートの間の類似性を計算するベースラインメトリック (Random SimAOU) も提供しています。表からわかるように、ICL の更新はランダムな更新よりも微調整された更新に似ています。つまり、表現レベルでは、ICL は微調整された変更の方向に注意の結果を変更する傾向があります。

最後に、表 3 には、6 つのデータセット上の 2 つの GPT モデルの例と層の平均 SimAM スコアも示されています。 SimAM のベースラインメトリックとして、ZSL SimAM は ICL アテンションウェイトと ZSL アテンションウェイト間の類似性を計算します。この研究では、2 つの指標を比較することにより、ICL は ZSL と比較して、微調整と同様の注意の重みを生成する傾向が高いことがわかりました。注意行動のレベルでも、この研究は ICL がナッジのように動作することを示しています。

被GPT带飞的In-Context Learning为什么起作用？模型在秘密执行梯度下降

ICL と微調整の類似点をより徹底的に調査するために、この調査では、さまざまなレイヤーの SimAOU スコアと SimAM スコアを比較しました。各データセットから 50 個の検証例をランダムにサンプリングすることにより、以下の図 2 と図 3 に示すように、SimAOU および SimAM 箱ひげ図がそれぞれ描画されました。

この図から、SimAOU と SimAM は下位層では変動し、上位層ではより安定する傾向があることがわかります。この現象は、ICL によって実行されるメタ最適化には順方向累積効果があり、累積が増加するにつれて、ICL はより高レベルの微調整のように動作することを示しています。

被GPT带飞的In-Context Learning为什么起作用？模型在秘密执行梯度下降

#概要

結論として、この記事は ICL ベースの動作を説明することを目的としています。 GPTメカニズムについて。理論的には、この研究は ICL の二重形式を発見し、ICL をメタ最適化プロセスとして理解することを提案します。さらに、この研究では ICL と特定の微調整設定との関連性が確立され、ICL を暗黙的な微調整と考えるのが合理的であることがわかりました。 ICL によって実行される暗黙的な微調整の理解をサポートするために、この研究では、ICL の動作と実際のタスクベースの微調整を包括的に比較します。 ICL は明示的な微調整に似ていることがわかりました。

さらに、この研究は、メタ最適化に触発されて、一貫したパフォーマンスの向上を達成するために、勢いに基づいた注意を設計しました。著者らは、この研究がより多くの人々にICLアプリケーションとモデル設計についての洞察を得るのに役立つことを願っています。

以上がGPT によって推進されるインコンテキスト学習はなぜ機能するのでしょうか?モデルは秘密裏に勾配降下法を実行しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。