言語モデルとコーパスのサイズが徐々に拡大するにつれて、大規模言語モデル (LLM) の可能性がさらに高まります。最近のいくつかの研究では、LLM がコンテキスト内学習 (ICL) を使用して、数学的推論の問題を解決するなど、さまざまな複雑なタスクを実行できることが示されています。
北京大学、上海 AI 研究所、カリフォルニア大学サンタバーバラ校の 10 人の研究者が最近、ICL 研究の現在の進捗状況を詳細にまとめた、インコンテキスト学習に関する総説論文を発表しました。
#論文アドレス: https://arxiv.org/pdf/2301.00234v1.pdf
インコンテキスト学習の中心的な考え方は類推学習です。次の図は、言語モデルが意思決定を行うために ICL をどのように使用するかを示しています。
まず、ICL ではデモンストレーション コンテキストを形成するためにいくつかの例が必要であり、これらの例は通常、自然言語テンプレートで記述されます。次に、ICL はクエリの質問をプレゼンテーション コンテキストに関連付けてプロンプトを形成し、それを予測用の言語モデルにフィードします。逆勾配を使用してモデル パラメーターを更新する必要がある教師あり学習のトレーニング フェーズとは異なり、ICL ではパラメーターの更新が必要ないため、事前トレーニングされた言語モデルが予測タスクを直接実行でき、モデルはデモンストレーションで隠れたパターンを学習することが期待されます。例を確認し、それに基づいて意思決定を行うことで、正しい予測を行うことができます。
新しいパラダイムとして、ICL には多くの魅力的な利点があります。まず、デモの例は自然言語形式で書かれており、大規模な言語モデルに関連する解釈可能なインターフェイスを提供します。このパラダイムにより、デモンストレーションの例やテンプレートを変更することで、人間の知識を言語モデルに組み込むことが容易になります (Liu et al., 2022; Lu et al., 2022; Wu et al., 2022; Wei et al., 2022c)。第二に、コンテキスト内学習は、類推による人間の学習の意思決定プロセスに似ています。第三に、教師ありトレーニングと比較して、ICL はトレーニング不要の学習フレームワークです。これにより、モデルを新しいタスクに適応させるための計算コストが大幅に削減されるだけでなく、サービスとしての言語モデル (LMaaS、Sun et al.、2022) が可能になり、大規模な現実世界のタスクに簡単に適用できるようになります。
ICL には大きな期待があるにもかかわらず、そのパフォーマンスを含め、検討する価値のある問題がまだ多くあります。たとえば、元の GPT-3 モデルには特定の ICL 機能がありますが、一部の研究では、この機能は事前トレーニング中の適応によって大幅に向上できることがわかっています。さらに、ICL のパフォーマンスは、プロンプト テンプレート、状況に応じたサンプルの選択、サンプルの順序などの特定の設定に影響されます。また、ICLの作用メカニズムは合理的であるように見えますが、まだ十分に明らかではなく、その作用メカニズムを事前に説明できる研究は多くありません。
このレビュー ペーパーでは、ICL の強力なパフォーマンスは次の 2 つの段階に依存していると結論付けています。
- 大規模な言語モデルの ICL 機能を育成する トレーニングフェーズ;
- 大規模な言語モデルが特定のタスクのデモンストレーションに基づいて予測を行う推論フェーズ。
トレーニング フェーズでは、言語モデルは、左から右への生成などの言語モデリングの目標に従って直接トレーニングされます。これらのモデルは特にコンテキスト内学習用に最適化されていませんが、ICL の機能は依然として驚くべきものです。既存の ICL 研究は基本的に、よく訓練された言語モデルに基づいています。
推論段階では、入力ラベルと出力ラベルが解釈可能な自然言語テンプレートで表されるため、ICL のパフォーマンスを複数の観点から最適化できます。このレビュー ペーパーでは、詳細な説明と比較を提供し、デモンストレーションに適切な例を選択し、さまざまなタスクに対する特定のスコアリング方法を設計します。
このレビュー ペーパーの一般的な内容と構造を以下の図に示します。これには、ICL の正式な定義 (§3)、ウォームアップ方法 (§4)、プロンプト設計戦略 ( §5 ) およびスコアリング関数 (§6)。
さらに、§7 では、ICL の背後にある仕組みを解明するという現在の取り組みについての洞察が得られます。さらに、§8 では、ICL に関する有用な評価とリソースが提供され、§9 では、ICL の有効性を実証する潜在的な応用シナリオが紹介されています。最後に、§10 では、ICL 分野の既存の課題と潜在的な方向性を要約し、この分野のさらなる発展のための参考資料を提供します。
興味のある読者は、論文の原文を読んで研究の詳細を学ぶことができます。
以上がGPTから始まったIn-Context Learningの開発状況はどうなっているのでしょうか?このレビューで明らかになりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

Dreamweaver Mac版
ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。
