検索
ホームページテクノロジー周辺機器AIプロンプト最適化問題の再検討、予測バイアスにより言語モデルのコンテキスト学習が強化される

LLM はインコンテキスト学習で優れたパフォーマンスを達成しましたが、別の例を選択すると、まったく異なるパフォーマンスが得られます。最近の研究成果では、予測バイアスの観点から迅速な検索戦略を提案し、例の最適な組み合わせを近似的に見つけます。

プロンプト最適化問題の再検討、予測バイアスにより言語モデルのコンテキスト学習が強化される

  • 論文リンク: https://arxiv.org/abs/2303.13217
  • コードリンク: https://github.com/MaHuanAAA /g_fair_searching

研究紹介

大規模な言語モデルは、コンテキスト学習において驚くべき機能を示しています。これらのモデルは、微調整を必要とせずに、いくつかの入出力例から構築されたコンテキストから学習できます。最適化は、多くの下流タスクに直接適用されます。ただし、これまでの研究では、トレーニング例、例の順序、プロンプト形式の変更により、コンテキスト学習が高度な不安定性を示す可能性があることが示されています。したがって、状況に応じた学習のパフォーマンスを向上させるには、適切なプロンプトを構築することが重要です。

従来の研究では、通常、この問題を 2 つの方向から研究しています: (1) 符号化空間でのプロンプト チューニング (プロンプト チューニング)、(2) 元の空間での検索 (プロンプト検索)。

プロンプト調整の重要なアイデアは、タスク固有の埋め込みを隠れ層に挿入し、勾配ベースの最適化を使用してこれらの埋め込みを調整することです。ただし、これらの方法では、モデルの元の推論プロセスを変更し、モデルの勾配を取得する必要がありますが、GPT-3 や ChatGPT のようなブラックボックス LLM サービスでは現実的ではありません。さらに、ヒント チューニングにより追加の計算コストとストレージ コストが発生し、LLM にとっては一般的に高価になります。

より実現可能で効率的なアプローチは、元のテキスト空間でおおよそのデモンストレーション サンプルとシーケンスを検索してプロンプトを最適化することです。一部の作業では、「グローバル ビュー」または「ローカル ビュー」からプロンプトが作成されます。グローバル ビュー ベースの方法では、通常、プロンプトのさまざまな要素が全体として最適化され、パフォーマンスが向上します。たとえば、多様性に基づくアプローチ [1] では、検索用のデモンストレーションの全体的な多様性を利用したり、サンプルの組み合わせ順序 [2] 全体を最適化してパフォーマンスを向上させたりします。グローバル ビューとは対照的に、ローカル ビューベースの方法は、KATE [3] などのさまざまなヒューリスティック選択基準を設計することによって機能します。

しかし、これらの方法には独自の制限があります: (1) 現在の研究のほとんどは、例の選択や順序などの単一の要素に沿って手がかりを検索することに主に焦点を当てています。ただし、各要因がパフォーマンスに与える全体的な影響は不明です。 (2) これらの方法は通常ヒューリスティック基準に基づいており、これらの方法がどのように機能するかを説明するには統一された視点が必要です。 (3) さらに重要なのは、既存の方法ではヒントをグローバルまたはローカルに最適化するため、パフォーマンスが不十分になる可能性があります。

この記事では、NLP 分野におけるプロンプト最適化問題を「予測バイアス」の観点から再検討し、重要な現象を発見します。それは、特定のプロンプトの品質は、そのプロンプトに固有のバイアスに依存するということです。この現象に基づいて、この記事では、予測バイアスに基づいてプロンプトの品質を評価するための代替基準を提案しています。このメトリクスは、追加の開発セットを必要とせずに、単一のフォワード プロセスを通じてプロンプトを評価できます。

具体的には、特定のプロンプトで「コンテンツなし」テストを入力すると、モデルは均一な予測分布を出力することが期待されます (「コンテンツなし」入力には有用な情報が含まれません)。したがって、この論文では、特定のプロンプトの予測偏差を表すために、予測分布の均一性が使用されます。これは、以前のポストキャリブレーション方法 [4] で使用されるメトリクスに似ていますが、固定プロンプトの下で確率的なポストキャリブレーションにこのメトリクスを使用するポストキャリブレーションとは異なり、この論文では、近似プロンプトを自動的に検索する際のそのアプリケーションをさらに検討します。そして、広範な実験を通じて、特定のプロンプトに固有のバイアスと、特定のテストセットでの平均タスクパフォ​​ーマンスとの相関関係を確認しました。

プロンプト最適化問題の再検討、予測バイアスにより言語モデルのコンテキスト学習が強化される

さらに、このバイアスベースのメトリックにより、このメソッドは「ローカルからグローバルへ」の方法で適切なプロンプトを検索できます。しかし、現実的な問題として、その複雑さは O (N!) を超えるため、すべての組み合わせを走査して最適解を探索することは不可能です。

この研究では、高品質のプロンプトを効率的に検索するための 2 つの新しい戦略を提案しています: (1) T-フェア プロンプティング (2) G-フェア プロンプティング。 T-fair-Prompting は直感的なアプローチを使用し、最初に各サンプルの偏差を個別に計算してプロンプトを形成し、次に上位 k 個の最も公平なサンプルを選択して最終プロンプトに結合します。この戦略は非常に効率的で、複雑さは O (N) です。ただし、T-fair-Prompting は、最適なプロンプトは通常、最も偏りのない例から構築されるという前提に基づいていることに注意してください。ただし、これは実際の状況では当てはまらない可能性があり、多くの場合、局所的な最適解が得られます。したがって、検索品質を向上させるために、記事では G-fair-Prompting がさらに導入されています。 G-fair-Prompting は、貪欲な検索の通常のプロセスに従い、各ステップで局所的な最適な選択を行うことで最適なソリューションを見つけます。アルゴリズムの各ステップで、更新されたプロンプトが最悪の場合の時間計算量 O (N^2) で最適な公平性を達成するようにサンプルが選択され、検索品質が大幅に向上します。 G-fair-Prompting は、ローカルからグローバルへの観点から機能します。初期段階では個々のサンプルのバイアスが考慮され、後の段階ではグローバルな予測バイアスの削減に焦点が当てられます。

実験結果

この研究は、さまざまな下流タスクに適用できる、言語モデルのコンテキスト学習パフォーマンスを向上させるための効果的で解釈可能な方法を提案します。この記事では、さまざまな LLM (GPT シリーズのモデルや最近リリースされた LMaMA シリーズを含む) でのこれら 2 つの戦略の有効性を検証しています。SOTA 手法と比較して、G-fair-Prompting はさまざまなダウンストリーム タスクで 10% 以上を達成しました。 。

プロンプト最適化問題の再検討、予測バイアスにより言語モデルのコンテキスト学習が強化される

この研究に最も近いのは、使用前キャリブレーション [4] 手法です。どちらも、モデルのパフォーマンスを向上させるために「コンテンツのない」入力を使用します。ただし、使用前キャリブレーション方法は、この標準を使用して出力をキャリブレーションするように設計されており、使用されるサンプルの品質の影響を受けやすくなります。対照的に、この論文は、モデル出力の後処理を行わずに、元の空間を検索してモデルのパフォーマンスを向上させる最適に近いプロンプトを見つけることを目的としています。さらに、この論文は、使用前キャリブレーション方法ではまだ研究されていない、予測バイアスと最終的なタスクのパフォーマンスとの関連性を広範な実験を通じて初めて実証しました。

プロンプト最適化問題の再検討、予測バイアスにより言語モデルのコンテキスト学習が強化される

実験を通じて、キャリブレーションを行わなくても、この記事で提案した方法によって選択されたプロンプトは、キャリブレーションされたランダムに選択されたプロンプトよりも優れている可能性があることもわかります。これは、この方法が実際のアプリケーションで実用的かつ効果的であり、将来の自然言語処理研究にインスピレーションを与える可能性があることを示しています。

以上がプロンプト最適化問題の再検討、予測バイアスにより言語モデルのコンテキスト学習が強化されるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
1つのプロンプトは、すべての主要なLLMのセーフガードをバイパスできます1つのプロンプトは、すべての主要なLLMのセーフガードをバイパスできますApr 25, 2025 am 11:16 AM

HiddenLayerの画期的な研究は、主要な大規模な言語モデル(LLMS)における重大な脆弱性を明らかにしています。 彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

5つの間違いほとんどの企業が今年持続可能性を備えています5つの間違いほとんどの企業が今年持続可能性を備えていますApr 25, 2025 am 11:15 AM

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。 この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

H20チップバンジョルツチャイナ企業ですが、彼らはインパクトのために長い間支えられてきましたH20チップバンジョルツチャイナ企業ですが、彼らはインパクトのために長い間支えられてきましたApr 25, 2025 am 11:12 AM

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

OpenaiがChromeを購入すると、AIはブラウザ戦争を支配する場合がありますOpenaiがChromeを購入すると、AIはブラウザ戦争を支配する場合がありますApr 25, 2025 am 11:11 AM

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65%の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

AIが小売メディアの成長する痛みをどのように解決できるかAIが小売メディアの成長する痛みをどのように解決できるかApr 25, 2025 am 11:10 AM

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。 この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。 ただし、人工知能

「aiは私たちであり、それは私たち以上のものです」「aiは私たちであり、それは私たち以上のものです」Apr 25, 2025 am 11:09 AM

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudは、次の2025年にインフラストラクチャについてより深刻になりますGoogle Cloudは、次の2025年にインフラストラクチャについてより深刻になりますApr 25, 2025 am 11:08 AM

Google Cloudの次の2025年:インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。 特定の発表の詳細な分析については、私の記事を参照してください

Baby Ai Meme、Arcanaの550万ドルのAI映画パイプライン、IRの秘密の支援者が明らかにした話Baby Ai Meme、Arcanaの550万ドルのAI映画パイプライン、IRの秘密の支援者が明らかにした話Apr 25, 2025 am 11:07 AM

今週はAIとXR:AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。 見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり:テクノロジーコンサルタントのShelly Palme

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール