ホームページ > 記事 > テクノロジー周辺機器 > ChatGPT の背後にある命令学習とは何ですか? PSU が「教育的学習」に関する初の包括的なレビューを発表
タスク セマンティクスは、一連の入力から出力の例またはテキスト命令によって表すことができます。従来の自然言語処理 (NLP) 機械学習手法は、主に大規模なタスク固有のサンプル セットの利用可能性に依存しています。
しかし、2 つの問題が発生します。 まず、アノテーションを付けるには複雑またはコストがかかりすぎるタスク、またはシステムがシナリオを必要とするタスクには適していない、タスク固有のマークアップの例を収集します。新しいタスクがすぐに処理される場合、第 2 に、エンド ユーザーは一連の例ではなく、システムを使用する前にタスクの説明を提供することを好む場合があるため、これはユーザー フレンドリーではありません。
結果として、コミュニティは NLP のための新しい監督を求めるパラダイムにますます関心を持つようになりました。 タスク説明書より。目覚ましい進歩にもかかわらず、コミュニティは依然としていくつかの共通の問題に直面しています。
この記事では、指示学習に関する現在の研究を次の観点から要約します。
(1) 課題指示とは何かどのような命令が存在するのか? 命令の種類は?
(2) 命令をモデル化するにはどうすればよいですか?
(3) 命令の実行に影響を与え、説明する要因は何ですか?
(4) この指令にはどのような課題がまだ残っていますか?
私たちの知る限り、これはテキストによる指示に関する最初の包括的な調査です。
論文アドレス: https://arxiv.org/pdf/2303.10475v2.pdf
1 はじめに人工知能の目標の 1 つは、新しいタスクを普遍的に理解して解決できるシステムを構築することです。主流のタスク表現としてのラベル付きの例は、広く利用できる可能性が低く、存在しないことさえあります。では、タスクの理解に貢献できる他のタスク表現はあるのでしょうか?タスク命令は、タスクのセマンティクスを表現するための別の監視次元を提供し、多くの場合、命令には、単一のラベル付けされた例よりも、ターゲット タスクに関するより抽象的で包括的な知識が含まれます。
命令学習は、新しいタスクの典型的な人間の学習に触発されています。 たとえば、子供は命令といくつかの例から学ぶことで問題をうまく解決できます。新しい数学タスク。この新しい学習パラダイムは、最近、機械学習および NLP コミュニティから大きな注目を集めています。
図 1 に示すように、タスク指示を利用できるため、特にタスク固有のアノテーションが不足している場合に、新しいタスクを処理するシステムを迅速に構築できます。
タスクの指示となると、ほとんどの人はまずその概念をプロンプトと関連付けます。短いテンプレートを使用して再フォーマットします。 PLM を開始するための応答を生成するために、言語モデリング問題に入力します。ヒントはテキスト分類や機械翻訳などで広く使われていますが、ヒントは命令の特殊なケースにすぎません。この記事では、指導主導型 NLP 研究について包括的かつ広範な視点を提供します。具体的には、次の質問に答えようとします。
私たちの知る限り、これはテキストの指示からの学習を調査した最初の論文です。 プロンプト、入力ごとのデモンストレーション、または推論など、特定のコンテキストの指示に焦点を当てた既存の調査と比較して、私たちは、この分野のさまざまな調査を組織的な方法で結び付ける、より広い視点を提供します。この記事がより良い指導学習ストーリーを提示し、この困難な人工知能の問題を研究するためにより多くの同僚を惹きつけることができれば幸いです。この調査に対応する図書リストも公開しました。
タスクベースの学習の目標は、指示に従ってシステムを駆動して、指定された入力の出力を達成することです。したがって、データセットは 3 つの要素で構成されます:
Input (X): インスタンスの入力。テキスト (感情分類など) にすることができます。 ) またはグループ テキスト (テキストの含意、質問の回答など)。
出力 (Y): インスタンスの出力。分類問題の場合は 1 つ以上の事前定義されたラベルになります。テキスト生成タスクの場合は、任意のオープンフォームテキストを使用できます。
テンプレート (T): タスクの意味を単独で表現するか、X と y の間の橋渡しとして機能するテキスト テンプレート。 T はまだコンポーネント構造になっていない可能性があります。
さまざまなタイプのテキスト命令 は、プロンプト、Amazon Mechanical Turk 命令、デモンストレーションによって補足された命令、および思考連鎖の説明。さまざまな命令は、もともとさまざまな目的のために設計されました (たとえば、Mturk 命令はもともとヒューマン アノテーターの理解のために作成され、プロンプトは PLM を制御するために作成されました)。このセクションでは、図 2 に示すように、まずこれらの命令を、T (正式な定義) のさまざまな組み合わせを実行する 3 つのカテゴリにまとめます。
3.1 I=T^ Y:含意主導ディレクティブ
分類タスクを処理するための従来のソリューションは次のとおりです。ターゲット ラベルはインデックスに変換され、モデルは入力がどのインデックスに属するかを決定できます。このパラダイムは、ラベルのセマンティクスを失いながら入力セマンティクスをエンコードすることに焦点を当てています。システムが多数のラベル付き例に依存せずに新しいラベルを認識できるようにするために、Yin らはラベルごとに仮説を確立し、ラベルの導出された真理値を決定されたラベルの真理値に変換することを提案しています。仮説。表 1 に示すように、このメソッドは命令 I に組み込まれており、テンプレート T とラベル Y を組み合わせて各ターゲット ラベル Y を解釈します。このパラダイムは自然にテキスト含意 (TE、タスクの入力と指示をそれぞれ前提と仮説とみなすことができる) の形式を満たすため、この種の指示は「含意指向の指示」と呼ばれます。
含意指向の命令学習方法には、次の 4 つの利点があります。
(1) ラベルのセマンティクスを維持するため、入力エンコーディングと出力エンコーディングは、入出力関係をモデル化するときに同様に注目されます。
(2) は、さまざまな NLP 質問を処理するための統一された推論プロセス (テキストの含意) を形成します。 #(3) 既存の TE データセットの間接的な監視を活用する機会が生まれ、タスク固有の微調整を行わなくても、事前トレーニングされた TE モデルがこれらのターゲットで良好なパフォーマンスを発揮することが期待されます。
(4) 元の閉集合ラベル分類問題を、少数またはゼロのジェネリック クラス サンプルを使用したオープンドメインのオープンフォームのラベル認識問題に拡張します。
したがって、トピック、感情、姿勢、エンティティ タイプ、エンティティ関係の分類など、さまざまな数ショット/ゼロショット分類タスクで広く使用されています。
3.2 I=T^ X: PLM 指向の命令 (^ プロンプトなど)
プロンプトは PLM 指向の命令を表したもので、通常はタスク入力 (プレフィックス プロンプト) または cloze 質問テンプレート (cloze プロンプト) が後に続く短いステートメントです。これは主に、事前トレーニング済み言語モデル (PLM) からの中間応答 (最終応答にさらに変換できる) をクエリするために使用されます。
プロンプト入力は PLM の事前トレーニング目標を満たしているため、たとえば、ゲシュタルト スタイルの入力はマスクされた言語モデリングの目標を満たしているため、従来の教師付き微調整への依存を取り除くのに役立ち、大幅に向上します。手動による注釈のコストが軽減されます。その結果、高速学習は、質問応答、機械翻訳、感情分析、テキスト含意、固有表現認識など、これまでの多数のゼロショットまたはゼロショットの NLP タスクで素晴らしい結果を達成しました。
#3.3 人間指向の指示
人間指向命令とは基本的に、ヒューマンアノテーションプラットフォーム上のクラウドソーシングに使用される命令(Amazon MTurk命令など)を指します。人間向けの指示とは異なり、人間向けの指示は通常、タスクのタイトル、カテゴリ、定義、避けるべき事項などで構成される、人間が可読で説明的な段落形式のタスク固有のテキスト情報です。したがって、人間中心の指示はよりユーザーフレンドリーであり、ほぼすべての複雑な NLP タスクに理想的に適用できます。
4 命令をモデル化するにはどうすればよいですか?このセクションでは、最も一般的な指導学習モデリング戦略のいくつかを要約します。全体として、この論文では 4 つの異なるモデリング スキームを紹介します: 初期の機械学習ベースのシステムでは、(1) セマンティック パーサー ベースの戦略は、命令をエンコードするための一般的な方法です。ニューラル ネットワークと事前トレーニングされた言語モデルの出現により、(2) ) キュー テンプレート ベースと (3) プレフィックス命令ベースの命令学習モデルが 2 つの人気のパラダイムとなっており、最近では (4) ハイパーネットワーク ベースの方法にも大きな関心が集まっています。 #5 アプリケーション
##5.1 人間とコンピューターの対話#テキスト命令は当然のことながら A と見なすことができます。人間とコンピュータの対話方法。これまでの多くの研究では、自然言語命令を使用して、現実世界のさまざまなタスクを実行するようにコンピューターに「指示」してきました。
非 NLP (マルチモーダル) タスクの場合、ほとんどは環境ベースの言語学習に焦点を当てます。つまり、エージェントが自然言語命令を環境に関連付けて、次のような対応する反応を行うようにします。画像/ビデオから言及されたオブジェクトを選択し、ナビゲーション指示に従い、地図上に対応するトレースを描画し、所定のルールに基づいてフットボール/カード ゲームをプレイし、リアルタイムのスポーツ放送を生成し、ソフトウェアを制御し、外部データベースをクエリします。同時に、命令は、文字列を操作するための命令に従う、与えられた説明に基づいて電子メールを分類する、テキストからコードを生成するなど、NLP タスクを解決するためにシステムと通信するのに役立つように広く使用されています。
近年、人間とコンピュータの通信プロセスを反復的かつモジュール方式で設計する研究が増えています。たとえば、Li らは、ユーザーの日常業務 (コーヒーの注文や Uber のリクエストなど) を支援するシステムを構築しました。ユーザーフレンドリーなグラフィカルインターフェイスのおかげで、システムはタスクについて繰り返し質問することができ、ユーザーは不明確な説明や曖昧な概念を避けるために指示を継続的に改良することができます。同様に、Dwivedi-Yu らは、PLM を反復的にガイドしてテキストを改善するためのベンチマークを提案しました。このベンチマークでは、各反復で正確な目的 (「テキストを簡素化する」または「テキストを中立にする」など) を持つ短い命令セットのみが使用されます。さらに、Chakrabarty らは、ユーザーが最初に曖昧な指示 (例: 「ケーキについての詩を書いて」) を提供し、その後、モデルの中間出力を観察することで、より詳細な指示を徐々に改良できる、共同詩執筆システムを構築しました。 、「-チョコレートという単語が含まれている」)。一方、Mishra と Nouri は、(会話シナリオでユーザーをガイドするための質問をすることで) ユーザーから必要な個人情報を段階的に収集し、最終的に段落ベースの伝記を生成する伝記生成システムを提案しました。専門家ではないユーザーが一度に完全な命令を書くのが難しいという問題に対応して、命令ベースの人工知能システムの設計に反復的でモジュール型の設計パラダイムを採用することで、ユーザーが徐々にタスク命令を充実させることができ、それによってユーザーの思考を効果的に軽減することができます。システムをよりユーザー指向にします。この記事では、実際的な価値を考慮して、この分野の作業の重要性を強調します。
5.2 データと機能の強化
タスク命令は間接的な監督源とみなされ、表面的で恣意的なルールが含まれる場合があります。これらのルールはラベル付け関数とも呼ばれ、注釈に直接適用できます (たとえば、「非常に公正な価格」という文は、「価格という単語のすぐ前に公正である」ため、感情的に肯定的です)。したがって、既存の作品の中には、データや機能拡張を実行するための遠隔監視として命令を使用するものもあります。たとえば、Srivastava らは、セマンティック パーサーを使用して自然言語の説明を論理形式に変換し、それをデータセット内のすべてのインスタンスに適用して、追加のバイナリ特徴を生成します。 Wang らは、ラベル解釈を使用して、元のコーパスに自動的に注釈を付け、生成されたノイズを含むデータに基づいて分類器をトレーニングしました。 Suらは、直接拡張に加えて、タスク命令をさらに使用してモデル表現を強化し、強力なクロスタスク一般化を実現しました。具体的には、対照学習を使用して異なる命令データセット上で埋め込みモデル (単一エンコーダー) をトレーニングし、そのモデルを使用して下流の目に見えないタスクに対する命令ベースのタスク固有の表現を生成しました。 5.3 ユニバーサル言語モデル 汎用人工知能 (AGI) の定義によると、「汎用 A 」 「モデル」は通常、作成者の当初の期待をはるかに超えて、さまざまなタスクを実行でき、環境の変化に合わせて拡張可能なシステムです。 NLP ドメインに特有のものではありますが、一般的な言語モデルは、現実世界のさまざまな NLP タスクやさまざまな言語を完全にゼロショット/フューショット方式で上手に処理できる優れたマルチタスク アシスタントである必要があります。多くの既存の研究は、クロスタスクの一般化において命令を使用する驚くべき能力を実証しているため、この命令はこの最終目標に向けたブレークスルーとなる可能性があります。 最近注目すべき命令の 2 つのアプリケーション、つまり InstructGPT と ChatGPT も、一般的な言語モデルの構築に向けた大きな一歩を示していることは注目に値します。ただし、主に指導学習を採用する他の作品とは異なり、ChatGPT はヒューマン フィードバックによる強化学習 (RLHF) などの他のコンポーネントも採用しています。 「ChatGPT の優れた結果にどのコンポーネントがより貢献しているか」に対する答えは依然として曖昧であり、さらなる調査が必要ですが、命令学習の重要な役割を強調するために、最近の研究をいくつか紹介します。たとえば、Chung らは、PaLM に対する人間の好みの一致を評価するために大規模な実験を実施しました。彼らは、人間によるフィードバックがなくても、指導を微調整することで、性別や職業上の偏見など、PaLM のオープン世代の有害性が大幅に軽減されることを発見しました。さらに、他のいくつかの作業では、人間によるフィードバックではなく創造的なガイダンスのみを使用し、タスクをまたがる重要な結果を達成しました。 ChatGPT にはまだ多くの不満足な点があり、普遍的な言語モデルには程遠いですが、私たちは、命令学習を含む、より強力なテクノロジーの採用と開発を通じて、AGI の目標が引き続き推進されることを期待しています。
以上がChatGPT の背後にある命令学習とは何ですか? PSU が「教育的学習」に関する初の包括的なレビューを発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。