ホームページ  >  記事  >  命令型デコードにより、パラメーターを更新せずに命令調整言語モデルを強化

命令型デコードにより、パラメーターを更新せずに命令調整言語モデルを強化

Susan Sarandon
Susan Sarandonオリジナル
2024-10-02 18:12:23272ブラウズ

KAIST AI の研究者は、パラメータを更新せずに命令調整された LM を強化する手法である命令デコーディング (ID) を導入しました。

命令型デコードにより、パラメーターを更新せずに命令調整言語モデルを強化

命令調整型言語モデル (LM) は、ゼロショット設定での目に見えないタスクによく一般化します。ただし、トレーニング データ以外のタスクでのパフォーマンスは制限されることがよくあります。これらの LM は、大規模なデータセットに基づいて構築されており、数十億のパラメーターを持っているにもかかわらず、コンテキスト内学習 (ICL) に優れており、再トレーニングすることなく、いくつかの例に対する応答を生成できます。ただし、トレーニング データセットの範囲により、不慣れなタスクに対する有効性は制限されます。迅速なエンジニアリングや出力の多様化などの手法はパフォーマンスの向上に役立ちますが、多大な労力が必要です。最近の研究では、認知アンカリング効果を LM に適用することが検討されており、最初のプロンプトを強調することでタスク固有の反応が強化され、指示への忠実度が向上する可能性があることが示唆されています。

この研究では、KAIST AI の研究者が、パラメータを更新せずに命令調整された LM を強化する手法である命令デコーディング (ID) を導入しました。ノイズのある監視手法に触発された ID は、元の命令を変更したバージョンである「ノイズのある命令」を使用して、次のトークンを予測するための対照的なアプローチを作成します。 ID は、特に「反対の」命令を使用して、モデルの出力をさまざまな方向に操作することにより、タスク全体でモデルのパフォーマンスを向上させます。実験では、ID によって強化された小型モデルの方が大型モデルよりも優れた精度の大幅な向上を示しました。この方法は、指示への遵守を改善し、全体的な応答品質を向上させ、さまざまなモデルやタスクにわたってその有効性を実証します。

命令チューニングの目標は、事前トレーニングされた LM を微調整して自然言語命令によりよく従うことです。これにより、特にゼロショット シナリオにおいて、目に見えないタスクへの一般化が向上します。トレーニング タスクの多様性と複雑さを拡大することでこの機能が強化されますが、モデルは事前にトレーニングされた知識に大きく依存することがよくあります。これまでの研究では、LM は見慣れた命令に対して敏感であり、たとえ誤解を招くような命令にも敏感であり、この敏感さは対照的な手法によって活用できることが明らかになりました。テキスト生成のコントラストは、コントラスト デコーディングと同様に、異なるモデルまたは入力からの出力を比較してパフォーマンスを向上させます。この研究は、ノイズの多い命令を使用して命令調整された LM の一般化を促進することで、これらのアイデアを拡張します。

命令デコーディングは、ノイズの多い命令から生成された出力を対比することにより、命令調整モデルでの応答生成を改善します。これは、最初の情報がその後の判断に影響を与え、元の指示と変更された指示から生成された応答の違いを利用するアンカリング効果に基づいています。この手法では、タスクの忠実性を確保しながら、切り捨てられた単語、シャッフルされた単語、またはランダムな単語などのノイズの多い命令の変形を使用して、モデルを誤解させます。インストラクティブ デコーディングは、デコード中に元の命令とノイズのある命令からのロジットを比較することで、モデルのバイアスを修正し、意図された命令により一致した応答を生成し、目に見えないタスクでのパフォーマンスを向上させるのに役立ちます。

実験セットアップでは SUPNATINST および UNNATINST データセットを使用し、文法エラー修正やテキスト含意などのタスクにわたって Tk-Instruct、Alpaca、T0 などのモデルを評価します。 Rouge-L、Exact Match (EM)、Label Adherence (LA)、Label Coherence (LC) メトリックによってパフォーマンスを評価します。 ID は、特に Tk-XXL のような大型モデルの結果を一貫して改善し、LA と LC を強化します。興味深いことに、ベースラインのパフォーマンスが低下しているにもかかわらず、ノイズの多い命令により ID による出力品質が向上します。タスク固有のパフォーマンスは異なりますが、「反対の」命令バリアントはタスク間で堅牢であることが証明されています。全体として、ID はモデルのサイズとタスクの種類全体で大幅な向上を示しています。

この研究では、命令調整型言語モデルにおける目に見えないタスクの一般化の課題を調査しています。提案された方法 ID は、「ノイズの多い」命令を使用したアンカリング効果を利用して、固有のモデルのバイアスを打ち消します。 ID は、変更された命令から生成された予測と比較することで、特に元の入力から最も逸脱する「反対の」ノイズの多いバリアントでのモデルのパフォーマンスを向上させます。実証結果では、複数のタスクにわたる ID の有効性が示されており、予測の多様性が顕著に向上しています。このアプローチでは追加のパラメーター更新が必要ないため、言語モデルでの命令追従を改善するための実用的なツールになります。

論文をチェックしてください。この研究の功績はすべて、このプロジェクトの研究者に与えられます。また、Twitter で私たちをフォローし、Telegram チャンネルと LinkedIn グループに参加することも忘れないでください。私たちの仕事を気に入っていただけましたら、ニュースレターも気に入っていただけると思います。

50,000 ML SubReddit への参加を忘れないでください

以上が命令型デコードにより、パラメーターを更新せずに命令調整言語モデルを強化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。