ホームページ >テクノロジー周辺機器 >AI >GPT-4 の 32k 入力ボックスではまだ不十分ですか? Unlimiformer はコンテキストの長さを無限の長さに引き伸ばします

GPT-4 の 32k 入力ボックスではまだ不十分ですか? Unlimiformer はコンテキストの長さを無限の長さに引き伸ばします

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-05-19 15:19:061433ブラウズ

Transformer は、現在最も強力な seq2seq アーキテクチャです。事前トレーニングされたトランスフォーマーには通常、512 (例: BERT) または 1024 (例: BART) トークンのコンテキストウィンドウがあり、これは現在の多くのテキスト要約データセット (XSum、CNN/DM) にとって十分な長さです。

ただし、16384 は、本の要約 (Krys-´cinski et al., 2021) や物語などの長い物語を含むタスクの生成に必要なコンテキストの長さの上限ではありません。質疑応答 (Kociskýet al., 2018)、通常は 100,000 を超えるトークンを入力します。 Wikipedia の記事から生成されたチャレンジセット (Liu* et al.、2018) には、500,000 を超えるトークンの入力が含まれています。生成的質問応答のオープンドメインタスクでは、Wikipedia 上の存命の著者全員による記事の集合的なプロパティに関する質問に答えるなど、より大きな入力から情報を合成できます。図 1 は、いくつかの一般的な要約データセットと Q&A データセットのサイズを一般的なコンテキストウィンドウの長さに対してプロットしたもので、最も長い入力は Longformer のコンテキストウィンドウの 34 倍以上の長さです。

これらの非常に長い入力の場合、ネイティブのアテンションメカニズムは 2 次の複雑さがあるため、バニラトランスフォーマーはスケーリングできません。長い入力トランスフォーマーは、標準トランスフォーマーよりも効率的ではありますが、依然として大量の計算リソースを必要とし、コンテキストウィンドウのサイズが大きくなるにつれて増加します。さらに、コンテキストウィンドウを増やすには、新しいコンテキストウィンドウサイズでモデルを最初から再トレーニングする必要があり、計算コストと環境コストがかかります。

記事「Unlimiformer: 無制限の長さの入力を備えた長距離変圧器」で、カーネギーメロン大学の研究者が Unlimiformer を紹介しました。これは、テスト時に無限長の入力を受け入れるために事前トレーニングされた言語モデルを拡張する検索ベースのアプローチです。

GPT-4 の 32k 入力ボックスではまだ不十分ですか? Unlimiformer はコンテキストの長さを無限の長さに引き伸ばします

論文リンク: https://arxiv.org/pdf/2305.01625v1.pdf

Unlimiformer は既存のエンコーダー/デコーダートランスフォーマーに挿入でき、無制限の長さの入力を処理できます。長い入力シーケンスを指定すると、Unlimiformer はすべての入力トークンの非表示状態に基づいてデータストアを構築できます。デコーダの標準クロスアテンションメカニズムは、データストアにクエリを実行し、上位 k 個の入力トークンに焦点を当てることができます。データストアは GPU または CPU メモリに保存でき、サブリニアにクエリを実行できます。

Unlimiformer はトレーニングされたモデルに直接適用でき、追加のトレーニングなしで既存のチェックポイントを改善できます。微調整を行うと、Unlimiformer のパフォーマンスがさらに向上します。この論文では、Unlimiformer が重みの追加や再トレーニングを行わずに、BART (Lewis et al., 2020a) や PRIMERA (Xiao et al., 2022) などの複数の基本モデルに適用できることを実証します。さまざまな長距離 seq2seq データセットにおいて、Unlimiformer は、Longformer (Beltagy et al., 2020b)、SLED (Ivgi et al., 2022)、および Memorizing Transformers (Wu et al., 2021) などの長距離 Transformer よりも強力であるだけではありません。 ) これらのデータセットではパフォーマンスが向上しており、この記事では、Unlimiform を Longformer エンコーダーモデルの上に適用してさらに改善できることもわかりました。

これまでにない技術原理

エンコーダコンテキストウィンドウのサイズが固定されているため、Transformer の最大入力長は制限されています。ただし、デコード中に、異なる情報が関連する可能性があり、さらに、異なる注意が異なる種類の情報に焦点を当てる可能性があります (Clark et al.、2019)。したがって、固定されたコンテキストウィンドウでは、あまり注目されていないトークンに労力が無駄になる可能性があります。

各デコードステップで、Unlimiformer の各アテンションヘッドはすべての入力から個別のコンテキストウィンドウを選択します。これは、デコーダに Unlimiformer ルックアップを挿入することで実現されます。クロスアテンションモジュールに入る前に、モデルは外部データストアで k 最近傍 (kNN) 検索を実行し、各デコーダ層で各アテンションヘッドのセットを選択します。参加するためのトークン。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃コーディング＃＃＃＃＃＃＃＃＃

モデルのコンテキストウィンドウの長さよりも長い入力シーケンスをエンコードするために、この記事では、Ivgi et al. (2022) (Ivgi et al., 2022) の方法に従って入力の重複ブロックをエンコードします。エンコードプロセスの前後に十分なコンテキストを確保するために、各チャンクの出力の中央部分のみが保持されます。最後に、この記事では Faiss (Johnson et al., 2019) などのライブラリを使用して、データストア内のエンコードされた入力のインデックスを作成します (Johnson et al., 2019)。

強化されたクロスアテンションメカニズムの取得

標準のクロスアテンションメカニズムでは、トランスフォーマーのデコーダがエンコーダーの最終的な隠し状態では、エンコーダーは通常、入力を切り捨て、入力シーケンスの最初の k 個のトークンのみをエンコードします。

この記事では、入力の最初の k 個のトークンだけに焦点を当てているのではなく、クロスアテンションヘッドごとに、長い入力系列の最初の k 個の隠れ状態を取得し、そのトークンのみに焦点を当てています。最初の k トークン。これにより、キーワードを切り詰めるのではなく、入力シーケンス全体からキーワードを取得できるようになります。また、私たちのアプローチは、すべての入力トークンを処理するよりも計算と GPU メモリの点で安価であり、通常は 99% 以上の注意パフォーマンスを維持します。

図 2 は、この記事による seq2seq トランスフォーマーアーキテクチャへの変更を示しています。完全な入力は、エンコーダーを使用してブロックエンコードされ、データストアに保存されます。その後、デコード時に、エンコードされた潜在状態データストアがクエリされます。 kNN 検索はノンパラメトリックであり、以下で詳しく説明するように、事前トレーニングされた任意の seq2seq トランスフォーマーに注入できます。

GPT-4 の 32k 入力ボックスではまだ不十分ですか? Unlimiformer はコンテキストの長さを無限の長さに引き伸ばします