ホームページ >テクノロジー周辺機器 >AI >清華 NLP グループが InfLLM をリリースしました: 追加のトレーニングは不要、「1024K の超長コンテキスト」100% 再現率!

清華 NLP グループが InfLLM をリリースしました: 追加のトレーニングは不要、「1024K の超長コンテキスト」100% 再現率!

WBOY
WBOY転載
2024-03-11 14:40:04682ブラウズ

大規模モデルは限られたコンテキストしか記憶して理解することができず、これが実際のアプリケーションでは大きな制限となっています。たとえば、会話型 AI システムは、前日の会話の内容を永続的に記憶できないことが多く、その結果、大規模なモデルを使用して構築されたエージェントは一貫性のない動作と記憶を示します。

大規模なモデルがより長いコンテキストをより適切に処理できるようにするために、研究者らは InfLLM と呼ばれる新しい方法を提案しました。この方法は、清華大学、マサチューセッツ工科大学、人民大学の研究者によって共同提案されたもので、大規模言語モデル (LLM) が追加のトレーニングなしで非常に長いテキストを処理できるようになります。 InfLLM は、少量のコンピューティング リソースとグラフィックス メモリのオーバーヘッドを利用して、非常に長いテキストの効率的な処理を実現します。

清華 NLP グループが InfLLM をリリースしました: 追加のトレーニングは不要、「1024K の超長コンテキスト」100% 再現率!

論文アドレス: https://arxiv.org/abs/2402.04617

コード ウェアハウス: https://github.com/thunlp/InfLLM

実験結果は、InfLLM が Mistral と LLaMA のコンテキスト処理ウィンドウを効果的に拡張し、ニードルを見つけるタスクを実行できることを示しています。 1024K のコンテキストの干し草の山。100% の再現率を達成します。

研究の背景

大規模な事前トレーニング済み言語モデル (LLM) は、近年多くのタスクにおいて画期的な進歩を遂げ、多くのアプリケーションの基本モデルとなっています。 。

これらの実際的なアプリケーションは、LLM が長いシーケンスを処理する能力に対して、より高い課題をもたらします。たとえば、LLM 駆動のエージェントは、外部環境から受信した情報を継続的に処理する必要があるため、より強力なメモリ機能が必要になります。同時に、会話型 AI は、よりパーソナライズされた応答を生成するために、ユーザーとの会話の内容をよりよく記憶する必要があります。

ただし、現在の大規模モデルは通常、数千のトークンを含むシーケンスでしか事前トレーニングされていないため、非常に長いテキストに適用する場合に 2 つの大きな課題が生じます。

1. 配布範囲外の長さ: LLM を長いテキストに直接適用するには、多くの場合、学習範囲を超える位置エンコーディングを LLM で処理する必要があります。したがって、配布外の問題が発生し、一般化することができません;

2. 注意の干渉:過度に長いコンテキストにより、モデルが作成されなくなります。注意が無関係な情報に過度に分割され、コンテキスト内での長期的な意味の依存関係を効果的にモデル化できなくなります。

メソッドの紹介

清華 NLP グループが InfLLM をリリースしました: 追加のトレーニングは不要、「1024K の超長コンテキスト」100% 再現率!

InfLLM 図

大規模なモデルを効率的に実装するには長さの汎化能力を利用して、著者らは、非常に長いシーケンスのストリーミング処理用に、トレーニング不要のメモリ強化手法である InfLLM を提案しています。

InfLLM は、限られた計算コストで超長いコンテキストにおける長距離の意味依存関係を捕捉する LLM の本質的な能力を刺激し、それによって効率的な長いテキストの理解を可能にすることを目的としています。

全体的なフレームワーク: 長いテキストの注目がまばらであることを考慮すると、各トークンの処理には通常、そのコンテキストのごく一部のみが必要です。

著者は、超長いコンテキスト情報を保存する外部メモリ モジュールを構築しました。スライディング ウィンドウ メカニズムを使用して、各計算ステップで、次の値に近いトークン (ローカル トークン) のみが存在します。現在のトークン 外部メモリ モジュール内の少量の関連情報がアテンション レイヤの計算に関与しますが、その他の無関係なノイズは無視されます。

したがって、LLM は、限られたウィンドウ サイズを使用して、長いシーケンス全体を理解し、ノイズの導入を回避できます。

しかし、超長いシーケンス内の大量のコンテキストは、メモリ モジュール内の関連情報の効果的な配置とメモリ検索の効率に重大な課題をもたらします。

これらの課題に対処するために、コンテキスト メモリ モジュールの各メモリ ユニットはセマンティック ブロックで構成され、セマンティック ブロックはいくつかの連続するトークンで構成されます。

具体的には、(1) 関連するメモリユニットを効果的に見つけるために、各セマンティックブロックの一貫したセマンティクスは、断片化されたトークンよりも関連情報クエリのニーズをより効果的に満たすことができます。

さらに、作成者は、各セマンティック ブロックから意味的に最も重要なトークン、つまり、最も高い注意スコアを受け取るトークンを、セマンティック ブロックの表現として選択します。相関計算における重要でないトークンの干渉を避けるために役立ちます。

(2) 効率的なメモリ検索のために、セマンティック ブロック レベルのメモリ ユニットは、トークンごとおよびアテンションごとの相関計算を回避し、計算の複雑さを軽減します。

さらに、セマンティック ブロック レベルのメモリ ユニットにより、継続的なメモリ アクセスが保証され、メモリ読み込みコストが削減されます。

これのおかげで、作者はコンテキスト メモリ モジュールの効率的なオフロード メカニズム (オフロード) を設計しました。

ほとんどのメモリ ユニットが頻繁に使用されないことを考慮して、InfLLM はすべてのメモリ ユニットを CPU メモリにアンロードし、頻繁に使用されるメモリ ユニットを GPU メモリに動的に保持することで、ビデオ メモリの使用量を大幅に削減します。

InfLLM は、 のように要約できます:

1。スライディング ウィンドウに基づいて、リモート コンテキスト メモリ モジュールが追加されます。

2. 歴史的コンテキストを意味ブロックに分割して、コンテキスト メモリ モジュール内のメモリ ユニットを形成します。各メモリ ユニットは、メモリ ユニットの表現として、以前のアテンション計算におけるアテンション スコアを通じて代表トークンを決定します。これにより、コンテキスト内のノイズ干渉が回避され、メモリ クエリの複雑さが軽減されます。

実験分析

著者は、Mistral-7b-Inst-v0.2 (32K) に取り組んでいます。 Vicuna InfLLM は、それぞれ 4K と 2K のローカル ウィンドウ サイズを使用して、-7b-v1.5 (4K) モデルに適用されます。

元のモデル、位置コーディング補間、Infinite-LM および StreamingLLM と比較して、長いテキスト データ Infinite-Bench および Longbench で大幅なパフォーマンスの向上が達成されました。

清華 NLP グループが InfLLM をリリースしました: 追加のトレーニングは不要、「1024K の超長コンテキスト」100% 再現率!

清華 NLP グループが InfLLM をリリースしました: 追加のトレーニングは不要、「1024K の超長コンテキスト」100% 再現率!

超長いテキストの実験

さらに、著者は長いテキストに対する InfLLM の汎化能力の探索を続けており、長さ 1024K の「干し草の山の中の針」タスクでも 100% の再現率を維持できています。

清華 NLP グループが InfLLM をリリースしました: 追加のトレーニングは不要、「1024K の超長コンテキスト」100% 再現率!

干し草の山に針を刺す実験結果

概要

この記事では、チーム InfLLM が提案されています。これは、トレーニングなしで超長テキスト処理用の LLM の拡張を実現でき、長距離の意味情報を取得できます。

InfLLM は、スライディング ウィンドウに基づいて、長距離コンテキスト情報を含むメモリ モジュールを追加し、キャッシュとオフロード メカニズムを使用して、少量の計算とメモリでストリーミング長いテキスト推論を実装します。消費。 。

以上が清華 NLP グループが InfLLM をリリースしました: 追加のトレーニングは不要、「1024K の超長コンテキスト」100% 再現率!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。