


長いテキストは 4k ウィンドウの長さで読むことができます。Chen Danqi と彼の弟子たちは Meta と協力して、大きなモデルのメモリを強化する新しい方法を開始しました。
ウィンドウの長さが 4K しかない大きなモデルでも、テキストの大部分を読み取ることができます。
プリンストン大学の中国人博士学生による最新の成果は、大型モデルのウィンドウ長の制限を「突破」することに成功しました。
さまざまな質問に答えることができるだけでなく、実装プロセス全体 は、追加のトレーニング を必要とせず、プロンプトによって完全に完了できます。
研究チームは、モデル自体のウィンドウ長制限を突破できる MemWalker と呼ばれるツリー メモリ戦略を作成しました。
テスト中、モデルによって読み取られた最長のテキストには 12,000 個のトークンが含まれており、結果は LongChat と比較して大幅に改善されました。
同様の TreeIndex と比較すると、MemWalker は単に一般化するのではなく、あらゆる質問を推論して答えることができます。
MemWalker の研究開発では「分割統治」の考え方が活用されており、一部のネチズンは次のようにコメントしています:
大型モデルの思考プロセスをより人間らしくするたびに
#それでは、ツリー メモリ戦略とは具体的に何で、限られたウィンドウ長で長いテキストをどのように読み取るのでしょうか?
1 つのウィンドウでは不十分です。もう少し開いてください。
モデルでは、MemWalker は基本モデルとして Stable Beluga 2 を使用します。これは、コマンド チューニングを通じて Llama 2-70B によって取得されます。
このモデルを選択する前に、開発者はオリジナルの Llama 2 とそのパフォーマンスを比較し、最終的に選択を決定しました。
MemWalker という名前のように、その動作プロセスは記憶の流れのようなものです。
具体的には、メモリツリー構築とナビゲーション検索の2段階に大別されます。
メモリ ツリーを構築するとき、長いテキストは複数の小さなセグメント (seg1-6) に分割され、大きなモデルは次のことを行います。各セグメントを個別に処理します。サマリーから、「リーフ ノード 」(リーフ ノード、合計 1-6) を取得します。
セグメント化する場合、各セグメントが長いほどレベルが少なくなり、その後の検索に有利ですが、長すぎると精度の低下につながるため、総合的に考慮してください。各セグメントの長さを決定するために必要です。
著者は、各段落の適切な長さは 500 ~ 2000 トークンであると考えており、実験で使用したものは 1000 トークンです。
次に、モデルはこれらのリーフ ノードの内容を再帰的に要約して、「非リーフ ノード」## を形成します。 #(非リーフノード、合計7-8)。
この 2 つのもう 1 つの違いは、リーフ ノードには元の情報 が含まれるのに対し、非リーフ ノードには 要約された二次情報 しか含まれないことです。
機能的には、非リーフ ノードは、答えがあるリーフ ノードをナビゲートして特定するために使用され、リーフ ノードは、答えについて推論するために使用されます。 非リーフ ノードは複数のレベルを持つことができ、モデルは「ルート ノード」が取得されて完全なツリー構造が形成されるまで徐々に要約されます。 メモリ ツリーが確立されたら、ナビゲーション検索段階に入り、答えを生成できます。レベルの子ノードの内容を 1 つずつ読み取り、このノードが次のように推論します。入力するか、戻ります。 このノードに入ることを決定したら、葉ノードが読み取られるまでプロセスを再度繰り返します。葉ノードの内容が適切な場合は回答が生成され、そうでない場合は回答が返されます。
答えの完全性を保証するために、このプロセスの終了条件は、適切なリーフ ノードが見つかることではなく、モデルが完全な答えが得られたと信じること、または最大ステップ数であることです。が達成された。
ナビゲーション プロセス中に、モデルが間違ったパスに入ったことを検出した場合、元に戻ることもできます。
さらに、MemWalker は精度を向上させるために ワーキング メモリ メカニズム も導入しています。
#このメカニズムは、訪問したノードのコンテンツを現在のコンテンツのコンテキストに追加します。
モデルが新しいノードに入ると、現在のノードの内容がメモリに追加されます。
このメカニズムにより、モデルは各ステップで訪問したノードのコンテンツを利用して、重要な情報の損失を回避できます。
実験結果は、作業記憶メカニズムにより MemWalker の精度を約 10% 向上できることを示しています。
さらに、上記のプロセスはプロンプトに頼るだけで完了でき、追加のトレーニングは必要ありません。
理論的には、MemWalker は十分な計算能力がある限り、無限に長いテキストを読み取ることができます。
ただし、テキストの長さが増加するにつれて、メモリ ツリーを構築するときの 時間と空間の複雑さは指数関数的に増加します。
著者についてこの論文の筆頭著者は、プリンストン大学 NLP 研究室の中国人博士課程学生、ハワード チェンです。 清華ヤオクラスの卒業生、チェン・ダンチーはハワードの指導者であり、今年のACLに関する彼女の学術レポートも検索に関連したものでした。 この成果は、ハワードがメタでのインターンシップ中に完成させたもので、メタ AI 研究所の 3 人の学者、ラマカンス パスヌル、ジェイソン ウェストン、アスリ チェリキルマズもこのプロジェクトに参加しました。紙のアドレス: https://arxiv.org/abs/2310.05029
以上が長いテキストは 4k ウィンドウの長さで読むことができます。Chen Danqi と彼の弟子たちは Meta と協力して、大きなモデルのメモリを強化する新しい方法を開始しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

WebStorm Mac版
便利なJavaScript開発ツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。
