Xiaohongshu は記憶メカニズムからの情報検索を解釈し、EACL Oral を取得するための新しいパラダイムを提案します-AI-php.cn

ホームページ

テクノロジー周辺機器

Xiaohongshu は記憶メカニズムからの情報検索を解釈し、EACL Oral を取得するための新しいパラダイムを提案します

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 29, 2024 pm 04:16 PM

言語モデルgdr

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

最近、Xiaohongshu検索アルゴリズムチームの論文「Generative Dense Retrieval: Memory Can Be a Burden」が、自然言語処理分野の国際会議であるEACL 2024に口頭発表として採択され、採択率が高くなりました。 11.32% (144/1271 )。

彼らは論文の中で、新しい情報検索パラダイムである生成密検索 (GDR) を提案しました。 このパラダイムは、大規模なデータセットを処理する際に従来の生成検索 (GR) が直面する課題を十分に解決できます。それは記憶のメカニズムからインスピレーションを得たものです。

これまでの実践では、GR は独自のメモリメカニズムに依存して、クエリとドキュメントライブラリ間の詳細な対話を実現していました。ただし、言語モデルの自己回帰コーディングに依存するこの方法には、大規模なデータを処理する場合、あいまいで細かいドキュメントの特徴、ドキュメントライブラリのサイズの制限、インデックスの更新の難しさなど、明らかな制限があります。

Xiaohongshu によって提案された GDR は、粗いものから細かいものまでの 2 段階の検索のアイデアを採用しています。まず、言語モデルの限られたメモリ容量を使用してクエリとドキュメントのマッピングを実現し、次にベクトルマッチングメカニズムを使用して、ドキュメントからドキュメントへのマッピングを完了します。 GDR は、密なセットを取得するためのベクトルマッチングメカニズムを導入することにより、GR 固有の欠点を効果的に軽減します。

さらに、チームは、それぞれ 2 つの段階の検索パフォーマンスを向上させるために、「メモリに優しい文書クラスター識別子構築戦略」と「文書クラスター適応型ネガティブサンプリング戦略」も設計しました。 Natural question データセットの複数の設定の下で、GDR は SOTA の Recall@k パフォーマンスを実証しただけでなく、深いインタラクションの利点を維持しながら優れたスケーラビリティを達成し、情報検索に関する将来の研究に新たな可能性を切り開きました。

1. 背景

テキスト検索ツールには重要な研究価値と応用価値があります。単語マッチングに基づくスパース検索 (SR) やセマンティックベクトルマッチングに基づくデンス検索 (DR) などの従来の検索パラダイムは、それぞれに独自の利点がありますが、これに基づく事前トレーニング済み言語モデルの台頭により、生成検索が登場しました。というパラダイムが生まれ始めました。生成検索パラダイムの始まりは、主にクエリと候補ドキュメント間の意味論的な一致に基づいていました。クエリとドキュメントを同じ意味空間にマッピングすることにより、候補ドキュメントの検索問題はベクトル一致度の密な検索に変換されます。この画期的な検索パラダイムは、事前トレーニングされた言語モデルを利用し、テキスト検索の分野に新たな機会をもたらします。しかし、生成検索パラダイムは依然として課題に直面しています。一方で、既存の事前トレーニング

トレーニングプロセス中に、モデルは、コンテキストとして指定されたクエリを使用して、関連するドキュメントの識別子を自己回帰的に生成します。このプロセスにより、モデルは候補コーパスを記憶できるようになります。クエリがモデルに入った後、クエリはモデルパラメーターと相互作用し、自己回帰的にデコードされます。これにより、クエリと候補コーパスの間に深い相互作用が暗黙的に生成されます。この深い相互作用は、まさに SR と DR に欠けているものです。したがって、モデルが候補文書を正確に記憶できれば、GR は優れた検索パフォーマンスを発揮できます。

ただし、GR の記憶機構は完璧ではありません。古典的な DR モデル (AR2) と GR モデル (NCI) の比較実験を通じて、メモリメカニズムが少なくとも 3 つの大きな課題をもたらすことを確認しました:

1) きめ細かい文書特徴のぼかし:

文書識別子の各ビットを粗いものから細かいものまでデコードするときに、NCI と AR2 がエラーを起こす確率をそれぞれ計算しました。 AR2 の場合、ベクトルマッチングを通じて、特定のクエリに最も関連性の高いドキュメントに対応する識別子を見つけ、その識別子の最初のエラーステップをカウントして、AR2 に対応する段階的な復号エラー率を取得します。表 1 に示すように、NCI はデコードの前半では良好なパフォーマンスを示しますが、後半ではエラー率が高くなり、AR2 ではその逆が当てはまります。これは、NCI がメモリデータベース全体を通じて候補文書の意味空間の粗粒マッピングをより適切に完了できることを示しています。ただし、トレーニングプロセス中に選択された特徴は検索によって決定されるため、その詳細なマッピングを正確に記憶するのは難しく、そのため詳細なマッピングのパフォーマンスは低くなります。

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

2) ドキュメントライブラリのサイズは制限されています:

表 2 に示すように、候補ドキュメントライブラリサイズ 334K (最初の行) と候補ドキュメントサイズ 1M (2 行目) で NCI モデルをトレーニングしました。 R@kインジケーターでテスト済み。結果は、NCI が R@100 で 11 ポイント低下したのに対し、AR2 は 2.8 ポイントしか低下しなかったことを示しています。候補ドキュメントライブラリのサイズが増加すると NCI パフォーマンスが大幅に低下する理由を調査するために、候補ドキュメントライブラリとして 334K を使用した場合に、1M ドキュメントライブラリでトレーニングされた NCI モデルのテスト結果をさらにテストします (3 行目)。最初の行と比較して、より多くの文書を記憶するという NCI の負担により、再現パフォーマンスが大幅に低下します。これは、モデルの限られたメモリ容量により、大規模な候補文書ライブラリを記憶する能力が制限されていることを示しています。

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

3) インデックス更新の難易度:

新しい文書を候補ライブラリに追加する必要がある場合、文書識別子を更新する必要があり、モデルを再トレーニングする必要があります。 -すべての書類を暗記します。そうしないと、古いマッピング (クエリからドキュメント識別子、およびドキュメント識別子からドキュメント) により、検索パフォーマンスが大幅に低下します。

上記の問題は、実際のシナリオでの GR の適用を妨げています。このため、解析の結果、DRのマッチング機構は記憶機構と補完的な関係にあると考えられ、そのデメリットを抑えつつ記憶機構を維持するためにGRに導入することを検討しています。 私たちは生成高密度検索 (GDR) の新しいパラダイムを提案しました:

私たちは、クラスター間マッチング (クエリーからドキュメントクラスターへのマッピング) を達成するためにメモリーメカニズムを使用して、粗いものから細かいものまでの全体的な 2 段階の検索フレームワークを設計しました。）、クラスタ内マッチング（ドキュメントへのドキュメントクラスタのマッピング）は、ベクトルマッチングメカニズムを通じて完了します。
モデルが候補文書ライブラリを記憶できるようにするために、モデルのメモリ容量に基づいて文書クラスターの分割粒度を制御し、クラスター間のマッチングを改善する、メモリに優しい文書クラスター識別子構築戦略を構築しました。効果。
トレーニング段階では、2 段階検索の特性に基づいて、文書クラスターに対する適応的なネガティブサンプリング戦略を提案します。これにより、クラスター内のネガティブサンプルの重みが強化され、クラスター内のマッチング効果が増加します。

2.1 記憶メカニズムに基づくクラスター間マッチング

クエリを入力として受け取り、言語モデルを使用して候補ドキュメントライブラリを記憶し、k 個の関連ドキュメントクラスター (CID) を自己回帰的に生成して完了します。次のマッピング:

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

このプロセスでは、CID の生成確率は次のとおりです:

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

ここで、

はエンコーダによって生成されたすべてのクエリ埋め込みです

は生成されたものですエンコーダによる次元クエリ表現。この確率はクラスター間マッチングスコアとしても保存され、後続の操作に関与します。これに基づいて、標準のクロスエントロピー損失を使用してモデルをトレーニングします。

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

2.2 ベクトルマッチングメカニズムに基づくクラスター内マッチング

さらに、候補ドキュメントクラスターから候補ドキュメントを取得し、完全なイントラ-クラスターマッチング:

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

候補文書の表現を抽出するために文書エンコーダーを導入し、このプロセスはオフラインで完了します。これに基づいて、クラスター内のドキュメントとクエリ間の類似性をクラスター内マッチングスコアとして計算します:

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

このプロセスでは、NLL 損失を使用してモデルをトレーニングします:

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

最後に、ドキュメントのクラスター間マッチングスコアとクラスター内マッチングスコアの重み付け値を計算して並べ替え、上位 K を取得した関連ドキュメントとして選択します。

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

ここで、ベータは実験では 1 に設定します。

2.3 メモリに優しい文書クラスター識別子構築戦略

モデルの限られたメモリ容量を最大限に活用して、クエリと候補文書ライブラリ間の深い相互作用を実現するために、メモリに優しい文書クラスターを提案します。識別子構築戦略。この戦略では、まずモデルのメモリ容量をベンチマークとして使用して、クラスター内のドキュメント数の上限を計算します。

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

これに基づいて、K 平均法アルゴリズムを通じてドキュメントクラスター識別子がさらに構築されます。モデルのメモリ負荷がメモリ容量を超えないことを確認します。

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

2.4 ドキュメントクラスタの適応型ネガティブサンプリング戦略

GDR 2 段階の取得フレームワークにより、クラスタ内のネガティブサンプルが占める割合が決定されます。クラスタ内マッチングプロセスではその割合が大きくなります。この目的を達成するために、トレーニングの第 2 段階でドキュメントクラスター分割をベンチマークとして使用し、クラスター内の負のサンプルの重みを明示的に強化します。これにより、より優れたクラスター内マッチング結果が得られます。 3. 実験

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral 実験で使用されたデータセットは、58,000 のトレーニングペア (クエリと関連ドキュメント) と 6,000 の検証ペア、および 2,100 万の候補ドキュメントライブラリを含む Natural question (NQ) です。各クエリには複数の関連ドキュメントがあり、モデルの再現パフォーマンスに対してより高い要件が課されます。さまざまなサイズの文書ベースで GDR のパフォーマンスを評価するために、完全な 2100 万コーパスの残りのパッセージを NQ334K に追加することで、NQ334K、NQ1M、NQ2M、NQ4M などのさまざまな設定を構築しました。 GDR は、より大きな候補ドキュメントライブラリの意味情報がより小さなコーパスに漏洩することを防ぐために、各データセットに個別に CID を生成します。 SR ベースラインとして BM25 (Anserini 実装)、DR ベースラインとして DPR および AR2、GR ベースラインとして NCI を採用します。評価指標には R@k と Acc@k が含まれます。

3.1 主な実験結果

NQ データセットでは、GDR は R@k メトリックで平均 3.0 向上し、Acc@k メトリックでは 2 位にランクされています。これは、GDR が、深い相互作用における記憶メカニズムの利点と、粗い検索から細かい検索プロセスを介したきめの細かい特徴識別におけるマッチングメカニズムの利点を最大化していることを示しています。

3.2 より大きなコーパスへのスケーリング

候補コーパスをより大きなサイズにスケーリングすると、SR と DR の R@100 削減率は 4.06% 未満のままであるのに対し、GR は3 つの拡大方向すべての下落率は 15.25% を超えています。対照的に、GDR は、メモリ内容を一定量のコーパスの粗粒度特徴に集中させることにより、SR および DR と同様の平均 R@100 削減率 3.50% を達成します。

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

3.3 アブレーション実験

表 3 GDR-bert と GDR-ours はそれぞれ、従来の戦略と CID 構築戦略の下での対応するモデルのパフォーマンスを表しています。この実験では、メモリの使用が証明されています。フレンドリーなドキュメントクラスター識別子構築戦略によりメモリの負担が大幅に軽減され、それによって検索パフォーマンスの向上につながります。さらに、表 4 は、GDR トレーニングで使用されるドキュメントクラスター適応ネガティブサンプリング戦略が、ドキュメントクラスター内でより識別的な信号を提供することにより、きめの細かいマッチング機能を強化することを示しています。小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

3.4 新しい文書の追加

新しい文書が候補文書ライブラリに追加されると、GDR はその新しい文書を最も近い文書クラスタークラスターセンターに追加し、それに対応する識別子を割り当てます。同時に、ドキュメントエンコーダによってベクトル表現が抽出され、ベクトルインデックスが更新され、それによって新しいドキュメントの迅速な拡張が完了します。表 6 に示すように、候補コーパスに新しい文書を追加する設定では、NCI の R@100 は 18.3 パーセントポイント低下しますが、GDR のパフォーマンスは 1.9 パーセントポイントしか低下しません。これは、GDR がマッチングメカニズムを導入することでメモリメカニズムの困難なスケーラビリティを軽減し、モデルを再トレーニングすることなく良好なリコール効果を維持していることを示しています。小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

3.5 制限事項

言語モデルの自己回帰生成の特性により制限されますが、GDR は第 2 段階でベクトルマッチング機構を導入しており、GR と比較して大幅な検索効率の向上を実現していますが、DR と比較するとまだ多くの制限があります。 SRに関しては改善の余地あり。私たちは、検索フレームワークへのメモリメカニズムの導入によって引き起こされる遅延の問題を軽減するために、将来のさらなる研究を期待しています。

小红书从记忆机制解读信息检索，提出新范式获得 EACL Oral

4. 結論

この研究では、情報検索における記憶メカニズムの諸刃の剣の効果を深く調査しました。一方で、このメカニズムはクエリと候補の間の深い相互作用を実現します。ドキュメントライブラリ。一方で、モデルのメモリ容量が限られており、インデックスの更新が複雑なため、大規模で動的に変化する候補ドキュメントライブラリの処理が困難になります。この問題を解決するために、メモリ機構とベクトルマッチング機構を階層的に革新的に組み合わせ、両者の長所を最大限に発揮し、短所を回避し、相互に補完できるようにしました。

私たちは、新しいテキスト検索パラダイム、Generative Dense Retrieval (GDR) を提案します。 GDR このパラダイムは、指定されたクエリに対して粗い検索から細かい検索までの 2 段階の検索を実行します。まず、メモリメカニズムが自己回帰的にドキュメントクラスター識別子を生成してクエリをドキュメントクラスターにマッピングし、次にベクトルマッチングメカニズムがそれらの間の関係を計算します。クエリとドキュメントの類似性により、ドキュメントクラスターのドキュメントへのマッピングが完了します。

メモリに優しいドキュメントクラスター識別子構築戦略により、モデルのメモリ負荷がメモリ容量を超えず、クラスター間のマッチング効果が高まります。ドキュメントクラスター適応ネガティブサンプリング戦略は、クラスター内のネガティブサンプルを区別するためのトレーニング信号を強化し、クラスター内のマッチング効果を高めます。広範な実験により、GDR が大規模な候補ドキュメントライブラリに対して優れた検索パフォーマンスを達成し、ドキュメントライブラリの更新に効率的に対応できることが証明されました。

従来の検索方法の利点を統合する成功した試みとして、生成集中検索パラダイムには、大規模な候補ドキュメントライブラリを含むシナリオでの優れた再現パフォーマンス、強力なスケーラビリティ、および堅牢なパフォーマンスという利点があります。大規模な言語モデルの理解と生成能力が向上し続けるにつれて、生成的な集中検索のパフォーマンスがさらに向上し、情報検索のより広い世界が開かれるでしょう。

論文アドレス:https://www.php.cn/link/9e69fd6d1c5d1cef75ffbe159c1f322e

5. 著者紹介

ユアン・ペイウェン
now Ph.D. 北京理工大学で学び、Xiaohongshu コミュニティ検索チームでインターンとして働き、NeurIPS、ICLR、AAAI、EACL などで多くの第一著者論文を発表。主な研究方向は、大規模言語モデルの推論と評価、および情報検索です。
王星霖
現在、北京工業大学に留学しており、Xiaohongshu Community Search Groupでインターンをしており、EACL、NeurIPS、ICLRなどでいくつかの論文を発表し、International Dialogue Technologyに参加していますChallenge DSTC11 評価トラックで2位獲得。主な研究方向は、大規模言語モデルの推論と評価、および情報検索です。
Feng Shaoxiong
はXiaohongshuコミュニティ検索ベクトルリコールの責任者です。北京理工大学で博士号を取得し卒業し、ICLR、AAAI、ACL、EMNLP、NAACL、EACL、KBSなどの機械学習および自然言語処理の分野のトップカンファレンス/ジャーナルにいくつかの論文を発表しています。。主な研究方向には、大規模言語モデルの評価、推論蒸留、生成検索、オープンドメイン対話生成などが含まれます。
Daoxuan
Xiaohongshu取引検索チームの責任者。浙江大学で博士号を取得し、NeurIPS や ICML などの機械学習分野のトップカンファレンスでいくつかの第一著者論文を発表し、長年にわたり多くのトップカンファレンス/ジャーナルの査読者を務めています。主な事業内容は、コンテンツ検索、電子商取引検索、ライブ放送検索などです。
Zeng Shu
は清華大学電子工学科を卒業し、インターネット分野で自然言語処理、推奨、検索などのアルゴリズムの研究に従事しています。現在、Xiaohongshu コミュニティ検索におけるリコールと垂直検索、およびその他の技術的方向性を担当しています。

以上がXiaohongshu は記憶メカニズムからの情報検索を解釈し、EACL Oral を取得するための新しいパラダイムを提案しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

AVバイト：Meta＆＃039; s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景：進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用：チャットボットは本当に気にすることができますか？Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想：私たちはAIとの関係において本当に繁栄していますか？この質問は、MIT Media Labの「AI（AHA）で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2：マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。その能力t

Dagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証：ダグスターと大きな期待でチェックを自動化するデータ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか？Apr 11, 2025 am 11:42 AM

MainFrames：AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。