ホームページ > 記事 > テクノロジー周辺機器 > Xiaohongshu は記憶メカニズムからの情報検索を解釈し、EACL Oral を取得するための新しいパラダイムを提案します
最近、Xiaohongshu検索アルゴリズムチームの論文「Generative Dense Retrieval: Memory Can Be a Burden」が、自然言語処理分野の国際会議であるEACL 2024に口頭発表として採択され、採択率が高くなりました。 11.32% (144/1271 )。
彼らは論文の中で、新しい情報検索パラダイムである生成密検索 (GDR) を提案しました。 このパラダイムは、大規模なデータセットを処理する際に従来の生成検索 (GR) が直面する課題を十分に解決できます。それは記憶のメカニズムからインスピレーションを得たものです。
これまでの実践では、GR は独自のメモリ メカニズムに依存して、クエリとドキュメント ライブラリ間の詳細な対話を実現していました。ただし、言語モデルの自己回帰コーディングに依存するこの方法には、大規模なデータを処理する場合、あいまいで細かいドキュメントの特徴、ドキュメント ライブラリのサイズの制限、インデックスの更新の難しさなど、明らかな制限があります。
Xiaohongshu によって提案された GDR は、粗いものから細かいものまでの 2 段階の検索のアイデアを採用しています。まず、言語モデルの限られたメモリ容量を使用してクエリとドキュメントのマッピングを実現し、次にベクトル マッチング メカニズムを使用して、ドキュメントからドキュメントへのマッピングを完了します。 GDR は、密なセットを取得するためのベクトル マッチング メカニズムを導入することにより、GR 固有の欠点を効果的に軽減します。
さらに、チームは、それぞれ 2 つの段階の検索パフォーマンスを向上させるために、「メモリに優しい文書クラスター識別子構築戦略」と「文書クラスター適応型ネガティブ サンプリング戦略」も設計しました。 Natural question データセットの複数の設定の下で、GDR は SOTA の Recall@k パフォーマンスを実証しただけでなく、深いインタラクションの利点を維持しながら優れたスケーラビリティを達成し、情報検索に関する将来の研究に新たな可能性を切り開きました。
テキスト検索ツールには重要な研究価値と応用価値があります。単語マッチングに基づくスパース検索 (SR) やセマンティック ベクトル マッチングに基づくデンス検索 (DR) などの従来の検索パラダイムは、それぞれに独自の利点がありますが、これに基づく事前トレーニング済み言語モデルの台頭により、生成検索が登場しました。というパラダイムが生まれ始めました。 生成検索パラダイムの始まりは、主にクエリと候補ドキュメント間の意味論的な一致に基づいていました。クエリとドキュメントを同じ意味空間にマッピングすることにより、候補ドキュメントの検索問題はベクトル一致度の密な検索に変換されます。この画期的な検索パラダイムは、事前トレーニングされた言語モデルを利用し、テキスト検索の分野に新たな機会をもたらします。 しかし、生成検索パラダイムは依然として課題に直面しています。一方で、既存の事前トレーニング
トレーニング プロセス中に、モデルは、コンテキストとして指定されたクエリを使用して、関連するドキュメントの識別子を自己回帰的に生成します。このプロセスにより、モデルは候補コーパスを記憶できるようになります。クエリがモデルに入った後、クエリはモデル パラメーターと相互作用し、自己回帰的にデコードされます。これにより、クエリと候補コーパスの間に深い相互作用が暗黙的に生成されます。この深い相互作用は、まさに SR と DR に欠けているものです。したがって、モデルが候補文書を正確に記憶できれば、GR は優れた検索パフォーマンスを発揮できます。
ただし、GR の記憶機構は完璧ではありません。古典的な DR モデル (AR2) と GR モデル (NCI) の比較実験を通じて、メモリ メカニズムが少なくとも 3 つの大きな課題をもたらすことを確認しました:
文書識別子の各ビットを粗いものから細かいものまでデコードするときに、NCI と AR2 がエラーを起こす確率をそれぞれ計算しました。 AR2 の場合、ベクトル マッチングを通じて、特定のクエリに最も関連性の高いドキュメントに対応する識別子を見つけ、その識別子の最初のエラー ステップをカウントして、AR2 に対応する段階的な復号エラー率を取得します。表 1 に示すように、NCI はデコードの前半では良好なパフォーマンスを示しますが、後半ではエラー率が高くなり、AR2 ではその逆が当てはまります。これは、NCI がメモリ データベース全体を通じて候補文書の意味空間の粗粒マッピングをより適切に完了できることを示しています。ただし、トレーニング プロセス中に選択された特徴は検索によって決定されるため、その詳細なマッピングを正確に記憶するのは難しく、そのため詳細なマッピングのパフォーマンスは低くなります。
表 2 に示すように、候補ドキュメント ライブラリ サイズ 334K (最初の行) と候補ドキュメント サイズ 1M (2 行目) で NCI モデルをトレーニングしました。 R@kインジケーターでテスト済み。結果は、NCI が R@100 で 11 ポイント低下したのに対し、AR2 は 2.8 ポイントしか低下しなかったことを示しています。候補ドキュメント ライブラリのサイズが増加すると NCI パフォーマンスが大幅に低下する理由を調査するために、候補ドキュメント ライブラリとして 334K を使用した場合に、1M ドキュメント ライブラリでトレーニングされた NCI モデルのテスト結果をさらにテストします (3 行目)。最初の行と比較して、より多くの文書を記憶するという NCI の負担により、再現パフォーマンスが大幅に低下します。これは、モデルの限られたメモリ容量により、大規模な候補文書ライブラリを記憶する能力が制限されていることを示しています。
新しい文書を候補ライブラリに追加する必要がある場合、文書識別子を更新する必要があり、モデルを再トレーニングする必要があります。 -すべての書類を暗記します。そうしないと、古いマッピング (クエリからドキュメント識別子、およびドキュメント識別子からドキュメント) により、検索パフォーマンスが大幅に低下します。
上記の問題は、実際のシナリオでの GR の適用を妨げています。このため、解析の結果、DRのマッチング機構は記憶機構と補完的な関係にあると考えられ、そのデメリットを抑えつつ記憶機構を維持するためにGRに導入することを検討しています。 私たちは生成高密度検索 (GDR) の新しいパラダイムを提案しました:
クエリを入力として受け取り、言語モデルを使用して候補ドキュメント ライブラリを記憶し、k 個の関連ドキュメント クラスター (CID) を自己回帰的に生成して完了します。次のマッピング:
このプロセスでは、CID の生成確率は次のとおりです:
ここで、
はエンコーダによって生成されたすべてのクエリ埋め込みです
は生成されたものですエンコーダによる次元クエリ表現。この確率はクラスター間マッチング スコアとしても保存され、後続の操作に関与します。これに基づいて、標準のクロスエントロピー損失を使用してモデルをトレーニングします。
さらに、候補ドキュメントクラスターから候補ドキュメントを取得し、完全なイントラ-クラスターマッチング:
候補文書の表現を抽出するために文書エンコーダーを導入し、このプロセスはオフラインで完了します。これに基づいて、クラスター内のドキュメントとクエリ間の類似性をクラスター内マッチング スコアとして計算します:
このプロセスでは、NLL 損失を使用してモデルをトレーニングします:
最後に、ドキュメントのクラスター間マッチング スコアとクラスター内マッチング スコアの重み付け値を計算して並べ替え、上位 K を取得した関連ドキュメントとして選択します。
ここで、ベータは実験では 1 に設定します。
モデルの限られたメモリ容量を最大限に活用して、クエリと候補文書ライブラリ間の深い相互作用を実現するために、メモリに優しい文書クラスターを提案します。識別子構築戦略。この戦略では、まずモデルのメモリ容量をベンチマークとして使用して、クラスター内のドキュメント数の上限を計算します。
これに基づいて、K 平均法アルゴリズムを通じてドキュメント クラスター識別子がさらに構築されます。モデルのメモリ負荷がメモリ容量を超えないことを確認します。
GDR 2 段階の取得フレームワークにより、クラスタ内のネガティブ サンプルが占める割合が決定されます。クラスタ内マッチング プロセスではその割合が大きくなります。この目的を達成するために、トレーニングの第 2 段階でドキュメント クラスター分割をベンチマークとして使用し、クラスター内の負のサンプルの重みを明示的に強化します。これにより、より優れたクラスター内マッチング結果が得られます。 3. 実験
実験で使用されたデータセットは、58,000 のトレーニング ペア (クエリと関連ドキュメント) と 6,000 の検証ペア、および 2,100 万の候補ドキュメント ライブラリを含む Natural question (NQ) です。各クエリには複数の関連ドキュメントがあり、モデルの再現パフォーマンスに対してより高い要件が課されます。さまざまなサイズの文書ベースで GDR のパフォーマンスを評価するために、完全な 2100 万コーパスの残りのパッセージを NQ334K に追加することで、NQ334K、NQ1M、NQ2M、NQ4M などのさまざまな設定を構築しました。 GDR は、より大きな候補ドキュメント ライブラリの意味情報がより小さなコーパスに漏洩することを防ぐために、各データセットに個別に CID を生成します。 SR ベースラインとして BM25 (Anserini 実装)、DR ベースラインとして DPR および AR2、GR ベースラインとして NCI を採用します。評価指標には R@k と Acc@k が含まれます。
候補コーパスをより大きなサイズにスケーリングすると、SR と DR の R@100 削減率は 4.06% 未満のままであるのに対し、GR は3 つの拡大方向すべての下落率は 15.25% を超えています。対照的に、GDR は、メモリ内容を一定量のコーパスの粗粒度特徴に集中させることにより、SR および DR と同様の平均 R@100 削減率 3.50% を達成します。
3.3 アブレーション実験
表 3 GDR-bert と GDR-ours はそれぞれ、従来の戦略と CID 構築戦略の下での対応するモデルのパフォーマンスを表しています。この実験では、メモリの使用が証明されています。フレンドリーなドキュメント クラスター識別子構築戦略によりメモリの負担が大幅に軽減され、それによって検索パフォーマンスの向上につながります。さらに、表 4 は、GDR トレーニングで使用されるドキュメント クラスター適応ネガティブ サンプリング戦略が、ドキュメント クラスター内でより識別的な信号を提供することにより、きめの細かいマッチング機能を強化することを示しています。
3.4 新しい文書の追加
新しい文書が候補文書ライブラリに追加されると、GDR はその新しい文書を最も近い文書クラスタークラスターセンターに追加し、それに対応する識別子を割り当てます。同時に、ドキュメント エンコーダによってベクトル表現が抽出され、ベクトル インデックスが更新され、それによって新しいドキュメントの迅速な拡張が完了します。表 6 に示すように、候補コーパスに新しい文書を追加する設定では、NCI の R@100 は 18.3 パーセント ポイント低下しますが、GDR のパフォーマンスは 1.9 パーセント ポイントしか低下しません。これは、GDR がマッチング メカニズムを導入することでメモリ メカニズムの困難なスケーラビリティを軽減し、モデルを再トレーニングすることなく良好なリコール効果を維持していることを示しています。
言語モデルの自己回帰生成の特性により制限されますが、GDR は第 2 段階でベクトルマッチング機構を導入しており、GR と比較して大幅な検索効率の向上を実現していますが、DR と比較するとまだ多くの制限があります。 SRに関しては改善の余地あり。私たちは、検索フレームワークへのメモリメカニズムの導入によって引き起こされる遅延の問題を軽減するために、将来のさらなる研究を期待しています。
この研究では、情報検索における記憶メカニズムの諸刃の剣の効果を深く調査しました。一方で、このメカニズムはクエリと候補の間の深い相互作用を実現します。ドキュメント ライブラリ。一方で、モデルのメモリ容量が限られており、インデックスの更新が複雑なため、大規模で動的に変化する候補ドキュメント ライブラリの処理が困難になります。 この問題を解決するために、メモリ機構とベクトルマッチング機構を階層的に革新的に組み合わせ、両者の長所を最大限に発揮し、短所を回避し、相互に補完できるようにしました。
私たちは、新しいテキスト検索パラダイム、Generative Dense Retrieval (GDR) を提案します。 GDR このパラダイムは、指定されたクエリに対して粗い検索から細かい検索までの 2 段階の検索を実行します。まず、メモリ メカニズムが自己回帰的にドキュメント クラスター識別子を生成してクエリをドキュメント クラスターにマッピングし、次にベクトル マッチング メカニズムがそれらの間の関係を計算します。クエリとドキュメントの類似性により、ドキュメント クラスターのドキュメントへのマッピングが完了します。
メモリに優しいドキュメント クラスター識別子構築戦略により、モデルのメモリ負荷がメモリ容量を超えず、クラスター間のマッチング効果が高まります。ドキュメントクラスター適応ネガティブサンプリング戦略は、クラスター内のネガティブサンプルを区別するためのトレーニング信号を強化し、クラスター内のマッチング効果を高めます。 広範な実験により、GDR が大規模な候補ドキュメント ライブラリに対して優れた検索パフォーマンスを達成し、ドキュメント ライブラリの更新に効率的に対応できることが証明されました。
従来の検索方法の利点を統合する成功した試みとして、生成集中検索パラダイムには、大規模な候補ドキュメント ライブラリを含むシナリオでの優れた再現パフォーマンス、強力なスケーラビリティ、および堅牢なパフォーマンスという利点があります。大規模な言語モデルの理解と生成能力が向上し続けるにつれて、生成的な集中検索のパフォーマンスがさらに向上し、情報検索のより広い世界が開かれるでしょう。
論文アドレス:https://www.php.cn/link/9e69fd6d1c5d1cef75ffbe159c1f322e
以上がXiaohongshu は記憶メカニズムからの情報検索を解釈し、EACL Oral を取得するための新しいパラダイムを提案しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。