搜尋
首頁科技週邊人工智慧小紅書從記憶機制解讀資訊檢索,提出新典範取得 EACL Oral

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

近日,來自小紅書搜尋演算法團隊的論文《Generative Dense Retrieval: Memory Can Be a Burden》被自然語言處理領域國際會議EACL 2024 接收為Oral,接受率為11.32%(144/1271)。

他們在論文中提出了一個新穎的資訊檢索範式-生成式密集檢索(Generative Dense Retrieval,GDR)。 此範式能夠很好地解決傳統生成式檢索(Generative Retrieval,GR)在處理大規模資料集時所面臨的挑戰。它是從記憶機制得到的靈感。

在過往的實踐中,GR憑藉其獨特的記憶機制,實現了查詢與文件庫間的深度互動。然而,這種依賴語言模型自回歸編碼的方法,在處理大規模資料時存在明顯的局限性,包括細粒度文檔特徵模糊、文檔庫規模受限、索引更新困難等。

小紅書提出的GDR 採用由粗到細的兩階段檢索思想,首先利用語言模型有限的記憶容量,實現查詢到文檔將的映射,然後透過向量匹配機製完成文件將到文件的精細映射。 GDR 透過引入密集集檢索的向量匹配機制,有效緩解了 GR 的固有弊端。

此外,團隊也設計了「記憶友善的文檔簇標識符建構策略」與「文檔簇自適應的負採樣策略」,分別提升了兩階段的檢索效能。在Natural Questions 資料集的多個設定下,GDR 不僅展現了SOTA 的Recall@k 表現,更在保留深度交互優勢的同時實現了良好的可擴展性,為資訊檢索的未來研究開闢了新的可能性。

1.背景

文本搜尋工具具有重要的研究與應用價值。傳統搜尋範式,如基於字詞匹配度的稀疏檢索(sparse retrieval, SR)和基於語義向量匹配度的密集檢索(dense retrieval, DR),雖然各有千秋,但隨著預訓練語言模型的興起,基於此的生成式檢索範式開始嶄露頭角。 生成式檢索範式的開端主要基於查詢和候選文件之間的語意匹配度。透過將查詢和文件對應到同一語意空間,將候選文件的檢索問題轉換為向量匹配度的密集檢索。這種開創性的檢索範式利用了預訓練語言模型的優勢,為文字搜尋領域帶來了新的機會。 然而,生成式檢索範式仍面臨挑戰。一方面,現有的預訓

在訓練過程中,模型以給定查詢作為上下文,自回歸地產生相關文件的識別碼。這個過程實現了模型對於候選語料庫的記憶。查詢進入模型後與模型參數交互並自回歸解碼,隱式地產生了查詢與候選語料庫的深度交互,而這種深度交互正是 SR 和 DR 所缺少的。因此,當模型能夠準確記憶候選文件時,GR 能夠表現出優異的檢索表現。

儘管GR的記憶機轉並非無懈可擊。我們透過經典DR模型(AR2)與GR模型(NCI)之間的比較實驗,證實了記憶機制至少會帶來三大挑戰:

1)細粒度文件特徵模糊:

我們分別計算了NCI 和AR2 在由粗到細解碼文檔標識符的每一位時發生錯誤的機率。對於 AR2,我們透過向量匹配找到給定查詢最相關的文檔對應的標識符,然後統計標識符的首次出錯步數,得到 AR2 對應的分步解碼錯誤率。如表1所示,NCI 在解碼的前半段中表現良好,而後半段錯誤率較高,AR2 與之相反。這說明 NCI 透過整體記憶庫,能較好地完成查找到候選文檔語意空間的粗粒度映射。但由於訓練過程中的選擇特徵是由查找來決定的,因此其細粒度映射難以被準確記憶,故而在細粒度映射時表現不佳。

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

2)文档库规模受限:

如表 2 所示,我们分别以 334K 的候选文档库大小(第一行)和 1M 的候选文档大小(第二行)训练了 NCI 模型并以 R@k 指标进行测试。结果表明 NCI 在 R@100 上下降了 11 point,对比之下 AR2 只下降了 2.8 point。为了探究候选文档库规模扩大使 NCI 性能显著下降的原因,我们进一步测试了在 1M 文档库上训练的 NCI 模型在以 334K 为候选文档库时的测试结果(第三行)。与第一行相比,NCI 记忆更多文档的负担导致了其召回性能的显著下降,这说明模型有限的记忆容量限制了其记忆大规模的候选文档库。

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral


3)索引更新困难:

当新文档需要加入候选库时,需要更新文档标识符,并且需要重新训练模型以重新记忆所有文档。否则,过时的映射关系(查询到文档标识符和文档标识符到文档)将显著降低检索性能。

上述问题阻碍了 GR 在真实场景下的应用。为此,我们在分析后认为 DR 的匹配机制与记忆机制有着互补的关系,因此考虑将其引入 GR,在保留记忆机制的同时抑制其带来的弊端。我们提出了生成式密集检索新范式(Generative Dense Retrieval,GDR):

  • 我们整体设计了由粗到细的两阶段检索框架,利用记忆机制实现簇间匹配(查询到文档簇的映射),通过向量匹配机制完成簇内匹配(文档簇到文档的映射)。
  • 为了协助模型记忆候选文档库,我们构建了记忆友好的文档簇标识符构建策略,以模型记忆容量为基准控制文档簇的划分粒度,增益簇间匹配效果。
  • 在训练阶段,我们依据两阶段检索的特点提出文档簇自适应的负采样策略,增强簇内负样本的权重,增益簇内匹配效果。

2.1 基于记忆机制的簇间匹配

以查询作为输入,我们利用语言模型记忆候选文档库,并自回归生成 k 个相关文档簇(CID),完成如下映射:

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

在这一过程中,CID 的生成概率为:

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

其中 

 是编码器产生的所有查询嵌入,

 是编码器产生的一维查询表征。该概率同时作为簇间匹配分数被存储,参与后续运算。基于此,我们采用标准交叉熵损失训练模型:

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

2.2 基于向量匹配机制的簇内匹配

我们进一步从候选文档簇内检索候选文档,完成簇内匹配:

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

我们引入一个文档编码器提取候选文档的表征,这一过程会离线完成。以此为基础,计算簇内文档与查询间的相似度,作为簇内匹配分数:

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

在这一过程中,NLL loss 被用来训练模型:

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

最后,我们计算文档的簇间匹配分数与簇内匹配分数的加权值并进行排序,选出其中的 Top K 作为检索出的相关文档:

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

其中 beta 在我们的实验中设定为 1。

2.3 記憶友善的文檔簇標識符建立策略

為了充分利用模型有限的記憶容量實現查詢與候選文檔庫之間的深度交互,我們提出記憶友善的文檔簇標識符建構策略。此策略首先以模型記憶容量為基準,計算簇內文檔數上限:

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

#在此基礎上,進一步透過K-means 演算法構建文檔簇標識符,保障模型的記憶負擔不超過其記憶容量:

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

#2.4 文檔簇自適應的負取樣策略

GDR 兩階段的檢索框架決定了在簇內配對過程中簇內的負樣本所佔比例較大。為此,我們在第二階段訓練過程中以文檔簇劃分為基準,明確增強了簇內負樣本的權重,從而獲得更好的簇內匹配效果:

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral



3.實驗

#實驗中所使用的資料集為Natural Questions (NQ),它包含58K 個訓練對(查詢和相關文件)以及6K 個驗證對,伴隨著21M 個候選文檔庫。每個查詢多個相關文檔,這對模型的召回性能提出了更高的要求。為了評估 GDR 在不同規模文件庫上的效能,我們建立了 NQ334K、NQ1M、NQ2M 和 NQ4M 等不同設置,透過向 NQ334K 添加來自完整 21M 語料庫的其餘段落來實現。 GDR 在每個資料集上分別產生 CIDs,以防止更大候選文件庫的語意資訊外洩到較小的語料庫中。我們採用 BM25(Anserini 實現)作為 SR 基線,DPR 和 AR2 作為 DR 基線,NCI 作為 GR 的基線。評估指標包括 R@k 和 Acc@k。

3.1 主實驗結果

在NQ 資料集上,GDR 在R@k 指標上平均提高了3.0,而在Acc@ k 指標上排名第二。這表明 GDR 透過粗到細的檢索過程,最大化了記憶機制在深度互動和匹配機制在細粒度特徵辨別中的優勢。

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

3.2 擴展到更大的語料庫

我們注意到當候選語料庫擴展到更大的規模時,SR 和DR 的R@100 下降率保持在4.06% 以下,而GR 在所有三個擴展方向上的下降率超過了15.25%。相較之下,GDR 透過將記憶內容集中在固定體量的語料庫粗粒度特徵上,實現了平均 3.50% 的 R@100 下降率,與 SR 和 DR 相似。

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral


#3.3 消融實驗

#表3 GDR- bert 與GDR-ours 分別代表了傳統和我們的CID 構建策略下對應的模型表現,實驗證明使用記憶友好的文檔簇標識符構建策略,可以顯著減輕記憶負擔,從而帶來更好的檢索性能。此外,表 4 顯示 GDR 訓練時採用的文檔簇自適應的負採樣策略,透過提供更多的文檔簇內辨別訊號,增強了細粒度匹配能力。

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral


3.4 新文檔加入

當有新文檔加入候選文檔庫時,GDR 將新文檔加入距離最近的文檔簇聚類中心,並賦予相應標識符,同時透過文檔編碼器提取向量表徵更新向量索引,從而完成對新文檔的快速擴展。如表 6 所示,在新增文件到候選語料庫的設定下,NCI 的 R@100 下降了 18.3 個百分點,而 GDR 的效能僅下降了 1.9 個百分點。這表明 GDR 透過引入匹配機制來緩解記憶機制的難以擴展性,在無需重新訓練模型的情況下保持了良好的回想效果。

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral


#

3.5 局限性

受限于语言模型自回归生成的特点,尽管 GDR 在第二阶段引入了向量匹配机制,相比于 GR 实现了显著的检索效率提升,但相比于 DR 与 SR 仍有较大的提升空间。我们期待未来有更多的研究帮助缓解记忆机制引入检索框架时带来的时延问题。

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

4.结语

本项研究中,我们深入探讨了记忆机制在信息检索中的双刃剑效应:一方面这一机制实现了查询与候选文档库的深度交互,弥补了密集检索的不足;另一方面模型有限的记忆容量与更新索引的复杂性,它在面对大规模和动态变化候选文档库时显得捉襟见肘。为了解决这一难题,我们创新性地将记忆机制与向量匹配机制进行层次化结合,实现两者扬长避短、相得益彰的效果。

我们提出了一个全新的文本检索范式,生成式密集检索(GDR)。GDR 该范式对于给定查询进行由粗到细的两阶段检索,先由记忆机制自回归地生成文档簇标识符实现查询到文档簇的映射,再由向量匹配机制计算查询与文档间相似度完成文档簇到文档的映射。

记忆友好的文档簇标识符构建策略保障了模型的记忆负担不超过其记忆容量,增益簇间匹配效果。文档簇自适应的负采样策略增强了区分簇内负样本的训练信号,增益簇内匹配效果大量实验证明,GDR 在大规模候选文档库上能够取得优异的检索性能,同时能够高效应对文档库更新。

作为一次对传统检索方法进行优势整合的成功尝试,生成式密集检索范式具有召回性能好、可扩展性强、在海量候选文档库场景下表现稳健等优点。随着大语言模型在理解与生成能力上的不断进步,生成式密集检索的性能也将进一步提升,为信息检索开辟更加广阔的天地。

论文地址:https://www.php.cn/link/9e69fd6d1c5d1cef75ffbe159c1f322e

5.作者简介

  • 袁沛文
    现博士就读于北京理工大学,小红书社区搜索组实习生,在 NeurIPS、ICLR、AAAI 、EACL 等发表多篇一作论文。主要研究方向为大语言模型推理与评测、信息检索。
  • 王星霖
    现博士就读于北京理工大学,小红书社区搜索组实习生,在 EACL、NeurIPS、ICLR 等发表数篇论文,在国际对话技术挑战赛 DSTC11 上获得测评赛道第二名。主要研究方向为大语言模型推理与测评、信息检索。
  • 冯少雄
    负责小红书社区搜索向量召回。博士毕业于北京理工大学,在 ICLR、AAAI、ACL、EMNLP、NAACL、EACL、KBS 等机器学习、自然语言处理领域顶级会议/期刊上发表数篇论文。主要研究方向为大语言模型测评推理蒸馏、生成式检索、开放域对话生成等。
  • 道玄
    小红书交易搜索团队负责人。博士毕业于浙江大学,在 NeurIPS、ICML 等机器学习领域顶级会议上发表数篇一作论文,长期作为多个顶级会议/期刊审稿人。主要业务覆盖内容搜索、电商搜索、直播搜索等。
  • 曾书
    硕士毕业于清华大学电子系,在互联网领域从事自然语言处理、推荐、搜索等相关方向的算法工作,目前在小红书社区搜索负责召回和垂类搜索等技术方向。

以上是小紅書從記憶機制解讀資訊檢索,提出新典範取得 EACL Oral的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
AI技能差距正在減慢供應鏈AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AI一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

對大學的存在威脅對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

原型:美國科學家正在國外尋找工作原型:美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

所有有關打開AI最新的GPT 4.1家庭的信息 - 分析Vidhya所有有關打開AI最新的GPT 4.1家庭的信息 - 分析VidhyaApr 26, 2025 am 10:19 AM

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具