>  기사  >  기술 주변기기  >  Xiaohongshu는 기억 메커니즘에서 정보 검색을 해석하고 EACL Oral을 얻기 위한 새로운 패러다임을 제안합니다.

Xiaohongshu는 기억 메커니즘에서 정보 검색을 해석하고 EACL Oral을 얻기 위한 새로운 패러다임을 제안합니다.

WBOY
WBOY앞으로
2024-04-29 16:16:071179검색

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

최근 Xiaohongshu 검색 알고리즘 팀의 논문 "Generative Dense Retrieval: Memory Can Be a Burden"이 자연어 처리 분야 국제 학회인 EACL 2024에서 높은 합격률로 Oral로 채택되었습니다. 11.32%(144/1271)입니다.

그들은 논문에서 새로운 정보 검색 패러다임인 GDR(Generative Dense Retrieval)을 제안했습니다. 이 패러다임은 대규모 데이터 세트를 처리할 때 기존 생성 검색(GR)이 직면한 문제를 잘 해결할 수 있습니다. 이는 메모리 메커니즘에서 영감을 얻었습니다.

과거 GR은 고유한 메모리 메커니즘을 사용하여 쿼리와 문서 라이브러리 간의 심층적인 상호 작용을 달성했습니다. 그러나 언어 모델 자동 회귀 코딩에 의존하는 이 방법은 퍼지 세분화된 문서 기능, 제한된 문서 라이브러리 크기 및 색인 업데이트의 어려움을 포함하여 대규모 데이터를 처리할 때 명백한 한계를 가지고 있습니다.

Xiaohongshu가 제안한 GDR은 거친 것부터 미세한 것까지 2단계 검색 아이디어를 채택합니다. 먼저 언어 모델의 제한된 메모리 용량을 사용하여 쿼리를 문서에 매핑한 다음 벡터 일치 메커니즘을 사용합니다. 문서에 대한 정밀한 매핑을 완료합니다. GDR은 밀집 집합 검색을 위한 벡터 일치 메커니즘을 도입하여 GR의 고유한 단점을 효과적으로 완화합니다.

또한 팀은 두 단계의 검색 성능을 각각 향상시키기 위해 "메모리 친화적인 문서 클러스터 식별자 구성 전략"과 "문서 클러스터 적응형 네거티브 샘플링 전략"도 설계했습니다. Natural Question 데이터 세트의 다양한 설정에서 GDR은 SOTA의 Recall@k 성능을 입증했을 뿐만 아니라 심층 상호 작용의 장점을 유지하면서 우수한 확장성을 달성하여 정보 검색성에 대한 향후 연구의 새로운 가능성을 열었습니다.

1. 배경

텍스트 검색 도구는 중요한 연구 및 응용 가치를 가지고 있습니다. 단어 일치에 기반한 희소 검색(SR)과 의미론적 벡터 일치에 기반한 밀집 검색(DR)과 같은 전통적인 검색 패러다임은 각각 고유한 장점이 있지만 이를 기반으로 사전 훈련된 언어 모델의 등장으로 생성 검색이 등장합니다. 패러다임이 나타나기 시작했습니다. 생성 검색 패러다임의 시작은 주로 쿼리와 후보 문서 간의 의미론적 일치를 기반으로 했습니다. 쿼리와 문서를 동일한 의미 공간에 매핑함으로써 후보 문서의 검색 문제는 벡터 일치 정도의 밀집된 검색으로 변환됩니다. 이 획기적인 검색 패러다임은 사전 훈련된 언어 모델을 활용하고 텍스트 검색 분야에 새로운 기회를 제공합니다. 그러나 생성 검색 패러다임은 여전히 ​​과제에 직면해 있습니다. 한편, 기존 사전 훈련

훈련 과정에서 모델은 주어진 쿼리를 컨텍스트로 사용하여 관련 문서의 식별자를 자동 회귀적으로 생성합니다. 이 과정을 통해 모델은 후보 코퍼스를 기억할 수 있습니다. 쿼리가 모델에 들어간 후 모델 매개변수와 상호 작용하고 자동 회귀 방식으로 디코딩됩니다. 이는 암시적으로 쿼리와 후보 말뭉치 사이에 깊은 상호 작용을 생성하며, 이 깊은 상호 작용은 정확히 SR과 DR에 부족한 부분입니다. 따라서 GR은 ​​모델이 후보 문서를 정확하게 기억할 수 있을 때 뛰어난 검색 성능을 나타낼 수 있습니다.

GR의 메모리 메커니즘이 완벽하지는 않지만. 클래식 DR 모델(AR2)과 GR 모델(NCI) 간의 비교 실험을 통해 메모리 메커니즘이 적어도 세 가지 주요 과제를 가져올 것임을 확인했습니다.

1) 세분화된 문서 기능 흐림:

우리는 각각 문서 식별자의 각 비트를 대략적인 것에서 미세한 것으로 디코딩할 때 NCI와 AR2가 오류를 범할 확률을 계산했습니다. AR2의 경우 벡터 매칭을 통해 주어진 쿼리와 가장 관련성이 높은 문서에 해당하는 식별자를 찾은 다음 식별자의 첫 번째 오류 단계를 계산하여 AR2에 해당하는 단계별 디코딩 오류율을 얻습니다. 표 1에서 볼 수 있듯이 NCI는 디코딩 전반부에서 잘 수행되는 반면 후반부에서는 오류율이 높아지며 AR2의 경우에는 그 반대입니다. 이는 NCI가 전체 메모리 데이터베이스를 통해 후보 문서의 의미 공간에 대한 대략적인 매핑을 더 잘 완료할 수 있음을 보여줍니다. 그러나 학습 과정에서 선택된 특징은 검색을 통해 결정되기 때문에 Fine-grained 매핑은 정확하게 기억하기 어렵기 때문에 Fine-grained 매핑에서는 성능이 좋지 않습니다.

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

2) 문서 라이브러리 크기는 제한되어 있습니다.

표 2에 표시된 대로 우리는 후보 문서 라이브러리 크기가 각각 334K(첫 번째 행)이고 후보 문서 크기가 1M(두 번째 행)인 NCI 모델을 훈련했습니다. R@k 표시기로 테스트되었습니다. 결과에 따르면 NCI는 R@100에서 11포인트 하락한 반면 AR2는 2.8포인트 하락한 것으로 나타났습니다. 후보 문서 라이브러리의 크기가 증가함에 따라 NCI 성능이 크게 감소하는 이유를 탐색하기 위해 334K를 후보 문서 라이브러리(세 번째 행)로 사용할 때 1M 문서 라이브러리에서 훈련된 NCI 모델의 테스트 결과를 추가로 테스트합니다. 첫 번째 줄과 비교하면 NCI가 더 많은 문서를 기억해야 한다는 부담으로 인해 회상 성능이 크게 저하되는데, 이는 모델의 제한된 메모리 용량으로 인해 대규모 후보 문서 라이브러리를 기억하는 능력이 제한된다는 것을 나타냅니다.

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral


3) 인덱스 업데이트 난이도:

새 문서를 후보 라이브러리에 추가해야 할 때 문서 식별자를 업데이트해야 하며 모델을 다시 학습해야 합니다. -모든 서류를 기억하세요. 그렇지 않으면 오래된 매핑(문서 식별자에 대한 쿼리 및 문서에 대한 문서 식별자)으로 인해 검색 성능이 크게 저하됩니다.

위의 문제는 실제 시나리오에서 GR의 적용을 방해합니다. 이러한 이유로 분석 결과, DR의 매칭 메커니즘은 메모리 메커니즘과 상호 보완적인 관계에 있다고 판단하여, 단점을 억제하면서 메모리 메커니즘을 유지하기 위해 GR에 도입하는 것을 고려합니다. GDR(Generative Dense Retrieval)의 새로운 패러다임을 제안했습니다.

  • 클러스터 간 일치(문서 클러스터 매핑에 대한 쿼리)를 달성하기 위해 메모리 메커니즘을 사용하여 대략적인 것부터 미세한 것까지 전체 2단계 검색 프레임워크를 설계했습니다. ), 클러스터 내 일치(문서 클러스터를 문서에 매핑)는 벡터 일치 메커니즘을 통해 완료됩니다.
  • 모델의 후보 문서 라이브러리 기억을 돕기 위해 모델 메모리 용량에 따라 문서 클러스터의 분할 세분성을 제어하고 클러스터 간 매칭을 향상시키는 메모리 친화적인 문서 클러스터 식별자 구성 전략을 구축했습니다. 효과.
  • 훈련 단계에서는 2단계 검색의 특성을 기반으로 클러스터 내 음성 샘플의 가중치를 높이고 클러스터 내 매칭 효과를 높이는 문서 클러스터에 대한 적응형 음성 샘플링 전략을 제안합니다.

2.1 메모리 메커니즘을 기반으로 한 클러스터 간 일치

쿼리를 입력으로 사용하여 언어 모델을 사용하여 후보 문서 라이브러리를 기억하고 k개의 관련 문서 클러스터(CID)를 자동 회귀적으로 생성하여 완료합니다. 다음 매핑:

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

이 프로세스에서 CID의 생성 확률은 다음과 같습니다.

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

여기서

는 인코더에서 생성된 모든 쿼리 임베딩이고

은 1입니다. 생성된 인코더 차원 쿼리 표현을 통해 이 확률은 클러스터 간 일치 점수로도 저장되며 후속 작업에 참여합니다. 이를 기반으로 표준 교차 엔트로피 손실을 사용하여 모델을 학습합니다.

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

2.2 벡터 일치 메커니즘을 기반으로 한 클러스터 내 일치

후보 문서 클러스터에서 후보 문서를 추가로 검색하고 내부- 클러스터 매칭:

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

후보 문서의 표현을 추출하기 위한 문서 인코더를 도입하고, 이 프로세스는 오프라인으로 완료됩니다. 이를 기반으로 클러스터 내 문서와 쿼리 간의 유사성을 클러스터 내 일치 점수로 계산합니다.

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

이 과정에서 NLL 손실을 사용하여 모델을 학습합니다.

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

마지막으로 문서의 클러스터 간 일치 점수와 클러스터 내 일치 점수의 가중치를 계산하여 정렬하고 검색된 관련 문서로 Top K를 선택합니다.

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

여기서 beta는 우리 실험에서는 1로 설정했습니다.

2.3 메모리 친화적인 문서 클러스터 식별자 구축 전략

모델의 제한된 메모리 용량을 최대한 활용하여 쿼리와 후보 문서 라이브러리 간의 깊은 상호 작용을 달성하기 위해 메모리 친화적인 문서 클러스터를 제안합니다. 식별자 구성 전략. 이 전략은 먼저 모델 메모리 용량을 벤치마크로 사용하여 클러스터에 있는 문서 수의 상한을 계산합니다.

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

이를 기반으로 문서 클러스터 식별자는 K-평균 알고리즘을 통해 추가로 구성됩니다. 모델의 메모리 부담이 해당 메모리를 초과하지 않는지 확인 용량:

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

2.4 문서 클러스터 적응형 음성 샘플링 전략

GDR 2단계 검색 프레임워크는 클러스터 내의 음성 샘플이 다음을 설명하는지 결정합니다. 클러스터 내 매칭 프로세스에서 더 큰 비중을 차지합니다. 이를 위해 문서 클러스터 분할을 훈련의 두 번째 단계에서 벤치마크로 사용하여 클러스터 내 음성 샘플의 가중치를 명시적으로 강화함으로써 더 나은 클러스터 내 일치 결과를 얻습니다. 3. 실험

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral실험에 사용된 데이터 세트는 NQ(자연 질문)이며, 여기에는 58K 훈련 쌍(쿼리 및 관련 문서)과 6K 검증 쌍이 포함되어 있으며 21M 후보 문서 라이브러리가 포함되어 있습니다. 각 쿼리에는 여러 관련 문서가 있으므로 모델의 재현 성능에 대한 요구 사항이 더 높습니다. 다양한 크기의 문서 기반에서 GDR의 성능을 평가하기 위해 전체 21M 코퍼스의 나머지 구절을 NQ334K에 추가하여 NQ334K, NQ1M, NQ2M 및 NQ4M과 같은 다양한 설정을 구성했습니다. GDR은 더 큰 후보 문서 라이브러리의 의미 정보가 더 작은 코퍼스로 유출되는 것을 방지하기 위해 각 데이터 세트에 대해 별도로 CID를 생성합니다. 우리는 SR 기준선으로 BM25(Anserini 구현), DR 기준선으로 DPR 및 AR2, GR 기준선으로 NCI를 채택합니다. 평가 지표에는 R@k 및 Acc@k가 포함됩니다.


3.1 주요 실험 결과


NQ 데이터 세트에서 GDR은 R@k 측정 항목에서 평균 3.0 향상되었으며 Acc@k 측정 항목에서는 2위를 차지했습니다. 이는 GDR이 Deep Interaction에서의 메모리 메커니즘과 Coarse-to-Fine 검색 프로세스를 통해 세분화된 특징 판별에서의 매칭 메커니즘의 장점을 극대화한다는 것을 보여줍니다.

3.2 더 큰 말뭉치로 확장

후보 말뭉치가 더 큰 크기로 확장되면 SR 및 DR의 R@100 감소율은 4.06% 미만으로 유지되는 반면 GR은 세 가지 확장 방향 모두에서 감소율이 15.25%를 초과합니다. 대조적으로, GDR은 3.50%의 평균 R@100 감소율을 달성합니다. 이는 고정된 양의 코퍼스 조잡한 기능에 메모리 콘텐츠를 집중함으로써 SR 및 DR과 유사합니다.

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

3.3 Ablation 실험

표 3 GDR-bert와 GDR-ours는 각각 기존 CID 구축 전략과 CID 구축 전략에 따른 해당 모델 성능을 나타냅니다. 친숙한 문서 클러스터 식별자 구성 전략은 메모리 부담을 크게 줄여 검색 성능을 향상시킬 수 있습니다. 또한 표 4는 GDR 훈련에 사용되는 문서 클러스터 적응형 부정 샘플링 전략이 문서 클러스터 내에서 보다 식별 가능한 신호를 제공함으로써 세분화된 일치 기능을 향상시키는 것을 보여줍니다. 小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral


3.4 새 문서 추가

새 문서가 후보 문서 라이브러리에 추가되면 GDR은 새 문서를 가장 가까운 문서 클러스터 클러스터 센터에 추가하고 해당 식별자에 할당합니다. 동시에 문서 인코더를 통해 벡터 표현을 추출하고 벡터 인덱스를 업데이트하여 새 문서의 급속한 확장을 완료합니다. 표 6에서 볼 수 있듯이 후보 말뭉치에 새 문서를 추가하는 설정에서 NCI의 R@100은 18.3% 포인트 감소한 반면 GDR의 성능은 1.9% 포인트만 감소했습니다. 이는 GDR이 매칭 메커니즘을 도입하여 메모리 메커니즘의 어려운 확장성을 완화하고 모델을 재교육하지 않고도 좋은 회상 효과를 유지함을 보여줍니다. 小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral


3.5 제한 사항

언어 모델 자동 회귀 생성의 특성으로 인해 제한되지만 GDR은 두 번째 단계에서 벡터 일치 메커니즘을 도입하여 GR에 비해 검색 효율성이 크게 향상되지만 DR에 비해 여전히 많은 부분이 있습니다. SR 개선의 여지가 있습니다. 우리는 검색 프레임워크에 메모리 메커니즘을 도입함으로써 발생하는 지연 문제를 완화하는 데 도움이 되는 향후 더 많은 연구가 기대됩니다.

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

4. 결론

이 연구에서 우리는 정보 검색에서 기억 메커니즘의 양날의 칼 효과를 깊이 탐구했습니다. 한편으로 이 메커니즘은 쿼리와 후보자 간의 깊은 상호 작용을 달성합니다. 문서 라이브러리; 반면에 모델의 제한된 메모리 용량과 인덱스 업데이트의 복잡성으로 인해 대규모 및 동적으로 변화하는 후보 문서 라이브러리를 처리하기가 어렵습니다. 이 문제를 해결하기 위해 우리는 메모리 메커니즘과 벡터 매칭 메커니즘을 계층적 방식으로 혁신적으로 결합하여 두 가지가 강점을 극대화하고 약점을 피하며 서로 보완할 수 있도록 합니다.

우리는 새로운 텍스트 검색 패러다임인 GDR(Generative Dense Retrieval)을 제안합니다. GDR 이 패러다임은 주어진 쿼리에 대해 대략적인 것부터 미세한 것까지 2단계 검색을 수행합니다. 먼저 메모리 메커니즘은 쿼리를 문서 클러스터에 매핑하기 위해 문서 클러스터 식별자를 자동 회귀적으로 생성한 다음 벡터 일치 메커니즘이 쿼리와 문서의 유사성은 문서 클러스터의 매핑을 완료합니다.

메모리 친화적인 문서 클러스터 식별자 구성 전략은 모델의 메모리 부담이 메모리 용량을 초과하지 않도록 보장하고 클러스터 간 일치 효과를 높입니다. 문서 클러스터 적응형 네거티브 샘플링 전략은 클러스터 내에서 네거티브 샘플을 구별하기 위한 훈련 신호를 강화하고 클러스터 내 매칭 효과를 높입니다. 광범위한 실험을 통해 GDR이 대규모 후보 문서 라이브러리에 대해 뛰어난 검색 성능을 달성하고 문서 라이브러리 업데이트에 효율적으로 대응할 수 있음이 입증되었습니다.

기존 검색 방법의 장점을 통합하려는 성공적인 시도로 생성 집중 검색 패러다임은 대규모 후보 문서 라이브러리가 있는 시나리오에서 우수한 재현 성능, 강력한 확장성 및 강력한 성능의 장점을 갖습니다. 대규모 언어 모델의 이해 및 생성 기능이 지속적으로 향상됨에 따라 생성 집중 검색 성능이 더욱 향상되어 정보 검색을 위한 더 넓은 세계가 열릴 것입니다.

논문 주소: https://www.php.cn/link/9e69fd6d1c5d1cef75ffbe159c1f322e

5. 저자 소개

  • 위안 페이웬
    지금 Ph.D.Beijing Institute of Technology에서 공부하고 Xiaohongshu 커뮤니티 검색팀에서 인턴으로 일했으며 NeurIPS, ICLR, AAAI, EACL 등에 다수의 제1저자 논문을 발표했습니다. 주요 연구 방향은 대규모 언어 모델 추론 및 평가, 정보 검색입니다.
  • 王聖霖
    현재 북경공업대학교에서 공부하고 있으며 Xiaohongshu Community Search Group의 인턴으로 EACL, NeurIPS, ICLR 등에 여러 논문을 발표하고 International Dialogue Technology에 참여했습니다. 챌린지 DSTC11 평가 트랙에서 2위를 차지했습니다. 주요 연구 방향은 대규모 언어 모델 추론 및 평가, 정보 검색입니다.
  • Feng Shaoxiong
    은 Xiaohongshu 커뮤니티 검색 벡터 리콜을 담당합니다. 그는 베이징 공과대학에서 박사 학위를 취득하고 ICLR, AAAI, ACL, EMNLP, NAACL, EACL, KBS 등 기계 학습 및 자연어 처리 분야 최고의 컨퍼런스/저널에 여러 논문을 발표했습니다. . 주요 연구 방향으로는 대규모 언어 모델 평가, 추론 증류, 생성 검색, 오픈 도메인 대화 생성 등이 있습니다.
  • Daoxuan
    Xiaohongshu 거래 검색 팀장. 절강대학교에서 박사학위를 취득한 그는 NeurIPS, ICML 등 머신러닝 분야 최고의 학회에서 다수의 제1저자 논문을 발표했으며, 오랫동안 여러 주요 학회/저널의 리뷰어로 활동해 왔습니다. 주요 사업은 콘텐츠 검색, 전자상거래 검색, 생방송 검색 등입니다.
  • Zeng Shu
    칭화대학교 전자공학과 석사 졸업. 인터넷 분야의 자연어 처리, 추천, 검색 및 기타 관련 분야의 알고리즘 작업에 종사하고 있습니다. 현재 Xiaohongshu 커뮤니티 검색 및 기타 기술 방향에서 리콜 및 수직 검색을 담당하고 있습니다.

위 내용은 Xiaohongshu는 기억 메커니즘에서 정보 검색을 해석하고 EACL Oral을 얻기 위한 새로운 패러다임을 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제