>기술 주변기기 >일체 포함 >캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

PHPz
PHPz앞으로
2024-03-25 20:50:47489검색

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기



  • 논문 링크: https://arxiv.org/abs/2402.08327
  • DEMO 링크: https://u60 544-b8d4-53eaa55d. westx .seetacloud.com:8443/
  • 프로젝트 홈페이지 링크: https://preflmr.github.io/
  • 논문 제목: PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal 리트리버

Background

대형 멀티모달 모델(예: GPT4-Vision, Gemini 등)은 강력한 일반 이미지 및 텍스트 이해 기능을 보여주었지만, 전문적인 지식이 필요한 문제. GPT4-Vision조차도 지식 집약적인 질문(그림 1 참조)에 효과적으로 답할 수 없으며, 이는 많은 기업 수준 애플리케이션에 문제를 야기합니다.

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

GPT4-Vision은 PreFLMR 다중 모달 지식 검색기를 통해 관련 지식을 얻고 정확한 답변을 생성할 수 있습니다. 그림은 모델의 실제 출력을 보여줍니다.

검색 증강 생성(RAG)은 이 문제를 해결하는 간단하고 효과적인 방법을 제공하여 대규모 다중 모드 모델을 특정 분야의 "도메인 전문가"처럼 만들 수 있습니다. 작동 원리는 다음과 같습니다. 먼저 경량 지식 검색기(Knowledge Retriever)를 사용하여 전문 데이터베이스(예: Wikipedia 또는 기업 지식 기반)에서 관련 전문 지식을 검색한 다음 대규모 모델이 이 지식과 ​​질문을 입력으로 사용합니다. 그리고 정확한 답을 출력합니다. 다중 모드 지식 추출기의 지식 "회상 능력"은 대규모 모델이 추론 질문에 답할 때 정확한 전문 지식을 얻을 수 있는지 여부에 직접적인 영향을 미칩니다.

최근 케임브리지 대학교 정보공학과 인공 지능 연구소는 최초의 사전 훈련된 범용 다중 모달 후기 상호 작용 지식 검색 PreFLMR(사전 훈련된 세분화된 세분화)을 완전히 오픈 소스화했습니다. 후기 상호작용 다중 모달 리트리버) . 과거의 일반 모델과 비교하여 PreFLMR은 다음과 같은 특징을 가지고 있습니다.

PreFLMR은 텍스트 검색, 이미지 검색, 지식 검색 등 여러 하위 작업을 효과적으로 해결할 수 있는 일반적인 사전 학습 모델입니다. 수백만 수준의 다중 모드 데이터에 대해 사전 훈련된 이 모델은 여러 다운스트림 검색 작업에서 잘 작동합니다. 또한 우수한 기본 모델인 PreFLMR은 Private Data에 대한 미세 조정을 거쳐 우수한 도메인별 모델로 빠르게 발전할 수 있습니다.

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

그림 2: PreFLMR 모델은 동시에 여러 작업에서 뛰어난 다중 모드 검색 성능을 달성하며 매우 강력한 사전 학습 기본 모델입니다.

2. 전통적인 DPR(Dense Passage Retrieval)은 하나의 벡터만 사용하여 쿼리(Query) 또는 문서(Document)를 나타냅니다. NeurIPS 2023에서 캠브리지 팀이 발표한 FLMR 모델은 DPR의 단일 벡터 표현 설계가 미세한 정보 손실로 이어질 수 있으며, 이로 인해 DPR이 정밀한 정보 일치가 필요한 검색 작업에서 성능이 저하될 수 있음을 입증했습니다. 특히 다중 모드 작업의 경우 사용자 쿼리에는 복잡한 장면 정보가 포함되어 있으며 이를 1차원 벡터로 압축하면 특징 표현 능력이 크게 저해됩니다. PreFLMR은 FLMR의 구조를 상속하고 개선하여 다중 모드 지식 검색에 고유한 이점을 제공합니다.

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

그림 3: PreFLMR은 쿼리(쿼리, 왼쪽의 1, 2, 3)와 문서(문서, 오른쪽의 4)를 문자 수준(토큰 수준)으로 인코딩합니다. 정보를 1차원 벡터로 압축하는 모든 DPR 시스템을 인코딩하는 것은 세분화된 정보를 얻을 수 있다는 장점이 있습니다.

3. PreFLMR은 사용자가 입력한 지침(예: "다음 질문에 대답하는 데 사용할 수 있는 문서 추출" 또는 "그림의 항목과 관련된 문서 추출")을 기반으로 방대한 지식 베이스에서 관련 문서를 추출할 수 있습니다. "), 다중 모드 대형 모델을 지원하여 전문 지식 질문 및 답변 작업의 성능을 크게 향상시킵니다.

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기


캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

그림 4: PreFLMR은 이미지 기반 문서 추출, 질문 기반 문서 추출, 질문 기반 문서와 이미지 기반 문서를 함께 추출하는 멀티 모달 쿼리 작업을 동시에 처리할 수 있습니다. .

캠브리지 대학 팀은 소형부터 대형까지 세 가지 모델을 오픈 소스로 제공했습니다. PreFLMR_ViT-B(207M), PreFLMR_ViT-L(422M), PreFLMR_ViT-G(2B) , 사용자가 실제 조건에 따라 선택할 수 있습니다.

오픈 소스 모델 PreFLMR 자체 외에도 이 프로젝트는 이 연구 방향에서 두 가지 중요한 기여를 했습니다.

  1. 이 프로젝트는 또한 일반 지식 검색을 훈련하고 평가하기 위한 대규모 데이터 세트를 오픈 소스로 제공했습니다. M2KR(Multi-task Multi-modal Knowledge Retrieval Benchmark)은 학계에서 널리 연구된 10개의 검색 하위 작업과 총 100만 개 이상의 검색 쌍을 포함합니다.
  2. 논문에서 케임브리지 대학 팀은 다양한 크기와 성능의 이미지 인코더와 텍스트 인코더를 비교하고 미래 일반 검색을 위한 매개변수 확장 및 다중 모드 사후 상호작용 지식 검색 시스템 사전 훈련을 위한 모범 사례를 요약했습니다. 모델은 경험적 지침을 제공합니다.

다음에서는 M2KR 데이터 세트, PreFLMR 모델 및 실험 결과 분석을 간략하게 소개합니다.

M2KR 데이터 세트

일반 다중 모드 검색 모델을 대규모로 사전 훈련하고 평가하기 위해 저자는 공개적으로 사용 가능한 10개의 데이터 세트를 컴파일하고 이를 통합된 문제 문서 검색 형식으로 변환했습니다. 이러한 데이터 세트의 원래 작업에는 이미지 캡션 작성, 다중 모드 대화 등이 포함됩니다. 아래 그림은 5개 작업에 대한 질문(첫 번째 행)과 해당 문서(두 번째 행)를 보여줍니다.

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

그림 5: M2KR 데이터 세트의 지식 추출 작업의 일부

PreFLMR 검색 모델

캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기

그림 6: PreFLMR의 모델 구조. 쿼리는 토큰 수준 기능으로 인코딩됩니다. 쿼리 행렬의 각 벡터에 대해 PreFLMR은 문서 행렬에서 가장 가까운 벡터를 찾고 내적을 계산한 다음 이러한 최대 내적을 합산하여 최종 관련성을 얻습니다.

PreFLMR 모델은 NeurIPS 2023에 게시된 Fine-grained Late-interaction Multi-modal Retriever(FLMR)를 기반으로 하며 M2KR에서 모델 개선 및 대규모 사전 학습을 거칩니다. DPR과 비교하여 FLMR 및 PreFLMR은 모든 토큰 벡터로 구성된 매트릭스를 사용하여 문서 및 쿼리를 특성화합니다. 토큰에는 텍스트 토큰과 텍스트 공간에 투영된 이미지 토큰이 포함됩니다. 후기 상호작용은 두 표현 행렬 사이의 상관관계를 효율적으로 계산하기 위한 알고리즘입니다. 구체적인 방법은 쿼리 행렬의 각 벡터에 대해 문서 행렬에서 가장 가까운 벡터를 찾고 내적을 계산하는 것입니다. 그런 다음 이러한 최대 내적을 합산하여 최종 상관 관계를 얻습니다. 이러한 방식으로 각 토큰의 표현은 최종 상관 관계에 명시적으로 영향을 미칠 수 있으므로 토큰 수준의 세분화된 정보가 보존됩니다. 전용 사후 대화형 검색 엔진 덕분에 PreFLMR은 단 0.2초 만에 400,000개의 문서 중 100개의 관련 문서를 추출할 수 있어 RAG 시나리오에서의 유용성이 크게 향상됩니다.

PreFLMR 사전 훈련은 다음 4단계로 구성됩니다.

  • 텍스트 인코더 사전 훈련: 먼저, 사후 대화형 텍스트 검색 모델은 PreFLMR의 텍스트 인코더인 MSMARCO(순수 텍스트 지식 검색 데이터 세트)에서 사전 훈련됩니다.
  • 이미지-텍스트 투영 레이어 사전 훈련: 둘째, M2KR에서 이미지-텍스트 투영 레이어를 훈련하고 다른 부분을 동결합니다. 이 단계에서는 모델이 텍스트 정보에 지나치게 의존하는 것을 방지하기 위해 검색을 위해 투영된 이미지 벡터만 사용합니다.
  • 지속적인 사전 훈련: 그런 다음 텍스트 인코더와 이미지-텍스트 프로젝션 레이어는 E-VQA, M2KR의 고품질 지식 집약적 시각적 질문 응답 작업에 대해 지속적으로 훈련됩니다. 이 단계는 PreFLMR의 정밀한 지식 검색 기능을 향상시키는 것을 목표로 합니다.
  • Universal Retrieval Training: 마지막으로 전체 M2KR 데이터 세트에 대한 모든 가중치를 훈련하고 이미지 인코더만 동결합니다. 동시에 쿼리 텍스트 인코더와 문서 텍스트 인코더의 매개변수가 별도로 잠금 해제되고 학습됩니다. 이 단계는 PreFLMR의 일반 검색 기능을 향상시키는 것을 목표로 합니다.

동시에 저자는 PreFLMR이 하위 데이터 세트(예: OK-VQA, Infoseek)에서 더욱 미세 조정되어 특정 작업에서 더 나은 검색 성능을 얻을 수 있음을 보여줍니다.

실험 결과 및 수직 확장

최상의 검색 결과: 최고 성능의 PreFLMR 모델은 ViT-G를 이미지 인코더로 사용하고 ColBERT-base-v2를 텍스트 인코더로 사용하며 총 20억 개의 매개변수를 사용합니다. 7개의 M2KR 검색 하위 작업(WIT, OVEN, Infoseek, E-VQA, OKVQA 등)에서 기준 모델 이상의 성능을 달성합니다.

확장된 시각적 인코딩이 더 효과적입니다. 저자는 이미지 인코더 ViT를 ViT-B(86M)에서 ViT-L(307M)로 업그레이드하면 성능이 크게 향상되지만 텍스트 인코더 ColBERT를 기본(110M)에서 업그레이드한다는 사실을 발견했습니다. )를 대규모(345M)로 확장하면 성능 저하가 발생하고 훈련 불안정 문제가 발생했습니다. 실험 결과에 따르면 이후의 대화형 다중 모드 검색 시스템에서는 시각적 인코더의 매개변수를 늘리면 더 큰 수익을 얻을 수 있는 것으로 나타났습니다. 동시에 이미지-텍스트 투영에 Cross-attention의 다중 레이어를 사용하는 것은 단일 레이어를 사용하는 것과 동일한 효과를 가지므로 이미지-텍스트 투영 네트워크의 설계가 너무 복잡할 필요가 없습니다.

PreFLMR은 RAG를 더욱 효과적으로 만듭니다. 지식 집약적인 시각적 질문 응답 작업에서 검색 향상을 위해 PreFLMR을 사용하면 최종 시스템의 성능이 크게 향상됩니다. Infoseek 및 EVQA에서 각각 94% 및 275% 성능 향상이 달성되었습니다. 간단한 미세 조정을 통해 BLIP-2 기반 모델은 수천억 개의 매개변수가 있는 PALI-X 모델과 Google API로 강화된 PaLM-Bison+Lens 시스템을 이길 수 있습니다.

결론

Cambridge Artificial Intelligence Laboratory에서 제안한 PreFLMR 모델은 최초의 오픈 소스 일반 후기 대화형 다중 모드 검색 모델입니다. M2KR에서 수백만 개의 데이터를 사전 훈련한 후 PreFLMR은 여러 검색 하위 작업에서 강력한 성능을 보여줍니다. M2KR 데이터 세트, PreFLMR 모델 가중치 및 코드는 프로젝트 홈페이지 https://preflmr.github.io/에서 확인할 수 있습니다.

자원 확장

  • FLMR 논문(NeurIPS 2023): https://proceedings.neurips.cc/paper_files/paper/2023/hash/47393e8594c82ce8fd83adc67 2cf 9872-Abstract-Conference.html
  • 코드 베이스: https://github.com/LinWeizheDragon/Retrieval-Augmented-Visual-Question-Answering
  • 영어 버전 블로그: https://www.jinghong-chen.net/preflmr-sota-open- sourced -multi/
  • FLMR 소개: https://www.jinghong-chen.net/fined-grained-late-interaction-multimodal-retrieval-flmr/

위 내용은 캠브리지 팀의 오픈 소스: 다중 모드 대형 모델 RAG 애플리케이션 강화, 최초의 사전 훈련된 범용 다중 모드 사후 대화식 지식 검색기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제