>기술 주변기기 >일체 포함 >학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.

학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.

PHPz
PHPz원래의
2024-07-16 11:57:51618검색
2.4B 메모리3는 대형 LLM 및 RAG 모델보다 더 나은 성능을 제공합니다.

최근에는 LLM(대형 언어 모델)이 뛰어난 성능으로 전례 없는 주목을 받았습니다. 그러나 LLM은 훈련하고 추론하는 데 비용이 많이 들고, 사람들은 다양한 최적화 방법을 통해 비용을 줄이려고 노력해 왔습니다.

이 기사에서 북경대학교 상하이 알고리즘 혁신 연구소 및 기타 기관의 연구원들은 인간 두뇌의 메모리 계층 구조에서 영감을 얻었습니다. 그들은 LLM에 명시적 메모리(모델 매개변수보다 저렴한 메모리 형식)를 장착했습니다. RAG). 개념적으로 LLM은 대부분의 지식이 명시적 메모리로 외부화되므로 더 작은 매개변수 크기, 교육 비용 및 추론 비용을 누릴 수 있습니다. T 논문 주소: https: //arxiv.org/pdf/2407.01178
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
논문 제목: Memory
    3
  • : Language Modeling with Explicit Memory
  • 예비 개념 증명 증명으로 연구진은 2.4B LLM은 더 큰 LLM 및 RAG 모델보다 더 나은 성능을 달성하고 RAG보다 더 높은 디코딩 속도를 달성했습니다. LLM에서 명시적 메모리는 암시적 메모리(모델 매개변수)와 작업 메모리(컨텍스트 키 값)에 이어 세 번째 형태의 메모리이기 때문에 이 모델의 이름은 Memory
    3
  • 입니다.

구체적으로 본 논문에서는 쓰기 비용이 상대적으로 저렴하고 읽기 비용이 상대적으로 낮은 것이 특징인 새로운 메모리 형식인 명시적 메모리를 소개합니다. 그림 1에서 볼 수 있듯이 모델은 먼저 지식 베이스(또는 텍스트 데이터 세트)를 희소 어텐션 키-값으로 구현된 명시적 메모리로 변환한 다음 추론 중에 이러한 메모리를 호출하고 이를 self-attention 레이어 중간에 통합합니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.새로운 메모리 형식은 새로운 메모리 계층을 정의합니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.또한 이 기사에서는 지식 외부화를 지원하는 메모리 회로 이론을 소개하고 저장을 다루기 쉬운 메커니즘과 2단계 메모리 희소성을 제안합니다. 기억 형성을 촉진하기 위한 사전 훈련 프로토콜.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.요약:

Memory
3
추론 프로세스 중에 명시적 메모리를 활용하여 모델 매개변수에 대한 특정 지식을 기억하는 부담을 줄입니다. 희소 메모리 형식이 실제 저장 크기를 유지하는 지식 기반
  • 연구원들은 2.4B 비임베디드 매개변수를 사용하여 Memory
    3 모델을 처음부터 훈련했으며 그 성능은 대규모 SOTA 모델의 성능을 초과했습니다. 또한 RAG보다 더 나은 성능과 더 빠른 추론을 제공합니다.
  • 또한 메모리
    3
    는 사실성을 향상하고 환각을 완화하며 전문적인 작업에 빠르게 적응할 수 있게 해줍니다.
  • 방법 소개
기억 회로 이론은 어떤 지식이 명시적 기억으로 저장될 수 있는지, 어떤 모델 아키텍처가 명시적 기억을 읽고 쓰는 데 적합한지 결정하는 데 도움이 됩니다.

연구원들은 입출력 관계를 회로의 내부 메커니즘으로 간주하고, 지식을 입출력 관계와 그 회로로 정의합니다. 이러한 회로를 조작함으로써 기능을 그대로 유지하면서 LLM에서 많은 지식을 분리할 수 있습니다.

Memory
3
: 아키텍처 측면에서 이 문서의 목표는 Transformer LLM의 명시적 메모리 메커니즘을 설계하여 쓰기 비용과 읽기 비용이 상대적으로 낮도록 하는 것입니다. 또한 이 기사에서는 훈련 가능한 새로운 매개변수를 추가하지 않고 Transformer 아키텍처에 대한 수정을 가능한 가장 작은 범위로 제한하여 대부분의 기존 Transformer LLM을 미세 조정
3학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다. 모델 없이 메모리로 변환할 수 있기를 바랍니다. 간단한 설계 프로세스는 다음과 같습니다.

쓰기 비용: 추론 전에 LLM은 드라이브에 저장되는 명시적 메모리에 각 참조를 씁니다.기억은 self-attention 레이어의 주요 벡터에서 선택되므로 쓰기 과정에는 훈련이 필요하지 않습니다. 각 참조는 독립적으로 처리되므로 오랜 시간 동안 상황에 주의를 기울이는 데 따른 비용이 발생하지 않습니다.

읽기 비용: 추론 중에 명시적 메모리가 드라이브에서 검색되고 일반적인 컨텍스트 키 값과 함께 self-attention으로 읽혀집니다. 각 메모리는 소수의 어텐션 헤드에서 나온 매우 적은 수의 키 값으로 구성되어 추가 계산, GPU 스토리지, 드라이브 스토리지 및 로드 시간을 크게 줄입니다. 이를 통해 LLM은 디코딩 속도에 제한된 영향을 미치면서 많은 참조 자료를 자주 검색할 수 있습니다.

추론 프로세스는 그림 9에 나와 있습니다. LLM은 64개의 토큰을 생성할 때마다 현재 메모리를 버리고 이 64개의 토큰을 쿼리 텍스트로 사용하여 5개의 새로운 메모리를 검색하고 이러한 메모리를 계속해서 디코딩합니다. 마찬가지로, 큐를 처리할 때 LLM은 64개 토큰 블록마다 5개의 메모리를 검색합니다. 각 블록은 자체 메모리에 초점을 맞추며, 메모리는 블록마다 다를 수 있습니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
기억 쓰기 및 읽기: 추론 중에 LLM은 검색된 명시적 기억을 상황별 키와 연결하여 self-attention 레이어를 통해 검색된 명시적 기억을 직접 읽을 수 있습니다(그림 9). 구체적으로, l번째 레이어의 각 어텐션 헤드 h에 대해 메모리 헤드로 선택되면 출력 Y^(l,h)가 변경됩니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
또한 이 연구에서는 명시적 메모리가 병렬을 사용합니다. 위치 인코딩, 즉 모든 키 위치는 그림 9와 같이 길이 128의 동일한 간격에 위치합니다.

2단계 사전 훈련: 사전 훈련은 워밍업과 지속적인 훈련의 두 단계로 구성됩니다. 진행 중인 훈련 단계에만 명시적 기억이 포함되는 반면, 준비 단계에서는 일반 사전 훈련과 동일한 형식을 사용합니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
그림 13은 준비 단계 동안의 훈련 손실 및 학습 속도 일정을 보여줍니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
그림 14는 지속적인 훈련 단계 동안의 훈련 손실과 학습률 일정을 보여줍니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
실험 결과

연구원들은 Memory3 모델의 일반 능력(벤치마크 작업), 대화 능력, 전문 능력(법률 및 의학), 환각을 평가했습니다. 또한 연구원들은 Memory3의 디코딩 속도도 측정하여 유사하고 더 큰 SOTA LLM 및 RAG 모델과 비교했습니다.

일반능력 평가 결과는 아래와 같은데, 그 결과 외현기억이 평균점수를 2.51% 높인 것으로 나타났습니다. 이에 비해 Llama2-7B와 13B의 점수 차이는 4.91%입니다. 명시적 메모리는 "유효 모델 크기"를 2.51/4.91 ≒ 51.1%까지 늘릴 수 있습니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
다음으로 저자는 Memory3의 대화 능력을 평가했으며 그 결과는 표 18에 나열되어 있으며 모델이 더 적은 매개변수로 Vicuna-7B, Falcon-40B-Instruct 및 ChatGLM2-6B보다 성능이 우수함을 보여줍니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
현재 LLM은 여전히 ​​환각 문제에 직면해 있습니다. 개념적으로 Memory3는 명시적 기억이 참조 텍스트와 직접적으로 일치하기 때문에 환각에 덜 민감해야 합니다. 환각을 평가하기 위해 연구원들은 평가를 위해 두 개의 영어 데이터 세트를 선택했습니다. 결과는 표 19에 나와 있습니다. Memory3는 대부분의 작업에서 가장 높은 점수를 받았습니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
명시적 메모리 사용의 한 가지 이점은 LLM이 지식 기반을 업데이트하여 새로운 도메인 및 작업에 쉽게 적응할 수 있다는 것입니다. 간단하게 작업 관련 참조를 Memory3의 지식 기반으로 가져오고 선택적으로 웜 스타트 시 명시적 메모리로 변환할 수 있습니다.그런 다음 모델은 추론을 위해 이 새로운 지식을 활용하여 비용이 많이 들고 손실 가능성이 있는 미세 조정 프로세스를 건너뛰고 RAG보다 빠르게 실행할 수 있습니다. 이러한 비용 절감은 그림 4에서 입증되었으며 다양한 산업 분야에서 LLM의 신속한 배포를 촉진할 수 있습니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
아래 표는 Memory3가 대부분의 모델보다 성능이 더 우수하다는 것을 보여줍니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
마지막으로 연구원들은 초당 생성되는 토큰 수를 기준으로 Memory3의 디코딩 속도나 처리량을 평가했습니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
자세한 내용은 원문을 참고해주세요.

위 내용은 학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.