창 길이가 4k에 불과한 대형 모델이라도 여전히 많은 텍스트 섹션을 읽을 수 있습니다!
프린스턴의 한 중국인 박사과정 학생이 최근 성취한 성과는 대형 모델의 창 길이 제한을 성공적으로 "돌파"한 것입니다.
다양한 질문에 답할 수 있을 뿐만 아니라, 전체 구현 과정을 추가 교육 없이도 프롬프트로 완전히 완료할 수 있습니다.
연구팀은 모델 자체의 창 길이 제한을 돌파할 수 있는 MemWalker라는 트리 메모리 전략을 만들었습니다.
테스트 중에 모델이 읽은 가장 긴 텍스트에는 12,000개 이상의 토큰이 포함되어 있으며 LongChat에 비해 결과가 크게 향상되었습니다.
유사한 TreeIndex에 비해 MemWalker는 일반화를 하는 대신 모든 질문에 대해 추론하고 답변할 수 있습니다.
MemWalker는 "분할과 정복"이라는 아이디어를 사용하여 개발되었습니다. 일부 네티즌은 다음과 같이 말했습니다.
대형 모델의 사고 과정을 인간과 비슷하게 만들 때마다 성능이 더 좋아질 것입니다
그래서 , 트리 메모리 전략은 정확히 무엇이며 제한된 창 길이로 긴 텍스트를 읽는 방법은 무엇입니까?
모델에서 MemWalker는 Stable Beluga 2를 기본 모델로 사용하고 있는데, 이는 Llama 2-70B가 명령 튜닝 후 얻은 것입니다.
이 모델을 선택하기 전에 개발자들은 원래 Llama 2와 성능을 비교하고 최종적으로 결정했습니다.
MemWalker라는 이름처럼 작업 과정은 마치 기억의 흐름을 걷는 것과 같습니다.
구체적으로는 크게 메모리 트리 구축과 탐색 검색의 두 단계로 나뉩니다.
메모리 트리를 구축할 때 긴 텍스트는 여러 개의 작은 세그먼트(세그1-6)으로 나뉘고, 큰 모델은 각 세그먼트를 별도로 요약하여 "리프 노드"을 얻습니다. (리프 노드, summ1-6).
세그먼트를 분할할 때 각 세그먼트의 길이가 길수록 레벨이 적어서 후속 검색에 유리하지만, 너무 길면 정확도가 떨어지므로 길이를 결정할 때 종합적인 고려가 필요합니다. 각 세그먼트의.
저자는 각 문단의 적정 길이가 500~2000개 토큰이고, 실험에 사용된 토큰은 1000개라고 생각합니다.
그런 다음 모델은 이러한 리프 노드의 내용을 다시 재귀적으로 요약하여 "비리프 노드"(비리프 노드, summ7-8)을 형성합니다.
둘 사이의 또 다른 차이점은 리프 노드에는 원래 정보가 포함되는 반면, 리프가 아닌 노드에는 로 요약된 보조 정보만 포함된다는 것입니다.
기능적으로 리프 노드가 아닌 노드는 답변이 있는 리프 노드를 탐색하고 찾는 데 사용되는 반면, 리프 노드는 답변에 대해 추론하는 데 사용됩니다.
비리프 노드는 여러 수준을 가질 수 있으며 "루트 노드"를 얻어 완전한 트리 구조를 형성할 때까지 모델이 점진적으로 요약됩니다.
기억 트리가 구축된 후 탐색 검색 단계에 들어가 답변을 생성할 수 있습니다.
이 과정에서 모델은 루트 노드에서 시작하여 1차 하위 노드의 내용을 하나씩 읽은 후 이 노드에 들어갈지 돌아올지 추론합니다.
이 노드에 들어가기로 결정한 후 리프 노드를 읽을 때까지 프로세스를 다시 반복하십시오. 리프 노드의 내용이 적합하면 답변이 생성되고, 그렇지 않으면 반환됩니다. 답의 완전성을 보장하기 위해 이 프로세스의 종료 조건은 적합한 리프 노드를 찾는 것이 아니라 모델이 완전한 답을 얻었거나 최대 단계 수에 도달했다고 믿는 것입니다. 탐색 프로세스 중에 모델이 잘못된 경로를 입력했음을 발견하면 뒤로 탐색할 수도 있습니다.또한 MemWalker는 정확성을 높이기 위해 작업 메모리 메커니즘을 도입했습니다.
이 메커니즘은 방문한 노드의 콘텐츠를 현재 콘텐츠의 컨텍스트에 추가합니다.
모델이 새 노드에 진입하면 현재 노드 콘텐츠가 메모리에 추가됩니다.
이 메커니즘을 통해 모델은 중요한 정보의 손실을 방지하기 위해 모든 단계에서 방문한 노드의 콘텐츠를 활용할 수 있습니다.
실험 결과에 따르면 작업 기억 메커니즘이 MemWalker의 정확도를 약 10% 증가시킬 수 있는 것으로 나타났습니다.
또한 위에서 언급한 프로세스는 프롬프트에 의존해야만 완료할 수 있으며 추가 교육이 필요하지 않습니다.
이론적으로 MemWalker는 컴퓨팅 성능이 충분하다면 무한히 긴 텍스트를 읽을 수 있습니다.
그러나 메모리 트리 구성의 시간 및 공간 복잡성은 텍스트 길이가 늘어남에 따라 기하급수적으로 증가합니다.
논문의 첫 번째 저자는 프린스턴 대학 NLP 연구소의 중국 박사 과정 학생인 Howard Chen입니다.
Tsinghua Yao Class 동문 Chen Danqi는 Howard의 멘토이며, 올해 ACL에 대한 그녀의 학업 보고서도 검색과 관련이 있습니다.
이 결과는 Howard가 Meta에서 인턴십을 하는 동안 완성한 것입니다. Meta AI Laboratory의 학자 세 명인 Ramakanth Pasunuru, Jason Weston 및 Asli Celikyilmaz도 이 프로젝트에 참여했습니다.
논문 주소: https://arxiv.org/abs/2310.05029
위 내용은 4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!