오픈소스 모델들은 숫자가 늘어날 뿐만 아니라 성능도 점점 좋아지는 등 왕성한 생명력을 보여주고 있습니다. Turing Award 수상자 Yann LeCun도 다음과 같이 한탄했습니다. "오픈 소스 인공 지능 모델은 독점 모델을 능가하는 길에 있습니다." 오픈소스 특성상 LLM 개발을 방해합니다. 일부 오픈 소스 모델은 실무자와 연구자들에게 다양한 선택권을 제공하지만 대부분은 최종 모델 가중치 또는 추론 코드만 노출하며 점점 더 많은 기술 보고서가 최상위 설계 및 표면 통계로 범위를 제한합니다. 이러한 비공개 소스 전략은 오픈 소스 모델의 개발을 제한할 뿐만 아니라 전체 LLM 연구 분야의 발전을 크게 방해합니다. 이는 이러한 모델이 교육 데이터를 포함하여 보다 포괄적이고 깊이 공유되어야 함을 의미합니다. 알고리즘 세부정보, 구현 문제 및 성능 평가 세부정보입니다.
Cerebras, Petuum 및 MBZUAI의 연구원들이 공동으로 LLM360을 제안했습니다. 이는 교육 코드 및 데이터, 모델 체크포인트, 중간 결과를 포함하여 LLM 교육과 관련된 모든 것을 커뮤니티에 제공하는 것을 옹호하는 포괄적인 오픈 소스 LLM 이니셔티브입니다. LLM360의 목표는 LLM 교육 프로세스를 모든 사람에게 투명하고 재현 가능하게 만들어 개방적이고 협력적인 인공 지능 연구의 발전을 촉진하는 것입니다.
논문 주소: https://arxiv.org/pdf/2312.06550.pdf
이제 기사의 세부 내용을 살펴보겠습니다.
LLM360의 프레임워크
LLM360은 LLM 중에 어떤 데이터와 코드를 수집해야 하는지에 대한 표준을 제공합니다. 사전 교육 과정을 통해 기존 작업이 지역 사회에서 더 잘 순환되고 공유될 수 있도록 합니다. 여기에는 주로 다음 부분이 포함됩니다:
1. 훈련 데이터 세트 및 데이터 처리 코드
사전 훈련 데이터 세트는 대규모 언어 모델의 성능에 매우 중요합니다. 따라서 잠재적인 행동 문제와 편견을 평가하려면 사전 훈련 데이터 세트를 이해하는 것이 중요합니다. 또한 공개적으로 사용 가능한 사전 교육 데이터 세트는 이후에 다양한 도메인에 맞게 미세 조정되고 적용될 때 LLM의 확장성을 향상시키는 데 도움이 됩니다. 최근 연구에 따르면 반복되는 데이터에 대한 교육은 모델의 최종 성능을 불균형적으로 저하시키는 것으로 나타났습니다. 따라서 원본 사전 학습 데이터를 노출하면 다운스트림을 미세 조정하거나 특정 도메인에서 사전 학습을 계속할 때 중복 데이터 사용을 방지하는 데 도움이 됩니다. 위의 이유를 바탕으로 LLM360은 대규모 언어 모델의 원시 데이터 세트 공개를 옹호합니다. 적절한 경우 데이터 필터링, 처리 및 훈련 순서에 대한 세부정보도 공개되어야 합니다.다시 작성해야 하는 콘텐츠는 다음과 같습니다. 2. 학습 코드, 하이퍼파라미터 및 구성
교육 코드, 하이퍼파라미터 및 구성은 LLM 교육의 성능과 품질에 큰 영향을 미치지만 항상 공개되는 것은 아닙니다. LLM360에서 연구자들은 사전 훈련 프레임워크의 모든 훈련 코드, 훈련 매개변수 및 시스템 구성을 오픈 소스로 제공합니다. 3. 모델 체크포인트는 다음과 같이 다시 작성됩니다. 3. 모델 체크포인트 모델 체크포인트를 정기적으로 저장하는 것도 꽤 유용합니다. 이는 훈련 중 오류 복구에 중요할 뿐만 아니라 훈련 후 연구에도 유용합니다. 이러한 체크포인트를 통해 후속 연구원은 처음부터 훈련할 필요 없이 여러 시작점에서 모델을 계속 훈련할 수 있어 재현성과 비효율성을 높일 수 있습니다. 심층 연구. 4. 성과 지표 LLM 교육은 종종 몇 주에서 몇 달이 걸리며 교육 중 진화 추세는 귀중한 정보를 제공할 수 있습니다. 그러나 현재 훈련에 대한 자세한 로그와 중간 지표는 이를 경험한 사람에게만 제공되므로 LLM에 대한 포괄적인 연구를 방해합니다. 이러한 통계에는 감지하기 어려운 주요 통찰력이 포함되는 경우가 많습니다. 이러한 측정값에 대한 분산 계산과 같은 간단한 분석을 통해서도 중요한 결과를 얻을 수 있습니다. 예를 들어, GLM 연구팀은 경사 사양 동작을 분석하여 손실 급증 및 NaN 손실을 효과적으로 처리하는 경사 축소 알고리즘을 제안했습니다. AMBER는 LLM360 "패밀리"의 첫 번째 멤버이며, 미세 조정된 버전인 AMBERCHAT 및 AMBERSAFE도 출시되었습니다.
다시 작성해야 할 사항: 데이터 및 모델 세부 정보 표 2는 1.26 T 마커가 포함된 AMBER의 사전 훈련 데이터 세트를 자세히 설명합니다. 여기에는 데이터 전처리 방법, 형식, 데이터 혼합 비율은 물론 AMBER 모델의 아키텍처 세부 정보 및 특정 사전 학습 하이퍼 매개변수가 포함됩니다. 자세한 내용은 LLM360 코드 베이스의 프로젝트 홈페이지를 참조하세요
AMBER는 LLaMA 7B4와 동일한 모델 구조를 채택합니다. 표 3은 LLM 사전 훈련 및 하이퍼파라미터 측면에서 연구자들은 LLaMA의 사전 훈련 하이퍼파라미터를 따르려고 최선을 다했습니다. AMBER는 AdamW 최적화 프로그램을 사용하여 학습되었으며 하이퍼파라미터는 β₁=0.9, β₂=0.95입니다. 또한 연구원들은 AMBER의 몇 가지 미세 조정된 버전인 AMBERCHAT 및 AMBERSAFE를 출시했습니다. AMBERCHAT은 WizardLM의 교육 훈련 데이터 세트를 기반으로 미세 조정되었습니다. 자세한 매개변수 관련 내용은 원문을 참고해주세요 원문의 의미를 바꾸지 않는다는 목적을 달성하기 위해 내용을 중국어로 다시 작성해야 합니다. 다음은 "실험 및 결과"를 다시 작성한 것입니다.
실험 및 결과 분석 수행 연구원들은 AMBER의 성능을 평가하기 위해 Open LLM 순위에 대한 4개의 벤치마크 데이터 세트를 사용했습니다. 그림 4에서 볼 수 있듯이 HellaSwag 및 ARC 데이터 세트에서는 사전 학습 기간 동안 AMBER 점수가 점차 증가하는 반면, TruthfulQA 데이터 세트에서는 학습이 진행됨에 따라 점수가 감소합니다. MMLU 데이터 세트에서 AMBER의 점수는 사전 훈련 초기 단계에서 하락했다가 상승하기 시작했습니다
표 4에서 연구자는 AMBER의 모델 성능을 OpenLLaMA, RedPajama-INCITE, Falcon, 비슷한 기간 동안 훈련된 MPT 모델을 비교했습니다. 많은 모델이 LLaMA에서 영감을 받았습니다. AMBER는 MMLU에서 더 나은 점수를 얻었지만 ARC에서는 약간 더 나쁜 성능을 보이는 것을 알 수 있습니다. AMBER의 성능은 다른 유사한 모델에 비해 상대적으로 강력합니다.
LLM360 "제품군"의 두 번째 구성원은 CrystalCoder입니다.
CrystalCoder는 1.4 T 토큰으로 훈련된 7B 언어 모델로, 코딩과 언어 기능 간의 균형을 달성합니다. 대부분의 이전 코드 LLM과 달리 CrystalCoder는 두 영역 모두에서 유용성을 극대화하기 위해 텍스트와 코드 데이터를 신중하게 혼합하도록 교육되었습니다. Code Llama 2와 비교하면 CrystalCoder의 코드 데이터는 사전 학습 과정 초기에 도입됩니다. 또한 연구원들은 Python 및 웹 프로그래밍 언어에 대해 CrystalCoder를 교육하여 프로그래밍 보조자로서의 유용성을 향상시켰습니다. 재구축된 모델 아키텍처 CrystalCoder는 LLaMA 7B와 매우 유사한 아키텍처를 채택하여 최대 업데이트 매개변수화(muP)를 추가합니다. 이러한 특정 매개변수화 외에도 연구원들은 몇 가지 수정 작업도 수행했습니다. 또한 연구원들은 CG-1 아키텍처가 LayerNorm의 효율적인 계산을 지원하기 때문에 RMSNorm 대신 LayerNorm을 사용했습니다. 본래의 의미를 바꾸지 않는다는 목적을 달성하려면 내용을 중국어로 다시 작성해야 합니다. 다음은 "실험 및 결과"를 다시 작성한 것입니다.
실험 및 결과 분석 수행 Open LLM Leaderboard에서 연구원들은 4개의 벤치마크 데이터 세트와 인코딩 벤치마크 데이터 세트를 포함하여 모델에 대한 벤치마크 테스트를 수행했습니다. 그림 6 표 5를 참조하면 CrystalCoder는 언어 작업과 코드 작업 간의 균형이 잘 잡혀 있음을 알 수 있습니다 모델의 중간 체크포인트를 분석하여 심층적인 연구가 가능합니다. 연구원들은 LLM360이 커뮤니티에 유용한 참고 자료와 연구 리소스를 제공할 수 있기를 바랍니다. 이를 위해 일련의 모델 체크포인트에 대한 분석의 예로 모델 특성 및 다운스트림 평가 결과를 포함하여 모델 동작에 대한 다각적인 분석을 체계적으로 정리한 저장소인 ANALYSIS360 프로젝트의 초기 버전을 출시했습니다. 연구자들은 LLM의 메모이제이션에 관한 예비 연구를 수행했습니다. 최근 연구에 따르면 LLM은 교육 데이터의 상당 부분을 기억할 수 있으며 이 데이터는 적절한 프롬프트를 통해 검색할 수 있는 것으로 나타났습니다. 이러한 메모화는 개인 학습 데이터 유출의 문제가 있을 뿐만 아니라, 학습 데이터에 반복이나 특이성이 포함되어 있는 경우 LLM의 성능을 저하시킬 수도 있습니다. 연구원들은 훈련 단계 전반에 걸쳐 암기의 종합적인 분석이 수행될 수 있도록 모든 체크포인트와 데이터를 공개했습니다 다음은 이 기사에서 사용된 암기 점수 방법입니다. 즉, 길이 k의 프롬프트 후에는 후속 길이는 l 토큰의 정확도입니다. 구체적인 메모리 점수 설정은 원문을 참고해주세요.
선택한 10개의 체크포인트의 기억 점수 분포는 Figure 7과 같습니다.
연구원은 선택한 체크포인트에 따라 데이터 블록을 그룹화하였고, 각 블록에 대한 메모 점수는 각 체크포인트에 대한 그룹은 그림 8에 표시되어 있습니다. 그들은 AMBER 체크포인트가 이전 데이터보다 최신 데이터를 더 잘 기억한다는 것을 발견했습니다. 또한, 각 데이터 블록에 대해 추가 학습 후에는 메모 점수가 약간 감소하지만 계속해서 증가합니다.
그림 9는 메모이제이션 점수의 시퀀스와 추출 가능한 k 값 간의 상관 관계를 보여줍니다. 체크포인트 간에는 강한 상관관계가 있음을 알 수 있습니다.
요약 자세한 내용은 원문을 확인해주세요Amber
CRYSTALCODER
ANALYSIS360
연구원은 AMBER 및 CRYSTALCODER의 관찰 내용과 일부 의미를 요약했습니다. 그들은 사전 훈련이 많은 학술 연구실이나 소규모 기관에서 감당할 수 없는 계산 집약적인 작업이라고 말합니다. 그들은 LLM360이 포괄적인 지식을 제공하고 사용자가 직접 수행하지 않고도 LLM 사전 훈련 중에 어떤 일이 일어나는지 이해할 수 있기를 바랍니다
위 내용은 막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!