salesforce의 XGEN-7B : 8K 컨텍스트 길이 LLM (Leading Open-Source Lange Language Models)은 상당한 한계를 겪고 있습니다. 짧은 컨텍스트 창, 일반적으로 2048 토큰에 캡핑되었습니다. 이는 GPT-3.5 및 GPT-4와 같은 독점 모델과 크게 대조되며 최대 32,000 개의 토큰의 컨텍스트 길이를 자랑합니다. 이 제약은 요약, 번역 및 코드 생성과 같은 광범위한 맥락 이해를 요구하는 작업에 성능에 심각한 영향을 미칩니다.
Salesforce의 XGEN-7B를 입력하십시오. 이 모델은 컨텍스트 길이의 병목 현상을 정면으로 해결하여 8,000 번의 컨텍스트 창을 제공합니다. 이 기사는 샘플 데이터 세트에서 XGEN-7B의 주요 기능, 사용 및 미세 조정을 탐구합니다.
왜 XGEN-7B를 선택합니까?
XGEN-7B의 장점은 확장 컨텍스트 길이를 넘어 확장됩니다. 주요 기능은 다음과 같습니다
exceptional Efficiency :
XGEN-7B는 상대적으로 겸손한 매개 변수에도 불구하고 훨씬 더 큰 모델을 경쟁하거나 능가하는 성능을 제공합니다. 이 효율성을 통해 고급 로컬 기계에 배치 할 수 있으므로 광범위한 클라우드 컴퓨팅 리소스가 필요하지 않습니다. 이를 통해 개별 연구원에서 소규모 비즈니스에 이르기까지 광범위한 사용자가 액세스 할 수 있습니다.
다목적 모델 변형 :
Salesforce는 다양한 요구를 충족시키기 위해 3 개의 XGEN-7B 변형을 제공합니다.
XGEN-7B-4K-BASE :
4,000-Token 모델은 중간 정도의 컨텍스트가 필요한 작업에 적합합니다. Apache 2.0 라이센스에 따라 라이센스가 부여되었습니다
XGEN-7B-8K-BASE : 플래그십 8,000-Token 모델, 광범위한 상황 분석이 필요한 복잡한 작업에 이상적입니다. 또한 Apache 2.0에 따라 라이센스가 부여되었습니다
xgen-7b- {4k, 8k}-
대화식 및 교육 응용 프로그램 (비상업적 사용)을 위해 미세 조정. 교육 도구 및 챗봇에 적합합니다.
우수한 벤치 마크 성능 : XGEN-7B는 MMLU 및 HumaneVal을 포함한 다양한 벤치 마크에서 유사한 크기의 모델을 지속적으로 성능이 우수합니다. 자세한 벤치 마크 결과는 공식 발표를 참조하십시오
긴 시퀀스에 대한 최적화 : XGEN-7B의 아키텍처는 장기 시퀀스 작업에 대해 특별히 최적화됩니다. 이것은 세부 문서 요약 및 포괄적 인 질문 응답과 같은 응용 프로그램에 중요합니다. 전체 입력을 이해하는 것이 정확하고 일관된 출력에 필수적입니다.
Salesforce XGEN-7B 교육 방법론
XGEN-7B의 인상적인 기능은 정교한 훈련 과정에서 비롯됩니다
1 단계 1 단계 : - 혼합 자연 언어 및 코드 데이터에 대한 1 조 10 조의 토큰에 대한 교육.
2 단계 : 코드 생성 기능을 향상시키기 위해 550 억 개의 코드 데이터에 대한 추가 교육.
TPU-V4 하드웨어에 대한 효율적인 LLM 교육을 위해 설계된 Salesforce의 Jaxformer 라이브러리 교육을 활용했습니다.
xgen-7b 를 설정하고 실행합니다
XGEN-7B를 로컬로 실행하려면 강력한 기계 (32GB RAM, 고급 GPU)가 필요합니다. 또는 Google Colab Pro와 같은 서비스는 충분한 리소스를 제공합니다
- 설치 :
환경을 설정 한 후 필요한 라이브러리를 설치하십시오
초기 실행 :
이 코드 스 니펫은 8k-token 모델을 사용하여 기본 실행을 보여줍니다.
미세 조정 XGEN-7B
미세 조정 XGEN-7B는 여러 단계를 포함합니다 (자세한 지침은 간결하게 생략되지만 원본 텍스트는 포괄적 인 안내서를 제공합니다) :
설치 (이미 위에 덮여 있음)
필요한 모듈을 가져옵니다 (
, , , )
기본 및 미세 조정 된 모델에 대한 구성을 정의하십시오
데이터 세트를로드하십시오 (예 : Guanaco llama2 데이터 세트)
모델과 토 케이저를로드하십시오
>
pip install torch torchvision torchaudio transformers[torch] accelerate peft bitsandbytes trl datasets --upgrade
미세 조정 모델을 평가합니다
미세 조정 모델과 토큰 화제를 저장하십시오
결론
사용하기가 간단하지만 XGEN-7B를 특정 작업에 적응하려면 데이터 세트 및 계산 리소스를 신중하게 고려해야합니다. 위에서 설명한 바와 같이 미세 조정 프로세스는이 강력한 LLM을 특정 요구에 맞게 조정하기위한 강력한 프레임 워크를 제공합니다. LLM 및 미세 조정 기술에 대한 자세한 설명 및 리소스를 위해 제공된 링크를 참조하십시오.
위 내용은 Salesforce XGEN-7B : XGEN-7B 사용 및 미세 조정에 대한 단계별 자습서의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!