중국 최대의 오픈 소스 모델이 여기에 있습니다:
매개변수 650억 개, 2조 6천억~3조 2천억 개의 토큰을 기반으로 훈련되었습니다. "팔콘", "알파카"에 이어 2위로 성능은 GPT3.5와 맞먹고, 이제무조건 무료 상업적 사용이 가능합니다.
Shenzhen Yuanxiang Company의 XVERSE입니다. 다양한 컴퓨팅 성능, 리소스 제약 및 특정 작업 요구 사항에 따라 자유롭게 수정하거나 정제할 수 있습니다. 큰 규모 외에도 16k 컨텍스트가 있고 40개 이상의 언어를 지원하며 7B 및 13B 버전으로 제공됩니다. 구체적인 원산지는 무엇인가요? 중국에서 가장 큰 상용 대형 모델이 출시되었습니다연구에 따르면 매개변수 수가 많고 훈련 데이터 품질이 높을수록 대형 모델의 성능이 지속적으로 향상될 수 있습니다. 업계의 일반적인 공감대는 매개변수 임계값인 500억~600억에 도달해야 대형 모델이 "스마트하게 등장"하고 멀티 작업에서 강력한 성능을 발휘할 수 있다는 것입니다. 그러나 이 정도 규모의 모델을 훈련하려면 비용이 많이 들고 높은 기술 요구 사항이 필요합니다. 현재는 주로 비공개 소스 유료 모델로 제공됩니다. 해외 오픈 소스 생태계에서 Llama2-70B 및 Falcon-180B와 같은 벤치마크 모델은 "조건부" 오픈 소스이며 월간 활성 사용자 또는 수입에 대한 상업적 상한선이 있으며 중국어 능력이 부족하여 중국어 능력에 명백한 단점이 있습니다. 훈련 데이터. 여기서, Yuanxiang XVERSE Company는 국내 대형 모델 오픈소스 생태학 및 산업 응용 분야의 발전을 촉진하기 위해 무조건 무료 상업적 사용을 위한 오픈소스 650억 매개변수 고성능 일반 대형 모델 XVERSE-65B를 발표했습니다. 13B 모델은 '소형' 모델의 성능 상한을 높이기 위해 풀 업그레이드됐다. Yuanxiang '65B 모델 창립자 Yao Xing "XVERSE-65B 기본 모델은 2조 6천억 개의 토큰에 대한 고품질 데이터를 바탕으로 처음부터 학습되었으며 컨텍스트 창은 16K로 확장되었으며 40개 이상의 언어를 지원합니다. 중국어, 영어, 러시아어, 프랑스어 등. 획기적으로 개선된세 가지 기능:
1. 모델의 다양성, 창의성 및 정확성에 이르기까지 이해, 생성, 추론 등의 기본 능력이 우수함에서 강력함까지 2. , 코드 설명, 반사 수정 및 기타 기능은 지능형 에이전트(AI 에이전트) 구축을 위한 기술적 기반을 마련하고 모델의 실용성을 향상합니다
3. 7B 및 13B에서 일반적이고 잠재적으로 심각한 환각 문제를 크게 완화하고 감소시킵니다. 향상된 정확성과 전문성을 위한 대형 모델은 "헛소리"입니다. Yuanxiang 대형 모델 시리즈는 모두 자체 개발되었으며 다양한 핵심 기술과 R&D 혁신을 포괄합니다.1. 복잡한 분산 시스템 설계:
팀에서 Tencent Go AI "Peer Art" 개발 방법을 배우고 King of Glory AI ""Juewu" 등 대규모 시스템에서의 풍부한 경험을 바탕으로 효율적인 연산자, 메모리 최적화, 병렬 스케줄링 전략, 데이터-컴퓨팅-통신 중첩, 플랫폼 및 프레임워크 협업 등 핵심 기술을 자체 개발하여 효율적이고 안정적인 훈련 시스템 킬로칼로리 클러스터의 최고치 컴퓨팅 파워 활용률은 58.5%에 달해 업계 최고 수준입니다.2. 종합적인 성능 개선:
FlashAttention2를 사용하여 65B 트레이닝에서 계산 속도를 높이고, 3D 병렬성을 기반으로 가상 파이프라인(가상 파이프라인) 기술을 사용하여 긴 파이프라인에서 발생하는 과도한 버블 비율을 줄입니다. 계산 추론 효율성을 향상시킵니다. 컨텍스트 창의 길이가 8K에서 16K로 점차 늘어납니다. 이를 통해 긴 텍스트 이해, 긴 텍스트 생성, 매우 긴 대화 등 복잡한 작업을 성공적으로 완료할 수 있을 뿐만 아니라 확장됩니다. 도구 호출, 코드 설명, 반영 및 수정 기능을 통해 더 나은 지능 Body(AI Agent)을 구축할 수 있습니다.
3. 훈련 안정성 대폭 향상:
엄청난 양의 계산으로 인해 통신 정체, 칩 과열 또는 컴퓨팅 노드 오류가 65B 훈련의 표준이 되었습니다. 주. 클러스터 인프라 운영, 리소스 스케줄링, 교육 프레임워크 및 스케줄링 플랫폼 협업의 지속적인 최적화를 통해 Yuanxiang은 높은 안정성, 낮은 중단 및 강력한 내결함성을 갖춘 교육 시스템을 만들어 주간 유효 교육 비율을 98.6%로 높였습니다. 또한 1.6조 개에 가까운 토큰으로 모델을 훈련하는 중에 손실 함수가 NaN 값을 생성하여 훈련이 중단될 수 있습니다. 일반적으로 업계에서는 분석 후 해당 데이터 간격을 삭제하는 것이 일반적입니다. 팀은 경험을 바탕으로 이것이 모델의 자연스러운 진화라고 판단하고 데이터를 삭제하지 않기로 결정하고 관련 매개변수 업데이트를 직접 건너뛰었고 마침내 NaN 값 문제가 해결되었습니다. 나중에 매개변수 값, 활성화 값, 기울기 값 등 중간 상태를 추가로 분석한 결과 이 문제는 모델의 마지막 레이어에 있는 변압기 블록의 활성화 값 최대값 변경과 관련이 있을 수 있음이 밝혀졌습니다. , 최대값이 점차 감소함에 따라 저절로 해결됩니다.업계가 Yuanxiang 대형 모델의 성능을 포괄적이고 객관적이며 장기적으로 이해할 수 있도록 연구진은 일련의 권위 있는 학술 평가를 참고하여 시스템을 개발했습니다. 질의응답, 이해, 지식, 추론, 수학 등 코드를 포함한 6개 차원의 11가지 주류 권위 있는 평가기준은 계속해서 활용되고 반복될 것이다.
XVERSE-65B는 중국에서 비교할 수 있는 동일한 수준의 모델이 없습니다. 외국 벤치마크와의 비교 평가에서 일부 지표를 능가했으며 전체 성능은 오픈 소스 벤치마크를 완전히 능가했습니다. Llama2-70B와 Falcon-180B, GPT4에는 여전히 격차가 있습니다.
완전히 업그레이드된 XVERSE-13B-2는 동일한 크기의 모델에 비해 대량의 고품질 데이터를 추가하며 최대 3조 2천억 개의 학습 데이터를 제공하여 "소형"의 능력 상한을 크게 향상시킵니다. " 모델.
문과계의 장점을 유지하면서 문답이 18%, 과학이 149%, 수학이 198% 향상되었다는 평가를 받았습니다. Llama2, Baichuan2 등 국내외 오픈소스 벤치마크를 완전히 능가했습니다.
이제 Yuanxiang 대형 모델은 Github, Hugging Face, ModelScope 및 기타 플랫폼에서 "XVERSE"를 검색하여 다운로드할 수 있습니다 간단한 등록 후 무조건 무료 상업용으로 사용할 수 있습니다. 중소기업 및 과학 연구 기관과 개인 개발자의 대부분의 응용 프로그램 및 반복 요구 사항을 충족할 수 있습니다.
Yuanxiang은 또한 모델 훈련, 추론, 배포 및 미세 조정과 같은 광범위한 기술 서비스를 제공하여 엔터테인먼트, 금융, 의료 등 다양한 산업에 힘을 실어주고 다음과 같은 여러 시나리오에서 업계 최고의 서비스를 창출하는 데 도움을 줍니다. 지능적인 고객 서비스, 창의적인 글쓰기, 정확한 사용자 경험을 제공합니다.
2023년 10월 Tencent Music은 Yuanxiang Model과의 전략적 협력을 발표하고 lyraXVERSE 가속 모델을 공동 출시했으며 음악 어시스턴트 "AI Xiaoqin"을 포괄적으로 업그레이드했으며 업계에서 최첨단 AI 및 3D 기술을 계속 탐색할 예정입니다. 미래.
위 내용은 중국 최대 오픈소스 모델, 무조건 무료 상업용 출시! 650억 개의 매개변수, 2조 6천억 개의 토큰을 기반으로 한 훈련의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!