예전부터 중국에서는 70억~130억 개의 매개변수를 가진 다수의 대형 모델이 오픈소스화되어 구현 결과가 나타났고, 오픈소스 생태계가 초기에 구축되었습니다. 에이전트와 같은 작업의 복잡성과 데이터 양이 증가함에 따라 더 큰 모델에 대한 업계와 커뮤니티의 요구가 점점 더 시급해지고 있습니다.
연구에 따르면 매개변수 수가 많을수록, 훈련 데이터의 품질이 높을수록 대규모 모델의 성능이 지속적으로 향상될 수 있습니다. 업계의 일반적인 합의는 매개변수 임계값인 500억~600억 개에 도달한 경우에만 대형 모델이 "스마트하게 등장"하고 여러 작업에서 강력한 성능을 발휘할 수 있다는 것입니다. 그러나 이 정도 규모의 모델을 훈련하려면 비용이 많이 들고 높은 기술 요구 사항이 필요합니다. 현재는 주로 비공개 소스 유료 모델로 제공됩니다. 해외 오픈 소스 생태계에서 Llama2-70B 및 Falcon-180B와 같은 벤치마크 모델은 조건부 오픈 소스이며 월간 활성 사용자 또는 수입에 대한 상업적 상한선이 있으며 훈련 데이터 부족으로 중국어 능력에 명백한 단점이 있습니다. . 또한 최근 미국에서 공포된 AI 칩 금지로 인해 중국 대형 모델 산업의 발전 속도가 더욱 제한될 수 있습니다. 업계에서는 생태적 격차를 메우고 중국 애플리케이션에 대한 보다 강력한 이해, 추론 및 긴 텍스트 생성 기능을 제공할 고성능 대규모 국내 모델이 시급히 요구되고 있습니다.
이런 맥락에서 Yuanxiang XVERSE Company는 업계 최초로 650억 매개변수 고성능 범용 대형 모델 XVERSE-65B
를 오픈소스화하고무조건 무료 상업적 사용을 발표했습니다. 또한 13B 모델은 소형 모델 능력의 상한선을 높이기 위해 풀 업그레이드됐다. 이를 통해 많은 중소기업, 연구원 및 AI 개발자는 컴퓨팅 성능, 리소스 제약 및 특정 작업 요구 사항에 따라 Yuanxiang 대형 모델을 자유롭게 사용, 수정 또는 추출할 수 있습니다. , 연구 및 응용 분야의 혁신을 촉진합니다.
모델 주소: https://huggingface.co/xverse/XVERSE-65B구체적으로 65B 모델은 다음과 같은 이점을 가질 수 있습니다. 영향:
연구 개발 측면에서 65B는 신기술을 위한 '큰 지렛대'를 제공할 것입니다. , 새로운 도구, 성능 최적화 및 모델 안전성을 통해 커뮤니티는 신속하게 경험을 축적할 수 있으며 국가 과학 기술 독립 및 통제 가능성이라는 장기 목표를 촉진하는 데 도움이 됩니다.
상업적으로는 다수의 중소기업이 "대형 도구"를 무료로 사용할 수 있어 한계를 극복하고 애플리케이션에서 상당한 혁신을 촉진할 수 있습니다. Yuanxiang은 또한 사용 사례, 보안 모델 배포 및 잠재적 기회에 대한 통찰력을 제공합니다.
개발자 생태계에서 커뮤니티는 조직 시너지의 이점을 최대한 활용하고 R&D 애플리케이션의 "캄브리아기 폭발"을 촉진할 수 있습니다.
Yuanxiang은 고성능 포지셔닝을 고수하며 다음 세 가지 측면에서 65B의 역량을 크게 향상시켰습니다. 이해, 생성, 추론 및 기억과 같은 기본 역량부터 모델의 다양성, 창의성 및 정확성까지 탁월함에서 강력함까지
도구 호출, 코드 설명, 반영 및 수정 등의 기능을 확장하여 지능형 에이전트 구축을 위한 기술 기반을 마련하고 모델의 실용성을 향상시켰습니다.
일반적이고 잠재적으로 심각한 환각 문제를 크게 완화했습니다. 7B 및 13B에서는 대형 모델의 환상을 줄이고 정확성과 전문성을 높였습니다.
Yuanxiang 대형 모델 시리즈는 모두 전체 체인에 걸쳐 자체 개발되었으며 다양한 핵심 기술과 R&D 혁신을 포괄합니다.
2. 종합적인 성능 향상: FlashAttention2는 65B 훈련에서 계산을 가속화하는 데 사용되며, 3D 병렬성을 기반으로 하는 가상 파이프라인 기술을 사용하여 긴 파이프라인에서 생성되는 과도한 버블 비율을 줄이고 계산 추론 효율성을 점차적으로 향상시킵니다. 8K에서 증가 16K로 업그레이드하면 긴 텍스트 이해, 긴 텍스트 생성, 매우 긴 대화 등 복잡한 작업을 성공적으로 완료할 수 있을 뿐만 아니라 도구 호출, 코드 해석, 반영 및 수정 기능이 확장되어 더 나은 구축이 가능해집니다. 지능형 에이전트(AI 에이전트).
3. 훈련 안정성 대폭 향상: 엄청난 양의 계산으로 인해 통신 혼잡, 칩 과열 또는 컴퓨팅 노드 오류가 65B 훈련의 표준이 되었습니다. 초기에는 일주일에 최대 8번의 오류가 발생했습니다. 클러스터 인프라 운영, 리소스 스케줄링, 훈련 프레임워크 및 스케줄링 플랫폼 협업의 지속적인 최적화를 통해 Yuanxiang은 높은 안정성, 낮은 중단 및 강력한 내결함성을 갖춘 훈련 시스템을 구축하여 주간 유효 훈련 비율을 98.6%로 높였습니다.
또한 1.6조 개에 가까운 토큰으로 모델을 훈련하는 중에 손실 함수가 NaN 값을 생성하여 훈련이 중단될 수 있습니다. 일반적으로 업계에서는 분석 후 관련 데이터 간격을 삭제하는 것이 일반적입니다. 경험을 바탕으로 팀은 이것이 모델의 자연스러운 진화라고 판단하고 데이터를 삭제하지 않기로 결정했으며 관련 매개변수 업데이트를 직접 건너뛰었고 마침내 NaN 값 문제가 해결되었습니다. 이후 매개변수 값, 활성화 값, 그래디언트 값 등 중간 상태에 대한 추가 분석을 통해 문제가 모델의 마지막 레이어에 있는 트랜스포머 블록의 활성화 값 최대값 변경과 관련이 있을 수 있음이 밝혀졌으며, 최대값이 점차 감소하면서 저절로 해결됩니다.问题 NAN 가치 문제 해결 R&D 경험
65B 성능에 대한 종합적인 평가는 업계가 주요 모델의 성능에 대해 포괄적이고 객관적이며 장기적인 인식을 가질 수 있도록 보장합니다. 일련의 권위 있는 학문적 평가를 참고하여 질문과 대답, 이해, 지식, 추론, 수학, 코딩 등 6개 영역을 포괄하는 11개의 주류 권위 있는 평가 표준이 개발되었으며, 이는 지속적으로 사용되고 반복될 것입니다. XVERSE-65B는 비교를 위해 중국에서 동일한 수준의 모델이 없습니다. 외국 벤치마크와의 비교 평가에서 일부 지표를 능가했으며 종합 성능은 오픈 소스 벤치마크인 Llama2-70B를 능가했습니다. Falcon-180B는 여전히 GPT4 동물과 동등합니다.
소형 모델의 성능 상한을 대폭 향상시켰습니다. 인문과 이과를 모두 공부하며 인문과의 장점을 유지하면서 문답이 18% 향상되었고, 과학이 149% 향상되었으며, 수학이 198% 향상되었다는 평가를 받았습니다. Llama2, Baichuan2 등 국내외 오픈소스 벤치마크를 완전히 뛰어넘었습니다. ✨ 코끼리 모델은 Github, Hugging Face, ModelScope 및 기타 플랫폼에서 "XVERSE"로 검색할 수 있습니다. "다운로드 ,
간단한 등록 후 조건 없이 무료로 사용할 수 있습니다. 대부분의 애플리케이션 및 반복 요구를 충족할 수 있습니다. 중소기업, 과학 연구 기관, 개인 개발자 등이 포함됩니다.
인공 지능(AGI)을 탐색할 수 있는 유일한 방법이자 Yuanxiang이 계속해서 연구할 수 있는 원동력이기도 합니다. 최첨단 기술을 탐구합니다. XVERSE 오픈 소스 시리즈는 대형 모델의 국내 대체와 지속적인 기술 혁신을 촉진하고 실물 경제와 디지털 경제의 발전에 강력한 추진력을 불어넣는 데 전념하고 있습니다. 위안 소개! Xiang
XVERSE는 2021년 초 선전에서 설립되었습니다. 국내 굴지의 AI 및 3D 기술 서비스 기업입니다. - "당신의 세계를 정의하라"는 비전을 가지고 3D 콘텐츠 제작과 소비를 위한 원스톱 플랫폼입니다.위 내용은 Yuanxiang XVERSE-65B: 고성능과 무조건 무료 상업적 사용이 가능한 중국 최대 오픈 소스 모델이 여기에 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!