찾다
기술 주변기기일체 포함중국 최대 오픈소스 모델, 무조건 무료 상업용 출시! 650억 개의 매개변수, 2조 6천억 개의 토큰을 기반으로 한 훈련

중국 최대의 오픈 소스 모델이 여기에 있습니다:

매개변수 650억 개, 2조 6천억~3조 2천억 개의 토큰을 기반으로 훈련되었습니다.

"팔콘", "알파카"에 이어 2위로 성능은 GPT3.5와 맞먹고, 이제

무조건 무료 상업적 사용이 가능합니다.

중국 최대 오픈소스 모델, 무조건 무료 상업용 출시! 650억 개의 매개변수, 2조 6천억 개의 토큰을 기반으로 한 훈련

Shenzhen Yuanxiang Company의 XVERSE입니다.

다양한 컴퓨팅 성능, 리소스 제약 및 특정 작업 요구 사항에 따라 자유롭게 수정하거나 정제할 수 있습니다.

큰 규모 외에도 16k 컨텍스트가 있고 40개 이상의 언어를 지원하며 7B 및 13B 버전으로 제공됩니다.

구체적인 원산지는 무엇인가요?

중국에서 가장 큰 상용 대형 모델이 출시되었습니다

연구에 따르면 매개변수 수가 많고 훈련 데이터 품질이 높을수록 대형 모델의 성능이 지속적으로 향상될 수 있습니다.

업계의 일반적인 공감대는 매개변수 임계값인 500억~600억에 도달해야 대형 모델이 "스마트하게 등장"하고 멀티 작업에서 강력한 성능을 발휘할 수 있다는 것입니다.

그러나 이 정도 규모의 모델을 훈련하려면 비용이 많이 들고 높은 기술 요구 사항이 필요합니다. 현재는 주로 비공개 소스 유료 모델로 제공됩니다.

해외 오픈 소스 생태계에서 Llama2-70B 및 Falcon-180B와 같은 벤치마크 모델은 "조건부" 오픈 소스이며 월간 활성 사용자 또는 수입에 대한 상업적 상한선이 있으며 중국어 능력이 부족하여 중국어 능력에 명백한 단점이 있습니다. 훈련 데이터.

여기서, Yuanxiang XVERSE Company는 국내 대형 모델 오픈소스 생태학 및 산업 응용 분야의 발전을 촉진하기 위해 무조건 무료 상업적 사용을 위한 오픈소스 650억 매개변수 고성능 일반 대형 모델 XVERSE-65B를 발표했습니다. 13B 모델은 '소형' 모델의 성능 상한을 높이기 위해 풀 업그레이드됐다.

Yuanxiang '65B 모델 창립자 Yao Xing "

XVERSE-65B 기본 모델은 2조 6천억 개의 토큰에 대한 고품질 데이터를 바탕으로 처음부터 학습되었으며 컨텍스트 창은 16K로 확장되었으며 40개 이상의 언어를 지원합니다. ​​중국어, 영어, 러시아어, 프랑스어 등.

획기적으로 개선된

세 가지 기능:

1. 모델의 다양성, 창의성 및 정확성에 이르기까지 이해, 생성, 추론 등의 기본 능력이 우수함에서 강력함까지

2. , 코드 설명, 반사 수정 및 기타 기능은 지능형 에이전트

(AI 에이전트) 구축을 위한 기술적 기반을 마련하고 모델의 실용성을 향상합니다

3. 7B 및 13B에서 일반적이고 잠재적으로 심각한 환각 문제를 크게 완화하고 감소시킵니다. 향상된 정확성과 전문성을 위한 대형 모델은 "헛소리"입니다.

Yuanxiang 대형 모델 시리즈는 모두 자체 개발되었으며 다양한 핵심 기술과 R&D 혁신을 포괄합니다.

1. 복잡한 분산 시스템 설계:

팀에서 Tencent Go AI "Peer Art" 개발 방법을 배우고 King of Glory AI ""Juewu" 등 대규모 시스템에서의 풍부한 경험을 바탕으로 효율적인 연산자, 메모리 최적화, 병렬 스케줄링 전략, 데이터-컴퓨팅-통신 중첩, 플랫폼 및 프레임워크 협업 등 핵심 기술을 자체 개발하여 효율적이고 안정적인 훈련 시스템 킬로칼로리 클러스터의 최고치 컴퓨팅 파워 활용률은 58.5%에 달해 업계 최고 수준입니다.

2. 종합적인 성능 개선:

FlashAttention2를 사용하여 65B 트레이닝에서 계산 속도를 높이고, 3D 병렬성을 기반으로 가상 파이프라인

(가상 파이프라인) 기술을 사용하여 긴 파이프라인에서 발생하는 과도한 버블 비율을 줄입니다. 계산 추론 효율성을 향상시킵니다. 컨텍스트 창의 길이가 8K에서 16K로 점차 늘어납니다. 이를 통해 긴 텍스트 이해, 긴 텍스트 생성, 매우 긴 대화 등 복잡한 작업을 성공적으로 완료할 수 있을 뿐만 아니라 확장됩니다. 도구 호출, 코드 설명, 반영 및 수정 기능을 통해 더 나은 지능 Body(AI Agent)을 구축할 수 있습니다.

3. 훈련 안정성 대폭 향상:

엄청난 양의 계산으로 인해 통신 정체, 칩 과열 또는 컴퓨팅 노드 오류가 65B 훈련의 표준이 되었습니다. 주.

클러스터 인프라 운영, 리소스 스케줄링, 교육 프레임워크 및 스케줄링 플랫폼 협업의 지속적인 최적화를 통해 Yuanxiang은 높은 안정성, 낮은 중단 및 강력한 내결함성을 갖춘 교육 시스템을 만들어 주간 유효 교육 비율을 98.6%로 높였습니다.

또한 1.6조 개에 가까운 토큰으로 모델을 훈련하는 중에 손실 함수가 NaN 값을 생성하여 훈련이 중단될 수 있습니다.

일반적으로 업계에서는 분석 후 해당 데이터 간격을 삭제하는 것이 일반적입니다.

팀은 경험을 바탕으로 이것이 모델의 자연스러운 진화라고 판단하고 데이터를 삭제하지 않기로 결정하고 관련 매개변수 업데이트를 직접 건너뛰었고 마침내 NaN 값 문제가 해결되었습니다.

나중에 매개변수 값, 활성화 값, 기울기 값 등 중간 상태를 추가로 분석한 결과 이 ​​문제는 모델의 마지막 레이어에 있는 변압기 블록의 활성화 값 최대값 변경과 관련이 있을 수 있음이 밝혀졌습니다. , 최대값이 점차 감소함에 따라 저절로 해결됩니다.

중국 최대 오픈소스 모델, 무조건 무료 상업용 출시! 650억 개의 매개변수, 2조 6천억 개의 토큰을 기반으로 한 훈련

GPT3.5에 필적하는 성능

업계가 Yuanxiang 대형 모델의 성능을 포괄적이고 객관적이며 장기적으로 이해할 수 있도록 연구진은 일련의 권위 있는 학술 평가를 참고하여 시스템을 개발했습니다. 질의응답, 이해, 지식, 추론, 수학 등 코드를 포함한 6개 차원의 11가지 주류 권위 있는 평가기준은 계속해서 활용되고 반복될 것이다.

XVERSE-65B는 중국에서 비교할 수 있는 동일한 수준의 모델이 없습니다. 외국 벤치마크와의 비교 평가에서 일부 지표를 능가했으며 전체 성능은 오픈 소스 벤치마크를 완전히 능가했습니다. Llama2-70B와 Falcon-180B, GPT4에는 여전히 격차가 있습니다.

중국 최대 오픈소스 모델, 무조건 무료 상업용 출시! 650억 개의 매개변수, 2조 6천억 개의 토큰을 기반으로 한 훈련

완전히 업그레이드된 XVERSE-13B-2는 동일한 크기의 모델에 비해 대량의 고품질 데이터를 추가하며 최대 3조 2천억 개의 학습 데이터를 제공하여 "소형"의 능력 상한을 크게 향상시킵니다. " 모델.

문과계의 장점을 유지하면서 문답이 18%, 과학이 149%, 수학이 198% 향상되었다는 평가를 받았습니다. Llama2, Baichuan2 등 국내외 오픈소스 벤치마크를 완전히 능가했습니다.

중국 최대 오픈소스 모델, 무조건 무료 상업용 출시! 650억 개의 매개변수, 2조 6천억 개의 토큰을 기반으로 한 훈련

이제 Yuanxiang 대형 모델은 Github, Hugging Face, ModelScope 및 기타 플랫폼에서 "XVERSE"를 검색하여 다운로드할 수 있습니다 간단한 등록 후 무조건 무료 상업용으로 사용할 수 있습니다. 중소기업 및 과학 연구 기관과 개인 개발자의 대부분의 응용 프로그램 및 반복 요구 사항을 충족할 수 있습니다.

Yuanxiang은 또한 모델 훈련, 추론, 배포 및 미세 조정과 같은 광범위한 기술 서비스를 제공하여 엔터테인먼트, 금융, 의료 등 다양한 산업에 힘을 실어주고 다음과 같은 여러 시나리오에서 업계 최고의 서비스를 창출하는 데 도움을 줍니다. 지능적인 고객 서비스, 창의적인 글쓰기, 정확한 사용자 경험을 제공합니다.

2023년 10월 Tencent Music은 Yuanxiang Model과의 전략적 협력을 발표하고 lyraXVERSE 가속 모델을 공동 출시했으며 음악 어시스턴트 "AI Xiaoqin"을 포괄적으로 업그레이드했으며 업계에서 최첨단 AI 및 3D 기술을 계속 탐색할 예정입니다. 미래.

위 내용은 중국 최대 오픈소스 모델, 무조건 무료 상업용 출시! 650억 개의 매개변수, 2조 6천억 개의 토큰을 기반으로 한 훈련의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까?AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까?Apr 11, 2025 pm 12:13 PM

Stanford University Institute for Human-Oriented Intificial Intelligence가 발표 한 2025 인공 지능 지수 보고서는 진행중인 인공 지능 혁명에 대한 훌륭한 개요를 제공합니다. 인식 (무슨 일이 일어나고 있는지 이해), 감사 (혜택보기), 수용 (얼굴 도전) 및 책임 (우리의 책임 찾기)의 네 가지 간단한 개념으로 해석합시다. 인지 : 인공 지능은 어디에나 있고 빠르게 발전하고 있습니다 인공 지능이 얼마나 빠르게 발전하고 확산되고 있는지 잘 알고 있어야합니다. 인공 지능 시스템은 끊임없이 개선되어 수학 및 복잡한 사고 테스트에서 우수한 결과를 얻고 있으며 1 년 전만해도 이러한 테스트에서 비참하게 실패했습니다. AI 복잡한 코딩 문제 또는 대학원 수준의 과학적 문제를 해결한다고 상상해보십시오-2023 년 이후

Meta Llama 3.2- 분석 Vidhya를 시작합니다Meta Llama 3.2- 분석 Vidhya를 시작합니다Apr 11, 2025 pm 12:04 PM

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등Apr 11, 2025 pm 12:01 PM

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

기계와 대화하는 사람의 비용 : 챗봇이 실제로 신경 쓰일 수 있습니까?기계와 대화하는 사람의 비용 : 챗봇이 실제로 신경 쓰일 수 있습니까?Apr 11, 2025 pm 12:00 PM

연결의 편안한 환상 : 우리는 AI와의 관계에서 진정으로 번성하고 있습니까? 이 질문은 MIT Media Lab의 "AI (AI)를 사용하여 인간의 발전"심포지엄의 낙관적 톤에 도전했습니다. 이벤트는 절단 -EDG를 보여주었습니다

파이썬의 Scipy 라이브러리 이해파이썬의 Scipy 라이브러리 이해Apr 11, 2025 am 11:57 AM

소개 차등 방정식, 최적화 문제 또는 푸리에 분석과 같은 복잡한 문제를 해결하는 과학자 또는 엔지니어라고 상상해보십시오. Python의 사용 편의성 및 그래픽 기능은 매력적이지만 이러한 작업에는 강력한 도구가 필요합니다.

LLAMA 3.2를 실행하는 3 가지 방법 분석 VidhyaLLAMA 3.2를 실행하는 3 가지 방법 분석 VidhyaApr 11, 2025 am 11:56 AM

메타의 라마 3.2 : 멀티 모달 AI 강국 Meta의 최신 멀티 모드 모델 인 LLAMA 3.2는 AI의 상당한 발전으로 향상된 언어 이해력, 개선 된 정확도 및 우수한 텍스트 생성 기능을 자랑합니다. 그것의 능력 t

Dagster와 데이터 품질 검사 자동화Dagster와 데이터 품질 검사 자동화Apr 11, 2025 am 11:44 AM

데이터 품질 보증 : Dagster로 점검 자동화 및 큰 기대치 데이터 품질이 높다는 것은 데이터 중심 비즈니스에 중요합니다. 데이터 볼륨 및 소스가 증가함에 따라 수동 품질 관리는 비효율적이며 오류가 발생하기 쉽습니다.

메인 프레임은 AI 시대에 역할을합니까?메인 프레임은 AI 시대에 역할을합니까?Apr 11, 2025 am 11:42 AM

메인 프레임 : AI 혁명의 이름없는 영웅 서버는 일반 목적 애플리케이션 및 여러 클라이언트를 처리하는 데 탁월하지만 메인 프레임은 대량의 미션 크리티컬 작업을 위해 구축됩니다. 이 강력한 시스템은 자주 무거움에서 발견됩니다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기