카이푸(Kai-Fu Lee), '세계에서 가장 강력한' 오픈소스 대형 모델 출시 공식 발표: 한자 40만자 처리, 중국어와 영어 모두 1위-일체 포함-php.cn

집

기술 주변기기

일체 포함

카이푸(Kai-Fu Lee), '세계에서 가장 강력한' 오픈소스 대형 모델 출시 공식 발표: 한자 40만자 처리, 중국어와 영어 모두 1위

PHPz

Nov 06, 2023 pm 06:13 PM

산업이 카이푸영일만물

Kai-fu Lee는 "우리는 Zero One Thousand Things를 글로벌 대형 모델의 첫 번째 계층에 합류시켜야 합니다."라고 지적했습니다.

카이푸(Kai-Fu Lee), 세계에서 가장 강력한 오픈소스 대형 모델 출시 공식 발표: 한자 40만자 처리, 중국어와 영어 모두 1위

오픈 소스 대형 모델 우주에는 새로운 헤비급 멤버가 있습니다. 이제 Innovation Works 대형 모델 회사 "천일천사"의 회장 겸 CEO인 이개푸가 출시한 오픈 소스 대형 모델 "Yi" 시리즈입니다. Zero One Thousand Things는 올해 3월 말 공식적으로 설립되어 6월과 7월에 운영을 시작한 것으로 알려졌습니다. Kaifu Li 박사가 창립자이자 CEO입니다.

11월 6일, Zero One Wagon은 Yi-6B 및 Yi-34B 버전을 포함하여 사전 훈련된 오픈 소스 대형 모델 "Yi" 시리즈를 공식 출시하여 오픈 소스 대형 모델 커뮤니티에 약간의 A를 제공했습니다. 작은 충격.”

Hugging Face English 오픈 소스 커뮤니티 플랫폼과 C-Eval 중국어 평가의 최신 목록에 따르면 Yi-34B 사전 훈련 모델은 여러 SOTA 국제 최고 성과 지표 인정을 획득했으며 "더블 챔피언"이 되었습니다. "라는 글로벌 오픈소스 대형 모델을 선보이며 LLaMA2, Falcon 등 오픈소스 경쟁 제품을 제치고

카이푸(Kai-Fu Lee), 세계에서 가장 강력한 오픈소스 대형 모델 출시 공식 발표: 한자 40만자 처리, 중국어와 영어 모두 1위

Yi-34B는 현재까지 유일한 국내 모델으로 Hugging Face 글로벌 오픈소스 모델 순위 1위에 올랐습니다.

카이푸(Kai-Fu Lee), 세계에서 가장 강력한 오픈소스 대형 모델 출시 공식 발표: 한자 40만자 처리, 중국어와 영어 모두 1위

작은 지식을 활용하여 글로벌 영어, 중국어 권위 있는 대형 모델 목록 1위 달성

허깅페이스 영어 테스트 공개 목록에서 알게 된 사전 학습된 사전 학습된 오픈 소스 모델 순위에서는 Yi-34B가 다양한 지표에서 좋은 성적을 거두며 70.72점으로 세계 1위를 기록했습니다. 작고 크며 LLaMA2-70B, Falcon-180B 등 많은 대형 모델을 압도합니다.

Yi-34B는 매개변수와 성능 면에서 LLaMA2-70B의 절반 미만, Falcon-180B의 5분의 1 미만의 매개변수를 사용하는 것과 동일하며 다양한 테스트 점수에서 글로벌 리더를 능가했습니다. 뛰어난 성능을 갖춘 Yi-34B는 세계에서 가장 강력한 오픈 소스 기본 모델 중 하나입니다. ... 국내 대형 모델인 Kaifu Lee는 Yi-34B가 중국어를 더 잘 '이해'한다고 말했습니다.

C-Eval은 중국 권위 목록에서 전 세계 모든 오픈 소스 모델을 능가합니다

. 카이푸(Kai-Fu Lee), 세계에서 가장 강력한 오픈소스 대형 모델 출시 공식 발표: 한자 40만자 처리, 중국어와 영어 모두 1위

^{대형 모델의 최강자 GPT-4와 비교하여 Yi-34B는 중국의 3대 주요 지표인 CMMLU, E-Eval, Gaokao에서 절대적인 우위를 점하고 있어 중국 세계에서 뛰어난 역량을 부각시키며 국내 시장 수요를 더 잘 충족시킬 수 있습니다.}

보다 종합적인 평가 관점에서 볼 때, 글로벌 대형 모델에 대한 다양한 평가 중 가장 중요한 평가 세트인 "MMLU"(Massive Multitask Language Understanding), BBH는 모델의 포괄적인 역량을 반영합니다. 테스트 결과 Yi-34B는 일반능력, 지식추론, 독해력 등 여러 지표에서 모든 평가를 모두 획득해 포옹얼굴 평가와 일관되게 가장 뛰어난 성능을 보였다.

그러나 LLaMA2와 마찬가지로 Yi 시리즈 오픈 소스 대형 모델은 GSM8k 및 MBPP의 수학 및 코드 평가에서 GPT 모델보다 성능이 약간 나쁩니다. 앞으로 Yi 시리즈의 대형 모델은 코딩 능력과 수학 능력을 전문으로 하는 지속적인 훈련 모델을 출시할 예정입니다.

컨텍스트 창 크기가 200k를 초과하며 직접 오픈 소스입니다.

대형 모델의 실제 전투 효과에 중요한 컨텍스트 창의 경우 이번에 출시된 오픈 소스 Yi-34B가 있습니다. 세계에서 가장 길고 가장 많이 지원되는 컨텍스트 창 200K의 매우 긴 컨텍스트 창 버전은 약 400,000자의 한자에 대한 매우 긴 텍스트 입력을 처리할 수 있습니다. 이는 "The Scholars" 책의 길이와 거의 같습니다. 이에 비해 OpenAI의 GPT-4 컨텍스트 창은 32K에 불과하고 텍스트 처리량은 약 25,000 단어입니다.

어떻게 하나요? Zero-One Everything 기술팀은 컴퓨팅 통신 중첩, 시퀀스 병렬화, 통신 압축 등을 포함한 일련의 최적화를 구현한 것으로 이해됩니다. 이러한 기능 향상을 통해 대규모 모델 훈련 기능이 거의 100배 향상됩니다.

제로원위시는 개발자가 직접 사용할 수 있도록 초장기 컨텍스트 윈도우를 오픈소스화한 최초의 대형 모델사라는 점을 언급할 가치가 있습니다.

Yi-34B의 200K 컨텍스트 창은 직접 오픈 소스로, 더 풍부한 의미 정보를 제공할 뿐만 아니라 1000페이지가 넘는 PDF 문서를 이해하므로 벡터 데이터베이스에 의존하여 외부 지식 기반을 구축하여 사용할 수 있는 많은 시나리오가 가능합니다. 컨텍스트 창을 대체합니다. Yi-34B의 오픈 소스 특성은 더 긴 컨텍스트 창 내에서 세부 조정을 원하는 개발자에게 더 많은 가능성을 제공합니다.

독특한 과학 모델 훈련 방법, 훈련 비용 40% 절감

Yi-34B는 이렇게 강력한데, 이는
AI 인프라 팀과 자체 연구라는 두 가지 핵심 요소에 기인합니다. scale 글로벌 교육 플랫폼
.

이개푸 대표는 제로원이 내부에 AI 인프라(AI 인프라)팀을 신설했다고 밝혔다. 이 팀은 주로 대형 모델 훈련과 배포를 담당하고 프로세서, 운영체제, 스토리지 등 다양한 기반 기술 시설을 제공한다. 시스템 및 네트워크 인프라 시설, 클라우드 컴퓨팅 플랫폼 등은 Yi 시리즈 모델 교육 뒤에 매우 중요한 "보증 기술"이 되었습니다.

Zero One Thing 팀은 AI Infra의 강력한 지원으로 업계 수준을 뛰어넘는 교육 성과를 달성했습니다.
Yi-34B 모델 훈련 비용은 40% 감소한 것으로 측정되었습니다
. 실제 훈련 완료 시간과 예상 시간의 차이는 1시간 미만입니다. 추가 시뮬레이션을 통해 훈련 비용을 최대 50%까지 줄일 수 있습니다. 1000억 규모.

동시에 Lingyiwuwu는 "광범위한 연금술"에서 "과학적 모델 훈련" 방법론으로의 전환을 실현했습니다.

Lingyiwanwu는 몇 달 간의 모델링과 실험 끝에 모델의 설계와 최적화를 안내하는 "대규모 훈련 실험 플랫폼"을 개발했습니다. 데이터 비례, 초매개변수 검색, 모델 구조 실험은 모두 소규모 실험 플랫폼에서 수행할 수 있으며, 34B 모델의 각 노드의 예측 오차는 0.5% 이내로 제어할 수 있습니다. 모델은 예측 능력이 더욱 강력해 비교 실험에 필요한 자원을 대폭 줄이고 훈련 오류로 인한 컴퓨팅 자원 낭비를 줄인다.

대규모 예측을 높이기 위한 데이터 처리 파이프라인 및 교육 기능의 구축으로 이전의 대규모 모델 교육의 "연금술" 프로세스가 매우 상세하고 과학화되었으며, 이는 Yi-34B, Yi의 현재 출시를 보장할 뿐만 아니라 - 6B 모델의 고성능은 향후 대규모 모델 학습에 소요되는 시간과 비용도 줄여주고, 업계보다 몇 배 빠르게 모델 규모를 확장할 수 있는 능력도 갖췄다.

마지막으로 Lee Kaifu는 Yi-34B의 사전 훈련을 완료하는 동시에 다음 1000억 매개변수 모델의 훈련이 즉시 시작되었다고 발표했습니다.
앞으로 몇 달 안에 Yi의 후속 모델이 더 많이 공개될 것으로 예상됩니다.

위 내용은 카이푸(Kai-Fu Lee), '세계에서 가장 강력한' 오픈소스 대형 모델 출시 공식 발표: 한자 40만자 처리, 중국어와 영어 모두 1위의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다