DeepSeek의 1 일차 팀에서 FlashMla를 발표하면 여기에서 읽을 수 있습니다 - DeepSeek #OpenSourceweek 1 일 : FlashMla의 출시.
릴리스의 주요 하이라이트
계산-의사 소통 중첩
모델의 크기는 품질을 결정하는 데 중요한 역할을합니다. 고정 계산 예산을 사용하면 일반적으로 더 많은 단계를 위해 더 작은 모델보다는 더 큰 단계로 더 큰 모델을 훈련시키는 것이 더 효과적입니다. 이곳은 전문가 (MOE) 의 혼합물이 작용하는 곳입니다. 모델은 계산 효율을 최적화하면서 모델을 크게 확장 할 수 있습니다. . MOE는 계산 중에 매개 변수의 서브 세트 만 선택적으로 활성화하여 모델 교육 및 추론을 최적화하도록 설계된 신경망 아키텍처입니다. 이를 통해 계산 비용의 비례 적 증가없이 훨씬 더 큰 모델을 사용할 수 있습니다.
3. 훈련 및 추론을위한 고 처리량 커널
5. 네이티브 FP8 디스패치 지원
Github 리포지토리를 방문
- github에서 Deepep의 소스 코드, 문서 및 예제를 찾으려면 빠르게 시작하십시오. 문서 탐색 -명확하고 단계별 지침으로 NVLINK, RDMA 및 FP8과 같은 Deepep의 주요 기능을 활용하는 방법을 알아보십시오.
위 내용은 Deepep은 DeepSeek에서 오픈 소스 주 2 일째에 출시되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!