DeepSeek의 1 일차 팀에서 FlashMla를 발표하면 여기에서 읽을 수 있습니다 - DeepSeek #OpenSourceweek 1 일 : FlashMla의 출시.
릴리스의 주요 하이라이트
계산-의사 소통 중첩
- Deepep : MOE 및 전문가의 병렬성을위한 최적화 된 커뮤니케이션 라이브러리
- 왜 DeepSeek가 그것을 opensourcing 하는가? 전문가 (MOE)의 혼합물이란 무엇입니까?
- Moe는 변압기 모델에서 어떻게 작동합니까? moe의 혜택은 어떻게 작동합니까? 모델
- OpenSourcing Deepep은 게임 체인저이며 그것이 제공하는 것인가?
- 기본 FP8 디스패치 지원
- 계산에 대한 유연한 GPU 자원 제어
- Deepep 자신을 시도해보십시오
- 결론
-
Deepep : MOE 및 전문가 병렬성을위한 최적화 된 커뮤니케이션 라이브러리 Deepep은 MOE (Mix-of-Experts) 및 EP (Expert Parallism)를 위해 특별히 설계된 고성능 커뮤니케이션 라이브러리입니다. 이 회사는 매우 효율적인 모든 GPU 커널 (Moe Dispatch and Combine)이라고 불리는 탁월한 처리량과 최소한의 대기 시간을 제공합니다. 또한 Deepep은 FP8을 포함한 저렴한 계산을 지원하여 딥 러닝 워크로드의 유연성을 보장합니다. DeepSeek-V3 용지에 도입 된 그룹 제한 게이팅 알고리즘을 보완하기 위해 Deepep은 비대칭 도메인 대역폭 전달을 위해 맞춤형 특수 커널을 제공합니다. 이 커널은 NVLINK 및 RDMA와 같은 다른 하드웨어 도메인간에 데이터 전송을 최적화하여 교육 및 추론 프리 릴 작업 모두에 대한 처리량을 최대화합니다. 또한 라이브러리에는 스트리밍 멀티 프로세서 (SM) 사용을위한 내장 컨트롤이 포함되어 있습니다. 특히 디코딩 중에 초대형 대기 시간을 요구하는 추론 시나리오의 경우 Deepep은 전용 RDMA 전용 커널 세트를 통합하여 통신 지연을 크게 줄입니다. 또한 SM 리소스를 소비하지 않고 계산과의 커뮤니케이션을 중복시키기 위해 혁신적인 후크 기반 접근 방식을 사용하여 최적의 효율성을 확보합니다. 왜 DeepSeek가 그것을 opensourcing 하는가? Deepseek의 기술을 오픈 소스로 결정하는 것은 모든 사람이 최첨단 AI를 이용할 수 있도록하는 것입니다. 혁신을 공유함으로써 의료, 기후 과학 또는 방어에 관계없이 산업 전반의 개발자, 연구원 및 비즈니스에 힘을 발휘하여 경계를 높이고 더욱 고급 솔루션을 구축 할 수 있습니다. Open Access는 협업 속도를 높이고 AI 개발이 선택된 소수로 제한되지 않도록합니다. Deepep은“MOE 모델 교육 및 추론을위한 최초의 오픈 소스 EP 커뮤니케이션 라이브러리”입니다. 그리고 가장 중요한 부분? DeepSeek의 도구는 Github에서 구할 수 있으므로 누구나 기술을 쉽게 탐색하고 기여하며 개선 할 수 있습니다. 이제 전문가 (MOE)의 혼합이 무엇인지 이해합시다 전문가 (Moe)의 혼합물이란 무엇입니까? moe는 주로 두 가지 주요 구성 요소 로 구성됩니다 스파스 MOE 계층 -이들은 전통적인 조밀 한 피드 포워드 네트워크 (FFN) 레이어를 대체합니다. 단일 FFN 대신 MOE 계층은 여러 전문가 (예 : 8 개의 별도 네트워크)로 구성됩니다. 각 전문가는 독립형 신경망, 일반적으로 FFN으로 기능하지만 경우에 따라 이러한 전문가는 더 복잡한 구조물이거나 계층 적 Moes가 될 수 있습니다.
- .
라우터 또는 게이트 네트워크 -이 메커니즘은 어떤 토큰이 어떤 전문가에게 할당되는지를 결정합니다. 예를 들어, 주어진 순서에서, 하나의 토큰은 Expert 2로 향할 수 있고, 다른 토큰은 Expert 1에 의해 처리 될 수 있습니다. MoE의 주요 설계 선택은 전문가들 사이에 토큰이 어떻게 배포 되는가입니다. 라우팅 메커니즘은 나머지 모델과 함께 교육을받는 학습 가능한 매개 변수에 의해 관리됩니다.
변압기 모델에서 MOE는 어떻게 작동합니까? 표준 변압기 모델에서 모든 토큰은 조밀 한 FFN 층을 통해 처리됩니다. 그러나, MOE 모델에서,이 조밀 한 FFN 층은 여러 전문가와 게이팅 메커니즘으로 구성된 MOE 층으로 대체된다. 추론 및 훈련 중에,이 전문가의 하위 집합만이 토큰 당 활성화되어 모델 용량을 유지하면서 전반적인 계산이 줄어 듭니다. 효율적인 사전 여파Moe 모델의 이점 - MOE는 조밀 한 모델에 비해 컴퓨팅 요구 사항이 상당히 낮은 대형 모델을 가능하게하여 연구원들이 과도한 하드웨어 비용없이 모델을 더 빨리 훈련시킬 수있게 해줍니다. - 더 빠른 추론 - 모델 매개 변수의 일부만이 주어진 시간에 사용되므로 추론은 동등한 총 크기의 밀집된 모델에 비해 상당히 더 효율적입니다. 확장 성 - MOE는 연구자들이 조밀 한 모델과 동일한 컴퓨팅 예산 내에서 유지하면서 모델 크기와 데이터 세트 크기를 늘릴 수 있습니다.
전문가 (MOE)의 혼합물은 변압기 모델을 효율적으로 스케일링하기위한 강력한 접근 방식으로, 계산 비용이 줄어든 대규모 모델을 훈련시킬 수 있습니다. 전통적인 조밀 한 FFN 층을 희소 한 MOE 층으로 대체하고 라우팅 메커니즘을 사용함으로써 이러한 모델은 높은 확장 성과 개선 된 추론 속도를 달성합니다. 그러나 트레이드 오프에는 메모리 요구 증가, 훈련 복잡성 및 효과적인 라우팅 전략 설계의 과제가 포함됩니다. 연구가 계속됨에 따라 MOE 기반 아키텍처는 차세대 AI 모델에서 중요한 역할을 할 가능성이 높습니다. OpenSourcing Deepep은 게임 체인저이고 제공하는 내용은 무엇입니까? 1. 효율적이고 최적화 된 전부 커뮤니케이션
MOE 모델을 효율적으로 훈련하고 배포하려면 단일 시스템 (인트라 노드) 및 여러 컴퓨터 (Internode) 내에서 노드 간의 원활한 통신이 필수적입니다. Deepep은 고도로 최적화 된 전 세계 커뮤니케이션 으로이 과제를 해결하여 빠르고 효율적인 데이터 전송을 보장하고 병목 현상을 최소화하며 성능을 극대화합니다. 2. NVLINK 및 RDMA
를 사용한 인트라 노드 및 인턴 노드 지원Deepep은 기본 통신을 넘어 NVLINK 및 RDMA (원격 직접 메모리 액세스)와 같은 고급 기술을 통해 원활한 인트라 노드 및 인턴 노드 연결을 가능하게합니다. NVIDIA의 고속 상호 연결 인 NVLINK는 노드 내에서 데이터 교환을 가속화하는 반면 RDMA는 크로스 노드 전송의 대기 시간을 최소화하여 대규모 AI 시스템에 대한 최적의 성능을 보장합니다. 이러한 혁신은 총체적으로 효율성을 재정의하여 차세대 AI 워크로드를위한 발전소가됩니다. Deepep은 대규모 데이터를 효율적으로 처리하도록 설계되었습니다. 고속 커널은 데이터가 시스템을 통해 어떻게 이동하는지 최적화하여 빠른 교육을 가능하게합니다. 추론 프리 플릴 중에이 커널은 큰 배치를 신속하게 처리하여 병목 현상없이 부드럽고 효율적인 성능을 보장합니다. 4. 추론 디코딩
를위한 저지성 커널실시간 예측에 관해서는 속도가 전부입니다. Deepep의 저도가 낮은 커널은 추론 디코딩 중 지연을 최소화하여 최소한의 지연으로 즉각적인 응답을 제공합니다. 따라서 빠른 의사 결정과 원활한 사용자 경험을 요구하는 응용 프로그램에 이상적입니다. 5. 네이티브 FP8 디스패치 지원
Deepep은 내장 FP8 (Floating Point 8) 지원으로, 속도를 높이고 메모리 사용을 줄이는 최첨단 형식 인 AI 모델을 확장하는 데 적합합니다. FP8을 통합함으로써 DeepSeek은 라이브러리가 AI 하드웨어 및 알고리즘을 발전시키는 데 앞서 머무를 수 있도록합니다. 이것은 더 빠른 훈련, 에너지 비용, 지속 가능한 AI 개발을 향한보다 효율적인 경로를 의미합니다.6. 계산-통신 중첩
에 대한 유연한 GPU 리소스 제어 Deepep은 동시 계산 및 데이터 전송을 가능하게하여 다운 타임을 최소화하고 성능을 극대화하여 GPU 사용량을 최적화합니다. 대규모 AI 프로젝트에 이상적이며 연구원과 비즈니스가 효율적으로 확장하면서 시간과 비용을 절약하는 데 도움이됩니다.Deepep 자신을 시도해보십시오 Github 리포지토리를 방문
- github에서 Deepep의 소스 코드, 문서 및 예제를 찾으려면 빠르게 시작하십시오.문서 탐색 -명확하고 단계별 지침으로 NVLINK, RDMA 및 FP8과 같은 Deepep의 주요 기능을 활용하는 방법을 알아보십시오.
결론마지막으로, 모든 도구를 활용하여 Deepep을 테스트하고 통합 할 수 있습니다. . Deepseek은 오픈 소스 주 2 일째에 Deepep을 출시했습니다. 전문가 (MOE) 모델 교육 및 추론을위한 게임 체인저입니다. DeepSeek은 고성능 오픈 소스 EP 커뮤니케이션 라이브러리를 제공합니다. 효율성을 높이고 대기 시간을 줄이며 대규모 AI 워크로드의 리소스 관리를 향상시킵니다. Deepep은 NVLINK, RDMA, FP8 및 원활한 계산 커뮤니케이션 중첩을 지원합니다. 이를 통해 개발자와 연구원은 AI 혁신을 발전시킬 수 있습니다. DeepSeek의 오픈 소스 약속은 AGI 진행 속도를 높입니다. 최첨단 AI 도구에 전 세계적으로 더 액세스 할 수 있습니다. Deepseek 's Day 3 Release에 대한 자세한 분석을 위해 Toanalytics Vidhya 블로그를 계속 지켜봐 주시기 바랍니다! -
위 내용은 Deepep은 DeepSeek에서 오픈 소스 주 2 일째에 출시되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

AI 애플리케이션이 폭발적으로 증가함에 따라 기업은 기존 검색 엔진 최적화 (SEO)에서 생성 엔진 최적화 (GEO)로 이동하고 있습니다. Google은 변화를 이끌고 있습니다. "AI 개요"기능은 10 억 명 이상의 사용자에게 제공되어 사용자가 링크를 클릭하기 전에 전체 답변을 제공합니다. [^2] 다른 참가자들도 빠르게 상승하고 있습니다. Chatgpt, Microsoft Coplot 및 Perplexity는 전통적인 검색 결과를 완전히 우회하는 새로운 "답변 엔진"범주를 만들고 있습니다. 이 AI 생성 답변에 비즈니스가 나타나지 않으면 잠재 고객이 전통적인 검색 결과에서 높은 순위를 차지한 경우에도 잠재 고객이 귀하를 찾지 못할 수 있습니다. SEO에서 GEO까지 - 이것은 정확히 무엇을 의미합니까? 수십 년 동안

인공 일반 정보 (AGI)의 잠재적 경로를 탐색합시다. 이 분석은 AI 전진에 대한 진행중인 Forbes 칼럼의 일부이며, AGI 및 인공 초 지성 (ASI)을 달성하는 복잡성을 탐구합니다. (관련 예술 참조

인간 컴퓨터 상호 작용 : 섬세한 적응 춤 AI 챗봇과 상호 작용하는 것은 상호 영향의 섬세한 춤에 참여하는 것과 같습니다. 귀하의 질문, 응답 및 선호도는 귀하의 요구를 더 잘 충족시키기 위해 시스템을 점차적으로 형성합니다. 현대 언어 모델은 명백한 피드백 메커니즘과 암시 적 패턴 인식을 통해 사용자 선호도에 적응합니다. 그들은 당신의 커뮤니케이션 스타일을 배우고, 선호도를 기억하며, 당신의 기대에 맞게 그들의 반응을 점차적으로 조정합니다. 그러나 디지털 파트너를 훈련시키는 동안 반대 방향으로 똑같이 중요한 일이 일어나고 있습니다. 이러한 시스템과의 상호 작용은 우리 자신의 의사 소통 패턴, 사고 과정 및 대인 관계에 대한 기대치를 미묘하게 재구성하고 있습니다. AI 시스템과의 상호 작용은 대인 관계 상호 작용에 대한 우리의 기대를 재구성하기 시작했습니다. 우리는 즉각적인 반응에 적응했고

AI는 산불 복구 허가를 간소화합니다 기계 학습 및 컴퓨터 비전을 활용하는 호주 기술 회사 인 Archistar의 AI 소프트웨어는 지역 규정 준수를위한 건축 계획 평가를 자동화합니다. 이 예비 검증은 중요합니다

에스토니아의 디지털 정부 : 미국의 모델? 미국은 관료적 비 효율성과의 투쟁이지만 에스토니아는 설득력있는 대안을 제공합니다. 이 소규모 국가는 AI가 구동하는 거의 100% 디지털화 된 시민 중심 정부를 자랑합니다. 이것은 아닙니다

결혼식을 계획하는 것은 기념비적 인 일이며, 종종 가장 조직화 된 커플조차도 압도적입니다. AI의 영향에 관한 진행중인 Forbes 시리즈의 일부인이 기사 (여기 링크 참조)는 생성 AI가 결혼 계획에 혁명을 일으킬 수있는 방법을 탐구합니다. 결혼식 pl

기업은 AI 에이전트를 판매하기 위해 점점 더 활용하는 반면 정부는 다양한 기존의 작업에이를 활용합니다. 그러나 소비자 옹호자들은 개인이 자주 조정 된 사람들에 대한 방어로 자신의 AI 에이전트를 소유해야 할 필요성을 강조합니다.

Google은 이러한 변화를 이끌고 있습니다. "AI 개요"기능은 이미 10 억 명 이상의 사용자에게 제공되며, 누군가가 링크를 클릭하기 전에 완전한 답변을 제공합니다. [^2] 다른 플레이어들도 빨리지면을 얻고 있습니다. Chatgpt, Microsoft Copilot 및 PE


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.