오픈소스 MoE 모델이 드디어 국내 최초 플레이어를 맞이합니다!
성능은 Dense Llama 2-7B 모델에 뒤지지 않지만 계산량이 40%에 불과합니다.
이 모델은 19면 전사라고 할 수 있는데, 특히 수학과 코딩 능력 면에서 라마를 압도하는 모델입니다.
Deep Search 팀이 개발한 최신 오픈소스 160억 매개변수 전문가 모델 DeepSeek MoE입니다.
뛰어난 성능 외에도 DeepSeek MoE의 주요 초점은 컴퓨팅 성능을 절약하는 것입니다.
이 성능 활성화 매개변수 다이어그램에서는 "선택"되어 왼쪽 상단 모서리의 큰 공백 영역을 차지합니다.
공개된 지 하루 만에 DeepSeek 팀의 X 트윗은 많은 수의 리트윗과 관심을 받았습니다.
JP Morgan의 기계 학습 엔지니어인 Maxime Labonne도 테스트 후 DeepSeek MoE의 채팅 버전이 Microsoft의 "소형 모델" Phi-2보다 약간 더 나은 성능을 발휘한다고 말했습니다.
동시에 DeepSeek MoE도 GitHub에서 별 300개 이상을 받고 Hugging Face 텍스트 생성 모델 순위 홈페이지에 등장했습니다.
그럼 DeepSeek MoE의 구체적인 성능은 어떤가요?
계산량이 60% 감소합니다
DeepSeek MoE의 현재 버전에는 160억 개의 매개변수가 있으며, 실제 활성화되는 매개변수 수는 약 28억 개입니다.
자체 7B 밀도 모델과 비교하면 19개 데이터 세트에서 두 가지의 성능은 다르지만 전체적인 성능은 비교적 비슷합니다.
역시 밀도가 높은 모델인 Llama 2-7B와 비교하여 DeepSeek MoE는 수학, 코드 등에서도 확실한 이점을 보여줍니다.
그러나 두 밀도 모델의 계산 부하는 4k 토큰당 180TFLOP를 초과하는 반면 DeepSeek MoE는 74.4TFLOP에 불과하며 이는 둘의 40%에 불과합니다.
20억 개의 매개변수에서 수행된 성능 테스트에 따르면 DeepSeek MoE는 GShard 2.8B와 동등하거나 더 나은 결과를 얻을 수도 있습니다. GShard 2.8B는 매개변수 수가 1.5배 더 많고 계산을 덜 사용하는 MoE 모델이기도 합니다.
또한 Deep Seek 팀은 SFT를 기반으로 DeepSeek MoE의 Chat 버전을 미세 조정했으며 성능도 자체 Dense 버전 및 Llama 2-7B에 가깝습니다.
또한 DeepSeek 팀은 DeepSeek MoE 모델의 145B 버전이 개발 중이라고 밝혔습니다.
단계별 예비 실험에서는 145B DeepSeek MoE가 GShard 137B에 비해 큰 우위를 갖고 있으며 계산량의 28.5%로 DeepSeek 67B 모델의 밀집 버전과 동등한 성능을 달성할 수 있는 것으로 나타났습니다.
연구 개발이 완료된 후 팀은 145B 버전도 오픈 소스화할 예정입니다.
이 모델의 성능 뒤에는 DeepSeek의 새로운 자체 개발 MoE 아키텍처가 있습니다.
자체 개발된 MoE 새로운 아키텍처
우선, 기존 MoE 아키텍처에 비해 DeepSeek은 더욱 세분화된 전문가 부서를 보유하고 있습니다.
전체 매개변수 수가 고정되면 기존 모델은 N명의 전문가를 분류할 수 있지만 DeepSeek은 2N명의 전문가를 분류할 수 있습니다.
동시에 작업을 수행할 때마다 선택되는 전문가의 수가 기존 모델의 2배이므로 사용되는 매개변수의 전체 수는 동일하게 유지되지만 선택의 자유도는 증가합니다.
이 세분화 전략을 통해 활성화 전문가의 보다 유연하고 적응력 있는 조합이 가능해지며, 이를 통해 다양한 작업에 대한 모델의 정확도와 지식 획득의 타당성이 향상됩니다.
DeepSeek은 전문가 부문의 차이점 외에도 "전문가 공유" 설정도 혁신적으로 도입합니다.
이러한 공유 전문가는 모든 입력에 대해 토큰을 활성화하며 라우팅 모듈의 영향을 받지 않습니다. 목적은 다양한 상황에서 필요한 공통 지식을 포착하고 통합하는 것입니다.
이러한 공유 지식을 공유 전문가로 압축하면 다른 전문가 간의 매개변수 중복이 줄어들어 모델의 매개변수 효율성이 향상됩니다.
공유 전문가 설정은 다른 전문가가 자신의 고유한 지식 영역에 더 집중할 수 있도록 도와줌으로써 전반적인 전문가 전문성 수준을 높여줍니다.
Ablation 실험 결과 두 솔루션 모두 DeepSeek MoE의 "비용 절감 및 효율성 향상"에 중요한 역할을 한 것으로 나타났습니다.
논문 주소: https://arxiv.org/abs/2401.06066.
참조 링크: https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg.
위 내용은 국내 대형 오픈소스 MoE 모델을 도입해 성능은 라마 2-7B와 비슷하면서도 연산량은 60% 줄였다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Hiddenlayer의 획기적인 연구는 LLMS (Leading Lange Language Models)에서 중요한 취약점을 드러냅니다. 그들의 연구 결과는 "정책 인형극"이라는 보편적 인 바이 패스 기술을 보여줍니다.

환경 책임과 폐기물 감소에 대한 추진은 기본적으로 비즈니스 운영 방식을 바꾸는 것입니다. 이 혁신은 제품 개발, 제조 프로세스, 고객 관계, 파트너 선택 및 새로운 채택에 영향을 미칩니다.

Advanced AI 하드웨어에 대한 최근 제한은 AI 지배에 대한 확대 된 지정 학적 경쟁을 강조하여 중국의 외국 반도체 기술에 대한 의존도를 드러냅니다. 2024 년에 중국은 3,800 억 달러 상당의 반도체를 수입했습니다.

Google의 Chrome의 잠재적 인 강제 매각은 기술 산업 내에서 강력한 논쟁을 불러 일으켰습니다. OpenAi가 65%의 글로벌 시장 점유율을 자랑하는 주요 브라우저를 인수 할 가능성은 TH의 미래에 대한 중요한 의문을 제기합니다.

전반적인 광고 성장을 능가 함에도 불구하고 소매 미디어의 성장은 느려지고 있습니다. 이 성숙 단계는 생태계 조각화, 비용 상승, 측정 문제 및 통합 복잡성을 포함한 과제를 제시합니다. 그러나 인공 지능

깜박 거리는 스크린 모음 속에서 정적으로 오래된 라디오가 딱딱합니다. 이 불안정한 전자 제품 더미, 쉽게 불안정하게, 몰입 형 전시회에서 6 개의 설치 중 하나 인 "The-Waste Land"의 핵심을 형성합니다.

Google Cloud의 다음 2025 : 인프라, 연결 및 AI에 대한 초점 Google Cloud의 다음 2025 회의는 수많은 발전을 선보였으며 여기에서 자세히 설명하기에는 너무 많았습니다. 특정 공지 사항에 대한 심도있는 분석은 My의 기사를 참조하십시오.

이번 주 AI 및 XR : AI 구동 창의성의 물결은 음악 세대에서 영화 제작에 이르기까지 미디어와 엔터테인먼트를 통해 휩쓸고 있습니다. 헤드 라인으로 뛰어 들자. AI 생성 콘텐츠의 영향력 증가 : 기술 컨설턴트 인 Shelly Palme


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는
