4m 토큰? Minimax-Text-01은 Deepseek V3보다 우수합니다-일체 포함-php.cn

집

기술 주변기기

일체 포함

4m 토큰? Minimax-Text-01은 Deepseek V3보다 우수합니다

Lisa Kudrow

Mar 10, 2025 am 10:00 AM

중국 AI는 Depseek-V3 및 Qwen 2.5와 같은 비용 효율적인 오픈 소스 대안으로 GPT-4, Claude 및 Grok과 같은 주요 모델에 도전하고 있습니다. 이러한 모델은 효율성, 접근성 및 강력한 성능으로 인해 뛰어납니다. 많은 사람들이 허용되는 상업 라이센스 하에서 운영하여 개발자와 비즈니스에 대한 호소력을 넓 힙니다. 이 그룹에 가장 최근에 추가 된 Minimax-Text-01은 전례없는 4 백만 개의 토큰 컨텍스트 길이로 새로운 표준을 설정하여 일반적인 128K-256K 토큰 한도를 뛰어 넘습니다. 이 확장 된 컨텍스트 기능은 효율성을위한 하이브리드주의 아키텍처 및 오픈 소스, 상업적으로 허용되는 라이센스와 결합하여 높은 비용없이 혁신을 촉진합니다. Minimax-Text-01의 기능을 탐구합시다 목차

하이브리드 아키텍처 Experts 혼합물 (MOE) 전략 훈련 및 스케일링 전략 교육 후 최적화 핵심 혁신 핵심 학문 벤치 마크 일반 작업 벤치 마크 추론 작업 벤치 마크 수학 및 코딩 작업 벤치 마크

minimax-text-01 로 시작하는 것 중요한 링크
결론
하이브리드 아키텍처 minimax-text-01은 번개주의, 소프트 맥스주의 및 혼합 운동 (MOE)을 통합하여 효율성과 성능을 영리하게 균형을 유지합니다.

7/8 선형주의 (번개주의 -2) :
이 선형주의 메커니즘은 O (n²d)에서 O (d²n)으로 계산 복잡성을 크게 감소시켜 장기 텍스트 처리에 이상적입니다. 입력 변환,주의 점수 계산을위한 매트릭스 작업, 정규화 및 스케일링을위한 rmsnorm 및 sigmoid를 위해 Silu 활성화를 사용합니다.
1/8 SoftMax주의 : 전통적인주의 메커니즘,주의 헤드 차원의 절반에 로프 (회전 위치 임베딩)를 통합하여 성능을 희생하지 않고 길이의 외삽을 가능하게합니다.

Experts 혼합물 (MOE) 전략 Minimax-Text-01의 고유 한 MOE 아키텍처는 DeepSeek-V3과 같은 모델과 구별됩니다.

토큰 드롭 전략 : 는 DeepSeek의 Dropless 접근 방식과 달리 전문가 간의 균형 잡힌 토큰 분포를 유지하기 위해 보조 손실을 사용합니다. 글로벌 라우터 : 전문가 그룹 간의 작업 부하 분포에 대한 토큰 할당을 최적화합니다. Top-K 라우팅 :
토큰 당 상위 2 명의 전문가를 선택합니다 (DeepSeek의 상위 8 개 공유 전문가와 비교). 전문가 구성 : 32 명의 전문가 (DeepSeek의 256 1 공유)를 사용하고 전문가의 숨겨진 차원은 9216 (DeepSeek의 2048)입니다. 레이어 당 총 활성화 된 매개 변수는 DeepSeek (18,432)와 동일합니다.
훈련 및 스케일링 전략 교육 인프라 : 는 약 2000 H100 GPU를 활용하여 ETP (Expert Tensor 병렬 처리) 및 선형주의 시퀀스 병렬 처리 플러스 (LASP)와 같은 고급 병렬 처리 기술을 사용합니다. 8x80GB H100 노드에서 효율적인 추론을 위해 8 비트 양자화에 최적화되었습니다.
교육 데이터 :
WSD와 같은 학습 속도 일정을 사용하여 약 12 조 토큰으로 훈련되었습니다. 이 데이터는 고품질 및 고품질 데이터에 대한 고품질 중복 제거 및 4 배 반복과 함께 고품질 및 저렴한 소스의 혼합으로 구성되었습니다. 장거리 텍스트 교육 : 3 단계 접근법 : 1 단계 (128K 컨텍스트), 2 단계 (512K 컨텍스트) 및 3 단계 (1m 컨텍스트), 선형 보간을 사용하여 컨텍스트 길이 스케일링 동안 분포 이동을 관리합니다.
교육 후 최적화 반복 미세 조정 : 감독 된 미세 조정 (SFT) 및 강화 학습 (RL)의주기, 오프라인 DPO 및 정렬을 위해 온라인 GRPO를 사용합니다. 장거리 텍스트 미세 조정 : 위상 접근법 : 단락 SFT → 장거리 텍스트 SFT → 단락 RL → 장거리 컨텍스트 RL, 우수한 장거리 컨텍스트 성능에 중요합니다.
핵심 혁신

Deepnorm : 잔류 연결 스케일링 및 훈련 안정성 향상 후 아키텍처.
배치 크기 워밍업 : 최적의 훈련 역학을 위해 배치 크기를 16m에서 128m로 점차 증가시킵니다. 효율적인 병렬 처리 :
는 링주의를 활용하여 긴 시퀀스에 대한 메모리 오버 헤드를 최소화하고 낭비 된 계산을 줄이기 위해 패딩 최적화를 최소화합니다.
핵심 학문 벤치 마크
(일반 작업, 추론 작업 및 수학 및 코딩 작업에 대한 벤치 마크 결과를 보여주는 테이블은 여기에 포함되어 원래 입력 테이블을 반영합니다.)
(추가 평가 매개 변수 링크가 남아 있음)

minimax-text-01 로 시작하는 것 (포옹 페이스 변압기와 함께 Minimax-Text-01을 사용하기위한 코드 예제.) 중요한 링크
chatbot 온라인 api
문서화

결론 Minimax-Text-01은 인상적인 기능을 보여 주어 장기 텍스트 및 일반 목적 작업에서 최첨단 성과를 달성합니다. 개선 영역이 존재하지만 오픈 소스 특성, 비용 효율성 및 혁신적인 아키텍처는 AI 분야에서 중요한 플레이어가됩니다. 코딩 작업에 대한 추가 개선이 유리할 수 있지만 메모리 집약적이고 복잡한 추론 응용 프로그램에 특히 적합합니다.
.

위 내용은 4m 토큰? Minimax-Text-01은 Deepseek V3보다 우수합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Chatgpt에서 2 단계 인증을 설정하는 방법에 대한 이해하기 쉬운 설명!May 12, 2025 pm 05:37 PM

ChatGpt 보안 향상 : 2 단계 인증 (2FA) 구성 안내서 온라인 플랫폼의 보안 조치로서 2 요인 인증 (2FA)이 필요합니다. 이 기사는 2FA 설정 절차와 ChatGpt의 중요성을 이해하기 쉽게 설명 할 것입니다. Chatgpt를 안전하게 사용하려는 사람들을위한 가이드입니다. OpenAi의 최신 AI 에이전트 인 OpenAi Deep Research ⬇️을 보려면 여기를 클릭하십시오. [Chatgpt] Openai Deep Research 란 무엇입니까? 사용 방법과 수수료 구조에 대한 철저한 설명! 목차 채팅

[비즈니스 용] chatgpt 교육 | 8 개의 무료 교육 옵션, 보조금 및 예제에 대한 철저한 소개!May 12, 2025 pm 05:35 PM

생성 된 AI의 사용은 비즈니스 효율성을 향상시키고 새로운 비즈니스를 창출하는 데 관심을 끌고 있습니다. 특히, OpenAi의 ChatGpt는 다목적 성과 정확성으로 인해 많은 회사에서 채택되었습니다. 그러나 ChatGpt를 효과적으로 활용할 수있는 인원의 부족은이를 구현하는 데 큰 어려움입니다. 이 기사에서는 회사에서 ChatGpt를 성공적으로 사용하기 위해 "Chatgpt Training"의 필요성과 효과를 설명 할 것입니다. Chatgpt의 기본부터 비즈니스 사용, 특정 교육 프로그램 및 선택 방법에 이르기까지 다양한 주제를 소개합니다. Chatgpt 교육은 직원 기술을 향상시킵니다

Chatgpt를 사용하여 트위터 작업을 간소화하는 방법에 대한 철저한 설명!May 12, 2025 pm 05:34 PM

소셜 미디어 운영의 효율성과 품질 향상이 필수적입니다. 특히 트위터와 같이 실시간이 중요한 플랫폼에서는시기 적절하고 매력적인 콘텐츠를 지속적으로 제공해야합니다. 이 기사에서는 고급 자연 언어 처리 기능이있는 AI 인 OpenAi의 ChatGpt를 사용하여 Twitter를 운영하는 방법을 설명합니다. ChatGpt를 사용하면 실시간 대응 기능을 향상시키고 컨텐츠 생성 효율성을 향상시킬 수있을뿐만 아니라 트렌드와 일치하는 마케팅 전략을 개발할 수도 있습니다. 또한 사용을위한 예방 조치

[Mac 용] 시작 방법과 Chatgpt 데스크탑 앱 사용 방법을 설명하십시오!May 12, 2025 pm 05:33 PM

Chatgpt Mac Desktop 앱 철저한 가이드 : 설치에서 오디오 기능까지 마지막으로, Mac 용 Chatgpt의 데스크탑 앱을 사용할 수 있습니다! 이 기사에서는 설치 방법에서 유용한 기능 및 향후 업데이트 정보에 이르기까지 모든 것을 철저히 설명합니다. 단축키 키, 이미지 인식 및 음성 모드와 같은 데스크탑 앱에 고유 한 기능을 사용하여 비즈니스 효율성을 극적으로 향상시킵니다! 데스크탑 앱의 Chatgpt Mac 버전 설치 브라우저에서 액세스 : 먼저 브라우저에서 chatgpt에 액세스하십시오.

chatgpt의 문자 한계는 무엇입니까? 모델별로 피하는 방법과 상한에 대한 설명May 12, 2025 pm 05:32 PM

Chatgpt를 사용할 때 "출력이 반쯤 멈췄다"또는 "캐릭터 수를 지정하더라도 제대로 출력하지 않았다"와 같은 경험이 있습니까? 이 모델은 매우 획기적이며 자연스러운 대화를 허용 할뿐만 아니라 이메일 제작, 요약 서류 및 소설과 같은 창의적인 문장을 생성 할 수 있습니다. 그러나 ChatGpt의 약점 중 하나는 텍스트가 너무 길면 입력 및 출력이 제대로 작동하지 않는다는 것입니다. Openai의 최신 AI 에이전트 "Openai Deep Research"

Chatgpt의 음성 입력 및 음성 대화 기능은 무엇입니까? 설정 방법 및 사용 방법 설명May 12, 2025 pm 05:27 PM

Chatgpt는 OpenAi가 개발 한 혁신적인 AI 챗봇입니다. 그것은 텍스트 입력뿐만 아니라 음성 입력 및 음성 대화 기능을 특징으로하여보다 자연스럽게 커뮤니케이션 할 수 있습니다. 이 기사에서는 ChatGpt의 음성 입력 및 음성 대화 기능을 설정하고 사용하는 방법을 설명합니다. 손을 떼지 않더라도 Chatgpt는 바쁜 비즈니스 상황 및 영어 대화 연습과 같은 다양한 상황에서 큰 이점을 가져다주는 오디오에 응답하고 응답합니다. 스마트 폰 앱 및 PC를 설정하는 방법에 대한 자세한 설명과 각 사용 방법에 대한 자세한 설명.

구직 및 구직에 chatgpt를 사용하는 방법에 대한 이해하기 쉬운 설명!May 12, 2025 pm 05:26 PM

성공하기위한 지름길! chatgpt를 사용한 효과적인 직업 변화 전략 오늘날의 강화 된 직업 변화 시장에서 효과적인 정보 수집 및 철저한 준비가 성공의 열쇠입니다. Chatgpt와 같은 고급 언어 모델은 구직자에게 강력한 무기입니다. 이 기사에서는 Chatgpt를 효과적으로 활용하여 자체 분석에서 응용 프로그램 문서 및 인터뷰 준비에 이르기까지 작업 사냥 효율성을 향상시키는 방법을 설명합니다. 시간을 절약하고 기술을 배우는 기술을 배우고 강점을 최대한 발휘하고 구직 활동을 성공적으로 만들 수 있도록 도와줍니다. 목차 chatgpt를 사용한 직업 사냥의 예 자기 분석의 효율성 : 채팅

chatgpt를 사용하여 마인드 맵을 만들고 출력하는 방법에 대한 이해하기 쉬운 설명!May 12, 2025 pm 05:22 PM

마인드 맵은 정보를 구성하고 아이디어를 제시하는 데 유용한 도구이지만 아이디어를 만드는 데는 시간이 걸릴 수 있습니다. chatgpt를 사용하면이 프로세스를 크게 간소화 할 수 있습니다. 이 기사에서는 Chatgpt를 사용하여 마인드 맵을 쉽게 만드는 방법에 대해 자세히 설명합니다. 또한 창조의 실제 예를 통해 다양한 테마에서 마인드 맵을 사용하는 방법을 소개합니다. Chatgpt를 사용하여 아이디어와 정보를 효과적으로 구성하고 시각화하는 방법을 배우십시오. OpenAi의 최신 AI 에이전트 인 Opena

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

드림위버 CS6

시각적 웹 개발 도구

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는