Rumah >Peranti teknologi >AI >Token 4m? Minimax-Text-01 Outperforms DeepSeek V3

Token 4m? Minimax-Text-01 Outperforms DeepSeek V3

Lisa Kudrow
Lisa Kudrowasal
2025-03-10 10:00:17921semak imbas

Cina AI membuat langkah-langkah yang ketara, mencabar model terkemuka seperti GPT-4, Claude, dan Grok dengan alternatif sumber terbuka, sumber terbuka seperti DeepSeek-V3 dan Qwen 2.5. Model -model ini cemerlang kerana kecekapan, kebolehcapaian, dan prestasi yang kukuh. Ramai yang beroperasi di bawah lesen komersil yang permisif, memperluaskan rayuan mereka kepada pemaju dan perniagaan.

MiniMax-Text-01, tambahan terbaru kepada kumpulan ini, menetapkan standard baru dengan panjang konteks 4 juta token yang belum pernah terjadi sebelumnya-melampaui batas token 128k-256k tipikal. Keupayaan konteks lanjutan ini, digabungkan dengan seni bina perhatian hibrid untuk kecekapan dan sumber terbuka, lesen permisif secara komersil, memupuk inovasi tanpa kos yang tinggi.

mari kita menyelidiki ciri-ciri MiniMax-Text-01:

Jadual Kandungan

Senibina Hibrid
  • Strategi campuran-of-experts (MOE)
  • strategi latihan dan skala
  • Pengoptimuman selepas latihan
  • Inovasi Utama
  • Penanda aras akademik teras
  • Tugas Umum Benchmarks
    • Tugas Penalaran Benchmarks
    • Benchmark Matematik & Pengekodan Benchmark
    Bermula dengan Minimax-Text-01
  • Pautan penting
  • Kesimpulan
  • Senibina Hibrid

MiniMax-Text-01 Cleverly mengimbangi kecekapan dan prestasi dengan mengintegrasikan perhatian kilat, perhatian softmax, dan campuran-eksperts (MOE).

4M Tokens? MiniMax-Text-01 Outperforms DeepSeek V3

7/8 Perhatian linear (Kilat Perhatian-2):
    Mekanisme perhatian linear ini secara drastik mengurangkan kerumitan pengiraan dari O (N²D) ke O (D²N), sesuai untuk pemprosesan konteks panjang. Ia menggunakan pengaktifan silu untuk transformasi input, operasi matriks untuk pengiraan skor perhatian, dan rmsnorm dan sigmoid untuk normalisasi dan skala.
  • 1/8 Softmax Perhatian:
  • Mekanisme perhatian tradisional, menggabungkan tali (embedding kedudukan berputar) pada separuh dimensi kepala perhatian, membolehkan panjang ekstrapolasi tanpa mengorbankan prestasi.
  • Strategi campuran-of-experts (MOE)
Senibina MOE unik MiniMax-Text-01 membezakannya dari model seperti DeepSeek-V3:

  • Strategi Drop Token: menggunakan kerugian tambahan untuk mengekalkan pengedaran token seimbang di seluruh pakar, tidak seperti pendekatan yang tidak berkesudahan DeepSeek.
  • Global Router: Mengoptimumkan peruntukan token untuk pengagihan beban kerja di kalangan kumpulan pakar.
  • Routing Top-K: Pilih Pakar Top-2 Per Token (berbanding dengan DeepSeek's Top-8 1 Pakar Dikongsi).
  • Konfigurasi Pakar:
  • Menggunakan 32 pakar (vs DeepSeek's 256 1 dikongsi), dengan dimensi tersembunyi pakar 9216 (vs Deepseek's 2048). Jumlah parameter diaktifkan setiap lapisan kekal sama seperti Deepseek (18,432).
  • strategi latihan dan skala

Infrastruktur Latihan:

memanfaatkan kira -kira 2000 H100 GPU, menggunakan teknik paralelisme lanjutan seperti Parallelism Tensor Pakar (ETP) dan urutan perhatian linear Parallelism Plus (LASP). Dioptimumkan untuk kuantisasi 8-bit untuk kesimpulan yang cekap pada nod 8x80gb H100.
  • Data Latihan: Dilatih pada kira-kira 12 trilion token menggunakan jadual kadar pembelajaran seperti WSD. Data terdiri daripada campuran sumber yang berkualiti tinggi dan rendah, dengan deduplikasi global dan pengulangan 4x untuk data berkualiti tinggi.
  • Latihan konteks panjang: Pendekatan tiga fasa: Fasa 1 (128K konteks), fasa 2 (konteks 512K), dan fasa 3 (konteks 1m), menggunakan interpolasi linear untuk menguruskan peralihan pengedaran semasa skala panjang konteks.
  • Pengoptimuman selepas latihan
Penalaan halus berulang:

Kitaran Fine-Tuning (SFT) dan pembelajaran tetulang (RL), menggunakan DPO luar talian dan GRPO dalam talian untuk penjajaran.

Senibina pasca-norma meningkatkan kestabilan sambungan dan kestabilan latihan.

    pemanasan saiz batch:
  • secara beransur -ansur meningkatkan saiz batch dari token 16m hingga 128m untuk dinamik latihan optimum.
  • Paralelisme yang cekap:
  • Menggunakan perhatian cincin untuk meminimumkan overhead memori untuk urutan panjang dan pengoptimuman padding untuk mengurangkan pengiraan sia -sia.
  • Penanda aras akademik teras
(Jadual menunjukkan hasil penanda aras untuk tugas umum, tugas penalaran, dan tugas matematik & pengekodan dimasukkan di sini, mencerminkan jadual input asal.)

4M Tokens? MiniMax-Text-01 Outperforms DeepSeek V3 (pautan parameter penilaian tambahan kekal)

Bermula dengan Minimax-Text-01

(Contoh kod untuk menggunakan minimax-text-01 dengan pelukan muka transformer tetap sama.)

Pautan penting

  • chatbot
  • API ONLINE
  • Dokumentasi
Kesimpulan

Minimax-Text-01 menunjukkan keupayaan yang mengagumkan, mencapai prestasi terkini dalam tugas-tugas konteks panjang dan umum. Walaupun kawasan untuk penambahbaikan wujud, sifat sumber terbuka, keberkesanan kos, dan seni bina inovatif menjadikannya pemain penting dalam bidang AI. Ia amat sesuai untuk aplikasi penalaran yang intensif dan kompleks memori, walaupun penambahbaikan selanjutnya untuk tugas pengekodan mungkin bermanfaat.

Atas ialah kandungan terperinci Token 4m? Minimax-Text-01 Outperforms DeepSeek V3. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn