Rumah  >  Artikel  >  Peranti teknologi  >  Berat, kod dan set data semuanya adalah sumber terbuka, dan prestasinya melebihi model kecil Apple di sini

Berat, kod dan set data semuanya adalah sumber terbuka, dan prestasinya melebihi model kecil Apple di sini

WBOY
WBOYasal
2024-07-22 16:18:40321semak imbas

Model kecil menjadi trend?

Minggu ini, OpenAI melancarkan model kecil GPT-4o-mini, dan trek model kecil dilancarkan secara rasmi. Baru-baru ini menyertai lagu ini ialah Apple.

Baru-baru ini, Apple, sebagai salah satu institusi penyelidikan projek DataComp-LM (DCLM), mengeluarkan model sumber terbuka DCLM-7B pada Hugging Face. Prestasi model telah mengatasi Mistral-7B dan mendekati model sumber terbuka terkemuka lain, termasuk Llama 3 dan Gemma. Pautan kertas: https://arxiv.org/pdf/2406.11794 One, Vaishaal Shankar daripada pasukan pembelajaran mesin Apple, menyifatkan model DCLM sebagai "model terbaik yang benar-benar sumber terbuka" kerana DCLM bukan sahaja sumber terbuka pemberat model, tetapi juga sumber terbuka kod latihan dan set data pra-latihan.

Berat, kod dan set data semuanya adalah sumber terbuka, dan prestasinya melebihi model kecil Apple di sini

Berat, kod dan set data semuanya adalah sumber terbuka, dan prestasinya melebihi model kecil Apple di siniPengenalan Penyelidikan

  • Satu cabaran penilaian semasa yang dihadapi oleh model bahasa besar (LLM) ialah kekurangan perbandingan terkawal. Kajian LLM sering membandingkan model dengan seni bina, pengiraan atau hiperparameter yang berbeza, menjadikannya sukar untuk merungkai faktor yang mempengaruhi kualiti model bahasa.

    Berdasarkan ini, pasukan penyelidik mencadangkan penanda aras baharu untuk perbandingan data model bahasa - DCLM Ini adalah penanda aras pertama untuk penyusunan data latihan model bahasa, yang bertujuan untuk membolehkan LLM meningkatkan prestasi model dengan mereka set data berkualiti tinggi dalam alam multimodal.
  • Pasukan penyelidik mendapati bahawa penapisan berasaskan model, di mana model pembelajaran mesin (ML) menapis dan memilih data berkualiti tinggi secara automatik daripada set data yang lebih besar, mungkin menjadi kunci untuk membina set latihan berkualiti tinggi.

    Idea keseluruhan DCLM adalah mudah: gunakan rangka kerja piawai untuk menjalankan eksperimen, termasuk seni bina model tetap, kod latihan, hiperparameter dan penilaian, dan akhirnya ketahui strategi pengisihan data yang paling sesuai untuk melatih model berprestasi tinggi .

Menggunakan DCLM, pasukan penyelidik membina set data DCLM-BASELINE berkualiti tinggi dan menggunakan set data ini untuk melatih model parameter 7B dari awal - DCLM-7B. Perincian model DCLM-7B. Berat, kod dan set data semuanya adalah sumber terbuka, dan prestasinya melebihi model kecil Apple di sini

DCLM-7B menggunakan penyelesaian pra-latihan berdasarkan rangka kerja OpenLM, dan ketepatan 5 pukulan mencapai 64% pada penanda aras MMLU, yang setanding dengan Mistral-7B-v0.3 (63%) dan Llama 3 8B (66%) Ia setanding dengan Mistral-7B-v0.3 dan Llama 3 8B, dan prestasi purata pada 53 tugas pemahaman bahasa semula jadi juga setanding dengan Mistral-7B-v0.3 dan Llama 3 8B, manakala jumlah pengiraan yang diperlukan hanyalah 1/6 daripada Llama 3 8B.

Berikut ialah keputusan penilaian DCLM-7B ke atas pelbagai tugasan (bahagian):

Hasil perbandingan DCLM-7B dengan model lain yang sama saiz ditunjukkan dalam jadual di bawah:

Berat, kod dan set data semuanya adalah sumber terbuka, dan prestasinya melebihi model kecil Apple di sini

Terkemuka Ya, kebanyakan model lain mempunyai pemberat terbuka tetapi data tertutup. Inilah sebabnya Vaishaal Shankar menerangkan model DCLM sebagai "sumber terbuka yang sebenarnya."

Berat, kod dan set data semuanya adalah sumber terbuka, dan prestasinya melebihi model kecil Apple di sini

Pautan rujukan: https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/Berat, kod dan set data semuanya adalah sumber terbuka, dan prestasinya melebihi model kecil Apple di sini

Atas ialah kandungan terperinci Berat, kod dan set data semuanya adalah sumber terbuka, dan prestasinya melebihi model kecil Apple di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn