Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah-AI-php.cn

Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah

PHPz

Mar 07, 2024 pm 05:50 PM

dataModel

Syarikat AI Kai-Fu Lee, Zero One, mempunyai seorang lagi pemain model besar di tempat kejadian:

9 bilion parameter Yi-9B.

Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah

Ia dikenali sebagai "Juara Sains" dalam siri Yi Ia "menebus" matematik kod tanpa ketinggalan dalam keupayaan komprehensif.

Berprestasi terbaik antara satu siri model sumber terbuka skala yang serupa (termasuk Mistral-7B, SOLAR-10.7B, Gemma-7B, DeepSeek-Coder-7B-Base-v1.5, dll.) .

Peraturan lama, keluaran bermaksud sumber terbuka, terutamanya mesra kepada pembangun:

Yi-9B (BF 16) dan versi kuantitatifnya Yi-9B (Int8) boleh digunakan pada kad grafik gred pengguna

RTX 4090 atau RTX 3090 sudah memadai.

Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah

Penguatan mendalam + latihan tambahan berbilang peringkat

Keluarga Yi Zero One Thousand Things sebelum ini telah mengeluarkan siri Yi-6B dan Yi-34B.

Kedua-dua mereka telah dilatih terlebih dahulu pada data Cina dan Inggeris token 3.1T, dan Yi-9B telah dilatih atas dasar ini dengan menambah token 0.8T.

Tarikh akhir untuk data ialah Jun 2023.

Telah disebut pada mulanya bahawa peningkatan terbesar Yi-9B terletak pada matematik dan pengekodan, jadi bagaimanakah kedua-dua kebolehan ini boleh dipertingkatkan?

Pengenalan Sifar Satu Ribu Perkara:

Hanya menambah jumlah data tidak dapat memenuhi jangkaan.

bergantung pada mula-mula meningkatkan saiz model kepada 9B berdasarkan Yi-6B, dan kemudian melakukan latihan tambahan data berbilang peringkat .

Pertama sekali, bagaimana untuk meningkatkan saiz model?

Satu premis ialah pasukan yang ditemui melalui analisis:

Yi-6B telah dilatih sepenuhnya, dan kesan latihan mungkin tidak bertambah baik tidak kira berapa banyak lagi token yang ditambahkan, jadi ia dianggap untuk mengembangkan saiznya. (Unit dalam gambar di bawah bukan TB tetapi B)

Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah

Bagaimana untuk meningkatkannya? Jawapannya ialah penguatan mendalam.

Pengenalan kepada Zero One Thousand Things:

Memperluaskan lebar model asal akan membawa lebih banyak kehilangan prestasi Selepas penguatan kedalaman model dengan memilih lapisan yang sesuai, kosinus input/output lapisan baharu akan lebih hampir kepada 1.0. , iaitu, lebih banyak prestasi model yang dikuatkan dapat mengekalkan prestasi model asal, semakin kecil kehilangan prestasi model.

Mengikut idea ini, Zero Yiwu memilih untuk menyalin 16 lapisan yang agak belakang (lapisan 12-28) Yi-6B untuk membentuk 48 lapisan Yi-9B.

Eksperimen menunjukkan bahawa kaedah ini mempunyai prestasi yang lebih baik daripada menggunakan model Solar-10.7B untuk menyalin 16 lapisan tengah (lapisan 8-24) .

Kedua, apakah kaedah latihan pelbagai peringkat?

Jawapannya ialah tambahkan dahulu data 0.4T yang mengandungi teks dan kod, tetapi nisbah data adalah sama dengan Yi-6B.

Kemudian tambahkan lagi 0.4T data, yang juga termasuk teks dan kod, tetapi memfokuskan pada meningkatkan perkadaran kod dan data matematik.

(Difahamkan, ia sama seperti helah kami "berfikir langkah demi langkah" dalam bertanya soalan tentang model besar)

Selepas dua langkah ini selesai, pasukan masih merujuk kepada dua kertas (An Empirical Model of Large- Latihan Kelompok dan Jangan Merosot Kadar Pembelajaran, Tingkatkan Saiz Kelompok), dan mengoptimumkan kaedah pelarasan parameter.

Maksudnya, bermula dari kadar pembelajaran tetap, setiap kali kehilangan model berhenti menurun, saiz kelompok dipertingkatkan supaya penurunan tidak terganggu dan model belajar dengan lebih lengkap.

Akhirnya, Yi-9B sebenarnya mengandungi sejumlah 8.8 bilion parameter, mencapai panjang konteks 4k.

Siri Yi mempunyai keupayaan pengekodan dan matematik terkuat

Dalam ujian sebenar, Zero Yiwu menggunakan kaedah penjanaan penyahkodan tamak (iaitu, memilih perkataan dengan nilai kebarangkalian tertinggi setiap kali) untuk ujian.

Model yang mengambil bahagian ialah DeepSeek-Coder, DeepSeek-Math, Mistral-7B, SOLAR-10.7B dan Gemma-7B:

(1)DeepSeek-Coder, daripada syarikat carian dalam domestik, arahan 33B Penilaian manusia bagi versi yang ditala melebihi GPT-3.5-turbo, dan prestasi versi 7B boleh mencapai prestasi CodeLlama-34B.

DeepSeek-Math adalah bergantung pada parameter 7B untuk membatalkan GPT-4, mengejutkan seluruh komuniti sumber terbuka.

(2)SOLAR-10.7BUpstage AI dari Korea Selatan, lahir pada Disember 2023, mengatasi Mixtral-8x7B-Instruct dalam prestasi.

(3)Mistral-7B ialah model besar KPM sumber terbuka pertama, mencapai atau bahkan melepasi tahap Llama 2 70B dan GPT-3.5.

(4)Gemma-7BDari Google, Zero One Wanwu menegaskan:

Jumlah parameter berkesan sebenarnya pada tahap yang sama dengan Yi-9B.

(Standard penamaan kedua-duanya adalah berbeza. Yang pertama hanya menggunakan parameter Non-Embedding, manakala yang kedua menggunakan semua parameter dan membulatkannya)

Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah

Hasilnya adalah seperti berikut.

Pertama sekali, dari segi tugas pengekodan, prestasi Yi-9B adalah yang kedua selepas DeepSeek-Coder-7B, dan empat yang lain semuanya KO.

Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah

Dari segi keupayaan matematik, prestasi Yi-9B berada di tempat kedua selepas DeepSeek-Math-7B, mengatasi empat yang lain.

Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah

Keupayaan keseluruhan juga tidak teruk.

Prestasinya adalah yang terbaik dalam kalangan model sumber terbuka dengan saiz yang sama, mengatasi semua lima pemain lain.

Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah

Akhirnya, kebolehan akal dan penaakulan diuji:

Hasilnya ialah Yi-9B setanding dengan Mistral-7B, SOLAR-10.7B dan Gemma-7B.

Dan kebolehan bahasa, bukan sahaja bahasa Inggeris yang bagus, tetapi bahasa Cina juga dipuji ramai:

Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah

Akhirnya, selepas membaca ini, beberapa netizen berkata: Saya tidak sabar untuk mencubanya.

Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah

Sesetengah orang bimbang tentang DeepSeek:

Cepat dan kuatkan "permainan" anda. Penguasaan total telah hilang==

Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah

Portal ada di sini: https://huggingface.co/01-ai/Yi-9B

Atas ialah kandungan terperinci Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Panduan komprehensif untuk ekstrapolasiApr 15, 2025 am 11:38 AM

Pengenalan Katakan ada petani yang setiap hari memerhatikan kemajuan tanaman dalam beberapa minggu. Dia melihat kadar pertumbuhan dan mula merenungkan betapa lebih tinggi tumbuhannya dapat tumbuh dalam beberapa minggu lagi. Dari th

Kebangkitan AI lembut dan apa maksudnya untuk perniagaan hari iniApr 15, 2025 am 11:36 AM

Soft AI-yang ditakrifkan sebagai sistem AI yang direka untuk melaksanakan tugas-tugas tertentu yang sempit menggunakan penalaran, pengiktirafan corak, dan pengambilan keputusan yang fleksibel-bertujuan untuk meniru pemikiran seperti manusia dengan merangkul kekaburan. Tetapi apa maksudnya untuk busine

Rangka kerja keselamatan yang berkembang untuk sempadan AIApr 15, 2025 am 11:34 AM

Jawapannya jelas-seperti pengkomputeran awan memerlukan peralihan ke arah alat keselamatan awan asli, AI menuntut satu penyelesaian keselamatan baru yang direka khusus untuk keperluan unik AI. Kebangkitan pengkomputeran awan dan pelajaran keselamatan dipelajari Dalam th

3 cara AI Generatif menguatkan usahawan: berhati -hati dengan purata!Apr 15, 2025 am 11:33 AM

Usahawan dan menggunakan AI dan Generatif AI untuk menjadikan perniagaan mereka lebih baik. Pada masa yang sama, adalah penting untuk mengingati AI generatif, seperti semua teknologi, adalah penguat - menjadikan yang hebat dan yang biasa -biasa saja, lebih buruk. Kajian 2024 yang ketat o

Kursus Pendek Baru mengenai Model Embedding oleh Andrew NgApr 15, 2025 am 11:32 AM

Buka kunci kekuatan model embedding: menyelam jauh ke kursus baru Andrew Ng Bayangkan masa depan di mana mesin memahami dan menjawab soalan anda dengan ketepatan yang sempurna. Ini bukan fiksyen sains; Terima kasih kepada kemajuan dalam AI, ia menjadi R

Adakah halusinasi dalam model bahasa besar (LLMS) tidak dapat dielakkan?Apr 15, 2025 am 11:31 AM

Model bahasa besar (LLM) dan masalah halusinasi yang tidak dapat dielakkan Anda mungkin menggunakan model AI seperti ChatGPT, Claude, dan Gemini. Ini semua contoh model bahasa besar (LLM), sistem AI yang kuat yang dilatih dalam dataset teks besar -besaran ke

Masalah 60% - Bagaimana carian AI mengalir trafik andaApr 15, 2025 am 11:28 AM

Penyelidikan baru-baru ini telah menunjukkan bahawa gambaran AI boleh menyebabkan penurunan 15-64% dalam trafik organik, berdasarkan jenis industri dan carian. Perubahan radikal ini menyebabkan pemasar untuk menimbang semula keseluruhan strategi mereka mengenai penglihatan digital. Yang baru

Makmal Media MIT untuk meletakkan manusia berkembang di tengah -tengah AI R & DApr 15, 2025 am 11:26 AM

Laporan baru -baru ini dari Elon University Imagining the Digital Future Centre meninjau hampir 300 pakar teknologi global. Laporan yang dihasilkan, 'Menjadi Manusia pada tahun 2035', menyimpulkan bahawa kebanyakannya bimbang bahawa penggunaan sistem AI yang mendalam lebih daripada t

See all articles