Rumah >Peranti teknologi >AI >Model sumber terbuka terbesar di China dikeluarkan untuk kegunaan komersial percuma tanpa syarat! 65 bilion parameter, latihan berdasarkan 2.6 trilion token

Model sumber terbuka terbesar di China dikeluarkan untuk kegunaan komersial percuma tanpa syarat! 65 bilion parameter, latihan berdasarkan 2.6 trilion token

PHPzke hadapan: 2023-11-06 14:29:211072semak imbas

Model sumber terbuka terbesar di China ada di sini:

parameter 65 bilion, dilatih berdasarkan 2.6-3.2 trilion token.

Menduduki kedudukan kedua selepas "Falcon" dan "Alpaca", prestasinya setanding dengan GPT3.5, dan kini boleh digunakan untuk

penggunaan komersial percuma tanpa syarat.

Model sumber terbuka terbesar di China dikeluarkan untuk kegunaan komersial percuma tanpa syarat! 65 bilion parameter, latihan berdasarkan 2.6 trilion token

Ia adalah XVERSE daripada Syarikat Shenzhen Yuanxiang.

Kita boleh mengubah suai atau menyaringnya secara bebas mengikut kuasa pengkomputeran yang berbeza, kekangan sumber dan keperluan tugas khusus.

Selain skala besarnya, ia juga mempunyai konteks 16k, menyokong lebih daripada 40 bahasa dan tersedia dalam versi 7B dan 13B.

Apakah asal usul tertentu?

Model besar yang tersedia secara komersil terbesar di China ada di sini

Penyelidikan menunjukkan bahawa semakin tinggi bilangan parameter dan lebih banyak data latihan berkualiti tinggi, lebih banyak prestasi model besar boleh dipertingkatkan secara berterusan.

Konsensus umum dalam industri ialah hanya apabila ambang parameter 50 hingga 60 bilion dicapai, model besar boleh "muncul dengan bijak" dan menunjukkan prestasi hebat dalam pelbagai tugas.

Namun, melatih model sebesar ini adalah mahal dan memerlukan keperluan teknikal yang tinggi Pada masa ini, ia disediakan terutamanya sebagai model berbayar sumber tertutup.

Dalam ekosistem sumber terbuka asing, model penanda aras seperti Llama2-70B dan Falcon-180B adalah sumber terbuka "bersyarat", dengan had atas komersial pada pengguna aktif bulanan atau pendapatan, dan mempunyai kelemahan yang jelas dalam keupayaan bahasa Cina kerana kekurangan data latihan.

Di sini, untuk menggalakkan pembangunan ekologi sumber terbuka model besar domestik dan aplikasi perindustrian, Syarikat Yuanxiang XVERSE mengumumkan model besar am berprestasi tinggi 65 bilion parameter sumber terbuka XVERSE-65B untuk kegunaan komersial percuma tanpa syarat. Model 13B telah dinaik taraf sepenuhnya untuk meningkatkan had atas keupayaan model "kecil".

Yao Xing, pengasas model Yuanxiang '65B "

Model asas XVERSE-65B dilatih dari awal pada data berkualiti tinggi sebanyak 2.6 trilion Token, tetingkap konteks dikembangkan kepada 16K, dan ia menyokong lebih daripada 40 bahasa seperti Cina, Inggeris, Rusia dan Perancis.

Diperbaiki dengan ketara

tiga keupayaan:

1 Kebolehan asas seperti pemahaman, penjanaan, penaakulan dan ingatan, kepada kepelbagaian, kreativiti dan ketepatan model, daripada panggilan yang sangat baik kepada yang berkuasa

, penjelasan kod, pembetulan reflektif dan keupayaan lain meletakkan asas teknikal untuk membina ejen pintar

(Agen AI)

dan meningkatkan kepraktisan model 3. Mengurangkan masalah halusinasi biasa dan berpotensi serius dalam 7B dan 13B, dan mengurangkan dengan ketara; Model besar "omong kosong" untuk meningkatkan ketepatan dan profesionalisme.

Siri model besar Yuanxiang semuanya dibangunkan sendiri, meliputi beberapa teknologi utama dan inovasi R&D:

1 Reka bentuk sistem teragih yang kompleks:

Belajar daripada pasukan untuk membangunkan Tencent Go AI "Peer Art" dan. King of Glory AI " Dengan pengalaman yang kaya dalam sistem besar seperti "Juewu", kami mempunyai teknologi utama yang dibangunkan sendiri seperti pengendali yang cekap, pengoptimuman memori, strategi penjadualan selari, pertindihan komunikasi-pengkomputeran data, dan kerjasama platform dan rangka kerja untuk mencipta sistem latihan yang cekap dan stabil Kadar penggunaan kuasa pengkomputeran mencapai 58.5%, berada di kedudukan teratas dalam industri.

2. Peningkatan prestasi menyeluruh:

FlashAttention2 digunakan untuk mempercepatkan pengiraan dalam latihan 65B, dan talian paip maya

(talian paip maya)

teknologi digunakan berdasarkan paralelisme 3D kadar buih panjang untuk mengurangkan garisan buih eksak yang terhasil dan meningkatkan kecekapan penaakulan pengiraan; Panjang tetingkap konteks telah ditingkatkan secara beransur-ansur daripada 8K kepada 16K, yang bukan sahaja membolehkannya menyelesaikan tugas yang kompleks dengan jayanya, termasuk pemahaman teks yang panjang, penjanaan teks yang panjang dan dialog yang sangat panjang, tetapi juga alat yang meluaskan panggilan, penjelasan kod dan keupayaan refleksi dan pembetulan, membolehkannya membina Badan kecerdasan(Agen AI) dengan lebih baik.

3. minggu.

Melalui pengoptimuman berterusan operasi infrastruktur kluster, penjadualan sumber, rangka kerja latihan dan kerjasama platform penjadualan, Yuanxiang telah mencipta sistem latihan yang sangat stabil, gangguan rendah dan sangat tahan terhadap kesalahan, meningkatkan kadar latihan berkesan mingguan kepada 98.6%.

Selain itu, di tengah-tengah latihan model dengan hampir 1.6 trilion Token, fungsi kehilangan menghasilkan nilai NaN, yang mungkin menyebabkan latihan terganggu.

Biasanya, industri secara amnya memadamkan selang data yang berkaitan selepas analisis.

Pasukan menentukan berdasarkan pengalaman bahawa ini adalah evolusi semula jadi model Mereka memilih untuk tidak memadamkan data dan terus melangkau kemas kini parameter yang berkaitan Akhirnya, masalah nilai NaN telah diselesaikan.

Analisis lanjut keadaan perantaraan seperti nilai parameter, nilai pengaktifan dan nilai kecerunan kemudiannya menunjukkan bahawa masalah ini mungkin berkaitan dengan perubahan nilai maksimum nilai pengaktifan blok transformer pada lapisan terakhir model. , dan akan diselesaikan dengan sendirinya apabila nilai maksimum berkurangan secara beransur-ansur.

Prestasi setanding dengan GPT3.5

Untuk memastikan industri boleh mempunyai pemahaman yang komprehensif, objektif dan jangka panjang tentang prestasi model besar Yuanxiang, penyelidik merujuk kepada satu siri penilaian akademik yang berwibawa dan membangunkan sistem meliputi soal jawab, pemahaman, pengetahuan, penaakulan, matematik, 11 piawaian penilaian autoritatif arus perdana dalam enam dimensi, termasuk kod, akan terus digunakan dan diulang.

xverse-65b tidak mempunyai model magnitud yang sama di China yang boleh dibandingkan. Llama2-70B dan Falcon-180B; dan GPT4 masih mempunyai jurang.

Model sumber terbuka terbesar di China dikeluarkan untuk kegunaan komersial percuma tanpa syarat! 65 bilion parameter, latihan berdasarkan 2.6 trilion token XVERSE-13B-2 yang dinaik taraf sepenuhnya menambah sejumlah besar data berkualiti tinggi berbanding model dengan saiz yang sama, dengan data latihan sehingga 3.2 trilion, yang meningkatkan had atas keupayaan "kecil" "model.

Ia mengkaji kedua-dua seni dan sains, mengekalkan kelebihannya dalam seni liberal telah meningkat sebanyak 18%, sains telah mencapai kemajuan yang besar, pengekodan telah meningkat sebanyak 149%, dan matematik telah meningkat sebanyak 198%. benar-benar melepasi penanda aras sumber terbuka domestik dan asing seperti Llama2 dan Baichuan2.

Model sumber terbuka terbesar di China dikeluarkan untuk kegunaan komersial percuma tanpa syarat! 65 bilion parameter, latihan berdasarkan 2.6 trilion token Kini, model besar Yuanxiang

boleh dimuat turun dengan mencari "XVERSE" di Github, Memeluk Wajah, ModelScope dan platform lain Selepas pendaftaran mudah, ia boleh digunakan untuk kegunaan komersial percuma tanpa syarat, yang mana boleh memuaskan perusahaan kecil dan sederhana dan institusi penyelidikan saintifik dan kebanyakan keperluan aplikasi dan lelaran pembangun individu. Yuanxiang juga menyediakan rangkaian penuh perkhidmatan teknikal seperti latihan model, inferens, penggunaan dan penalaan halus, memperkasakan pelbagai industri seperti hiburan, kewangan dan penjagaan perubatan, serta membantu mencipta perkhidmatan terkemuka industri dalam pelbagai senario seperti sebagai perkhidmatan pelanggan pintar, penulisan kreatif dan pengesyoran yang tepat.

Pada Oktober 2023, Tencent Music menerajui dalam mengumumkan kerjasama strategik dengan Model Yuanxiang, melancarkan model dipercepatkan lyraXVERSE, menaik taraf pembantu muziknya "AI Xiaoqin" secara menyeluruh, dan akan terus meneroka teknologi AI dan 3D termaju dalam masa hadapan.

Atas ialah kandungan terperinci Model sumber terbuka terbesar di China dikeluarkan untuk kegunaan komersial percuma tanpa syarat! 65 bilion parameter, latihan berdasarkan 2.6 trilion token. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

分布式 Token github transformer 个人开发

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Pencapaian baharu Universiti Peking untuk kecerdasan terwujud: Tiada latihan diperlukan, anda boleh bergerak secara fleksibel dengan mengikut arahanArtikel seterusnya：Pencapaian baharu Universiti Peking untuk kecerdasan terwujud: Tiada latihan diperlukan, anda boleh bergerak secara fleksibel dengan mengikut arahan

Artikel berkaitan

Lihat lagi