Rumah  >  Artikel  >  Peranti teknologi  >  Prestasi parameter 2B melebihi Mistral-7B: model sisi hujung berbilang modal pintar menghadap dinding sumber terbuka

Prestasi parameter 2B melebihi Mistral-7B: model sisi hujung berbilang modal pintar menghadap dinding sumber terbuka

王林
王林ke hadapan
2024-02-02 19:33:321207semak imbas

Mesin Qianyuan juga boleh dijalankan secara tempatan.

Baru-baru ini, orang ramai telah mencapai hasil dalam pengoptimuman dan penggunaan, dengan pembangunan model besar ke arah volum yang besar.

Pada 1 Februari, Wall-Facing Intelligence dan Makmal NLP Tsinghua secara rasmi mengeluarkan model berskala besar hujung ke sisi utama "MiniCPM Menghadap Dinding" di Beijing. Model besar generasi baru ini dikenali sebagai "meriam keluli kecil prestasi". Ia bukan sahaja boleh digunakan secara langsung pada terminal, tetapi juga mempunyai keupayaan berbilang modal yang paling kuat pada tahap yang sama. Ini akan memberikan pengguna pengalaman aplikasi pintar yang lebih pantas dan cekap.

Model MiniCPM 2B terbaharu yang dilancarkan oleh Face Wall Intelligence hanya mempunyai 2 bilion parameter dan dilatih dengan menggunakan data terpilih token 1T. Berbanding dengan model BERT yang dikeluarkan pada 2018, model ini mempunyai bilangan parameter yang sama, tetapi Wall-Facing Intelligence telah melakukan usaha yang melampau dalam pengoptimuman prestasi dan kawalan kos, membolehkan model ini mencapai kesan "melompat dan membunuh raksasa" dari segi prestasi.

Li Dahai, pengasas bersama dan Ketua Pegawai Eksekutif Wall-Facing Intelligence, membandingkan model baharu itu dengan Mistral-7B, model besar sumber terbuka yang terkenal dalam industri ini mengatasi yang terakhir dari segi prestasi pada pelbagai penilaian arus perdana senarai.

Prestasi parameter 2B melebihi Mistral-7B: model sisi hujung berbilang modal pintar menghadap dinding sumber terbuka

Berbanding dengan "model kecil" Phi-2 yang dicadangkan oleh Microsoft baru-baru ini, MiniCPM juga mempunyai kelebihan yang besar.

Prestasi parameter 2B melebihi Mistral-7B: model sisi hujung berbilang modal pintar menghadap dinding sumber terbuka

Li Dahai menegaskan bahawa model baharu kecerdasan menghadap dinding berpotensi untuk mencapai pelaksanaan lonjakan dari segi keupayaan, dan boleh mencapai keupayaan model 13B, 30B atau bahkan 40B. Apabila dinilai menggunakan MT-Bench, senarai penilaian yang paling hampir dengan pengalaman pengguna, MiniCPM memperoleh 7 mata (sebagai perbandingan, GPT-4-Turbo memperoleh 9 mata).

Prestasi parameter 2B melebihi Mistral-7B: model sisi hujung berbilang modal pintar menghadap dinding sumber terbuka

Di tempat kejadian, Wall-Facing Intelligence juga menunjukkan kesan aplikasi praktikal MiniCPM. Walaupun bilangan parameter adalah kecil, model ini mempunyai banyak keupayaan seperti terjemahan teks dan main peranan yang sepatutnya dimiliki oleh model besar, dan ia mempunyai pengetahuan yang kaya. Model ini boleh mengendalikan walaupun tugas tafsiran kod yang sukar.

Prestasi parameter 2B melebihi Mistral-7B: model sisi hujung berbilang modal pintar menghadap dinding sumber terbuka

Oleh kerana ia boleh digunakan di bahagian terminal, MiniCPM juga boleh memberikan bantuan tepat pada masanya kepada orang ramai apabila menghadapi beberapa kecemasan:

Prestasi parameter 2B melebihi Mistral-7B: model sisi hujung berbilang modal pintar menghadap dinding sumber terbuka

Baru-baru ini, pelbagai pengeluar telefon bimbit telah mencadangkan model sisi terminal yang besar model bahasa dimampatkan kepada saiz yang lebih kecil, kita boleh menggunakannya untuk menyambung kepada lebih banyak senario dan memperoleh tahap kecerdasan yang lebih tinggi walaupun kuasa pengkomputeran dan memori terhad. Sebaliknya, teknologi baharu yang dicadangkan oleh Wall-Facing Intelligence adalah lebih ringan dan boleh digunakan pada konfigurasi yang lebih rendah atau telefon mudah alih model terdahulu.

Menurut Face Wall Intelligence, model sisi akhir MiniCPM telah menjalani pengkuantitian Int4 dan telah dimampatkan sebanyak 75% dalam saiz, hanya menduduki 2G memori Pada masa yang sama, hampir tiada kehilangan prestasi, jadi ia telah berlaku telah dilaksanakan pada pelbagai model biasa telefon bimbit.

Prestasi parameter 2B melebihi Mistral-7B: model sisi hujung berbilang modal pintar menghadap dinding sumber terbuka

Oleh kerana ia menyokong inferens CPU mudah alih, MiniCPM boleh menjimatkan kos penggunaan pada tahap yang besar. Face Wall Intelligence telah mengira akaun untuk kami: telefon mudah alih yang dilengkapi dengan Snapdragon 855 menggunakan MiniCPM boleh memproses 1.7 juta token untuk satu dolar elektrik Harga ini hanya 1% daripada Mistral-Medium yang berjalan di awan.

Selain model sisi hujung, Wall Intelligence juga menunjukkan penerokaan model besar berbilang modal dan parameter 12B OmniLMM sumber terbuka. Pada sidang akhbar itu, Face Wall Intelligence menunjukkan demo gunting kertas batu yang sama apabila Gemini dibebaskan. Tanya AI dalam bahasa Inggeris: Apakah permainan yang saya mainkan? Model besar akan menjawab: batu, kertas, gunting.

Prestasi parameter 2B melebihi Mistral-7B: model sisi hujung berbilang modal pintar menghadap dinding sumber terbuka

Pada masa yang sama, OmniLMM juga boleh mengenali gerak isyarat manusia dan memberitahu anda apa yang perlu dimainkan jika anda mahu menang.

OmniLMM juga boleh memahami dan menaakul tentang maklumat dalam banyak gambar, seperti bangunan mercu tanda, logo stesen TV, aktiviti yang dianjurkan oleh orang ramai, dll.

Prestasi parameter 2B melebihi Mistral-7B: model sisi hujung berbilang modal pintar menghadap dinding sumber terbuka

Nampaknya kita tidak jauh dari model besar yang benar-benar berbilang modal dan penerapan bentuk baharu.

Prestasi muktamad model besar pintar yang menghadap dinding datang daripada pengumpulan teknologi jangka panjang syarikat. Sejak 2021, Wallface Intelligence telah membina susunan teknologi yang cekap, memfokuskan pada tiga arah Infra, algoritma dan metodologi data. Antaranya, rangka kerja latihan cekap BMTrain yang dibangunkan sendiri adalah penting.

Prestasi parameter 2B melebihi Mistral-7B: model sisi hujung berbilang modal pintar menghadap dinding sumber terbuka

Di peringkat algoritma, Wall-Facing Intelligence juga telah mengumpulkan model sistem kotak pasir, meningkatkan model besar daripada alkimia kepada tahap sains eksperimen, dan secara teori sentiasa mencari penyelesaian optimum untuk hiperparameter dan skala, seperti yang optimum Saiz kelompok, konfigurasi hiperparameter biasa kepada semua model saiz.

Pada masa ini, Wall-Facing Intelligence telah mengumpul sejumlah besar data berkualiti tinggi. Selepas keluaran semalam, Face Wall Intelligence menggunakan sumber terbuka siri model besar generasi baharunya sendiri (termasuk MiniCPM-SFT / DPOMiniCPM-V & MiniCPM-SFT / DPO-int4), serta resipi data untuk dua peringkat latihan MiniCPM untuk industri rujukan.

Alamat sumber terbuka (termasuk laporan teknikal):

MiniCPM GitHub: https://github.com/OpenBMB/MiniCPM

OmniLMM GitHub: https://github.com/OpenBMB/OmniLMM

origin-facing intelligence daripada Tsinghua NLP Makmal ini merupakan salah satu pasukan terawal yang menjalankan penyelidikan model besar di China Pada 2018, ia mengeluarkan model pra-latihan pertama di dunia ERNIE berdasarkan panduan pengetahuan. Face Wall Intelligence, yang memulakan operasi korporat pada Ogos 2022, mengalami dua pusingan pembiayaan tahun lepas, dan aplikasinya "Mian Wall Luka" turut menerima kumpulan kedua pendaftaran model besar daripada Pentadbiran Ruang Siber China.

Pada masa ini, Wall-Facing Intelligence telah menubuhkan pasukan penyelidikan saintifik lebih daripada 100 orang, 80% daripadanya berasal dari Qingbei, dengan purata umur 28 tahun.

Prestasi parameter 2B melebihi Mistral-7B: model sisi hujung berbilang modal pintar menghadap dinding sumber terbuka

Wall-face Intelligence sedang membina strategi dwi-enjin model besar + ejen, dengan harapan dapat membina penyelesaian berskala lebih kecil, lebih pantas dan kos lebih rendah.

Tahun ini, Wall-Facing Intelligence juga akan mempercepatkan lelaran teknologi baharu. "Kami akan terus mengeluarkan versi baharu MiniCPM selepas Festival Musim Bunga, dan prestasinya akan dipertingkatkan lagi. Kami mahu memberi rehat kepada semua orang semasa Festival Musim Bunga," kata Liu Zhiyuan.

Atas ialah kandungan terperinci Prestasi parameter 2B melebihi Mistral-7B: model sisi hujung berbilang modal pintar menghadap dinding sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam