Rumah >Peranti teknologi >AI >Universiti Tsinghua dan sumber terbuka Zhipu AI GLM-4: melancarkan revolusi baharu dalam pemprosesan bahasa semula jadi

Universiti Tsinghua dan sumber terbuka Zhipu AI GLM-4: melancarkan revolusi baharu dalam pemprosesan bahasa semula jadi

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBasal: 2024-06-12 20:38:021173semak imbas

Sejak pelancaran ChatGLM-6B pada 14 Mac 2023, model siri GLM telah mendapat perhatian dan pengiktirafan yang meluas. Terutama selepas ChatGLM3-6B menjadi sumber terbuka, pembangun penuh dengan jangkaan untuk model generasi keempat yang dilancarkan oleh Zhipu AI. Jangkaan ini akhirnya telah berpuas hati sepenuhnya dengan keluaran GLM-4-9B.

Kelahiran GLM-4-9B

Untuk memberikan model kecil (10B ke bawah) keupayaan yang lebih berkuasa, pasukan teknikal GLM melancarkan model sumber terbuka siri GLM generasi keempat baharu ini selepas hampir setengah tahun penerokaan :GLM-4-9B. Model ini sangat memampatkan saiz model sambil memastikan ketepatan, dan mempunyai kelajuan inferens yang lebih pantas dan kecekapan yang lebih tinggi. Tiada penghujung penerokaan pasukan teknikal GLM, dan kami akan terus bekerja keras untuk melancarkan sumber terbuka yang lebih kompetitif

teknologi pra-latihan yang inovatif

Semasa proses pra-latihan, kami memperkenalkan model bahasa yang besar untuk saringan data, dan akhirnya memperoleh data Berbilang bahasa berkualiti tinggi 10T. Jumlah data ini adalah lebih daripada tiga kali ganda daripada model ChatGLM3-6B. Selain itu, kami menggunakan teknologi FP8 untuk pra-latihan yang cekap, yang meningkatkan kecekapan latihan sebanyak 3.5 kali berbanding model generasi ketiga. Dengan mengambil kira keperluan storan pengguna, saiz parameter GLM-4-9B telah dinaikkan daripada 6B kepada 9B. Akhirnya, kami meningkatkan pengiraan pra-latihan sebanyak 5 kali untuk memaksimumkan keupayaan prestasi di bawah keadaan penyimpanan terhad. . dan kelebihan lain. Peningkatan ini memberikan pengguna sokongan teknikal yang lebih stabil, lebih dipercayai dan lebih tepat serta meningkatkan kecekapan dan kualiti kerja pengguna.

Siri GLM-4-9B termasuk berbilang versi:

Versi asas: GLM-4-9B (8K) Versi perbualan: GLM-4-9B-Chat (128K)

Versi lebih panjang: GLM-4-9B-Chat-1M (1M)

Keupayaan berkuasa GLM-4-9B
Baik

Berdasarkan pra-latihan yang kukuh, penguasaan bahasa Cina dan Inggeris yang komprehensif GLM-4-9B telah meningkat sebanyak 40% berbanding ChatGLM3-6B. Khususnya, peningkatan ketara telah dicapai dalam keupayaan penjajaran Cina AlignBench, keupayaan pematuhan perintah IFeval, dan keupayaan pemprosesan kod kejuruteraan Natural Code Bench. Walaupun apabila membandingkan model Llama 3 8B dengan volum latihan yang lebih banyak, GLM-4-9B sama sekali tidak kalah dan mendahului dalam prestasi Bahasa Inggeris Dalam bidang mata pelajaran Bahasa Cina, GLM-4-9B telah meningkat sehingga 50% [Prestasi. Carta penilaian].

Keupayaan pemprosesan teks panjang

Gambar

Panjang konteks model GLM-4-9B+ telah dilanjutkan daripada 128K kepada 1M token, yang bermaksud ia boleh memproses input sehingga 2 juta perkataan masa yang sama, yang bersamaan dengan dua buku "Dream of Red Mansions" ” atau panjang 125 kertas akademik. Model GLM-4-9B-Chat-1M berjaya menunjukkan keupayaan cemerlangnya untuk memproses input teks panjang tanpa merosakkan dalam eksperimen "jarum dalam timbunan jerami" [ilustrasi percubaan teks panjang].

Berikut ialah dua kes video demo yang menunjukkan keupayaan pemprosesan teks panjang: 清华大学与智谱AI重磅开源 GLM-4：掀起自然语言处理新革命

GLM-4-9B-Model Sembang:

Input 5 fail PDF dengan jumlah panjang kira-kira 128K, dan tulis artikel tentang Prompt for laporan penyelidikan terperinci mengenai pembangunan model besar di China. Model ini boleh menjana laporan penyelidikan berkualiti tinggi dengan cepat (video tidak dipercepatkan).

GLM-4-9B-Chat-1M Model: Masukkan kira-kira 900,000 perkataan dalam koleksi lengkap "The Three-Body Problem" dan minta model menulis rangka sekuel untuk novel tersebut. Model ini dirancang dengan munasabah dan menyediakan rangka kerja kesinambungan (video dipercepatkan 10 kali).
Sokongan berbilang bahasaGLM-4-9B+ menyokong sehingga 26 bahasa, termasuk bahasa Cina, Inggeris, Rusia, dll. Kami mengembangkan saiz perbendaharaan kata tokenizer daripada 65K kepada 150K, meningkatkan kecekapan pengekodan sebanyak 30%. Dalam tugas pemahaman dan penjanaan berbilang bahasa, GLM-4-9B-Chat mengatasi prestasi Llama-3-8B-Instruct [carta perbandingan prestasi berbilang bahasa].

Keupayaan Panggilan Fungsi

Keupayaan panggilan fungsi GLM-4-9B telah meningkat sebanyak 40% berbanding generasi sebelumnya Pada Papan Pendahulu Panggilan Fungsi Berkeley, keupayaan Panggilan Fungsinya adalah setanding dengan GPT-4 [Prestasi Panggilan Fungsi. Carta perbandingan].

All Tools Full Tools Call

Keupayaan "All Tools" bermakna model boleh memahami dan menggunakan pelbagai alatan luaran (seperti pelaksanaan kod, penyemakan imbas rangkaian, lukisan, dll.) untuk membantu menyelesaikan tugasan. Pada Zhipu DevDay pada 16 Januari, model GLM-4 telah dinaik taraf sepenuhnya dengan keupayaan Semua Alat, yang boleh memanggil penyemak imbas web, jurubahasa kod, CogView dan alatan lain secara bijak untuk menyelesaikan permintaan yang rumit [ikon tugas Semua Alat].

Pemprosesan berbilang modal

GLM-4V-9B, model berbilang modal sumber terbuka berdasarkan GLM-4, mampu memproses input resolusi tinggi, mencampurkan terus data visual dan teks untuk latihan, menunjukkan luar biasa Kesan pemprosesan berbilang modal adalah bersamaan dengan prestasi GPT-4V. Ia berfungsi dengan baik apabila mengenal pasti dan memproses tugas berbilang modal yang kompleks [gambar rajah contoh aplikasi berbilang modal].

清华大学与智谱AI重磅开源 GLM-4：掀起自然语言处理新革命 Pictures

Tinjauan Masa Depan

GLM-4-9B telah menunjukkan prestasi hebatnya dalam pelbagai tugas dan merupakan satu kejayaan dalam bidang pemprosesan bahasa semula jadi. Sama ada penyelidikan akademik atau aplikasi industri, GLM-4-9B akan menjadi pilihan terbaik anda.

Kami dengan ikhlas menjemput anda untuk menyertai barisan pengguna GLM-4 dan menerokai kemungkinan yang dibawa oleh model yang sangat baik ini:

Repositori GitHub
Halaman model Memeluk Wajah
Komuniti Ajaib

Atas ialah kandungan terperinci Universiti Tsinghua dan sumber terbuka Zhipu AI GLM-4: melancarkan revolusi baharu dalam pemprosesan bahasa semula jadi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

function github gpt llama prompt

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：7B? 13B? 175B? Mentafsir parameter model besarArtikel seterusnya：7B? 13B? 175B? Mentafsir parameter model besar

Artikel berkaitan

Lihat lagi