VisCPM model besar berbilang modal Cina yang menghadap dinding menghadap dinding Universiti Tsinghua: menyokong teks dan imej dialog generasi dua hala, serta mempunyai keupayaan puisi dan lukisan yang menakjubkan

VisCPM model besar berbilang modal Cina yang menghadap dinding menghadap dinding Universiti Tsinghua: menyokong teks dan imej dialog generasi dua hala, serta mempunyai keupayaan puisi dan lukisan yang menakjubkan

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 03, 2023 pm 06:21 PM

aiModel

CPM-1 yang dikeluarkan pada Disember 2020 ialah model besar China yang pertama di China; CPM-Ant yang dikeluarkan pada September 2022 boleh mengatasi kesan penalaan halus parameter penuh dengan hanya memperhalusi 0.06% daripada parameter WebCPM yang dikeluarkan pada Mei 2023 ialah Bahasa Cina Model Soal Jawab berasaskan carian sumber terbuka pertama. Model besar CPM-Bee 10 bilion ialah model asas terbaru yang dikeluarkan oleh pasukan Kebolehannya dalam bahasa Cina mendahului senarai berwibawa ZeroCLUE, dan kebolehan bahasa Inggerisnya menyamai LLaMA.

Berulang kali membuat pencapaian cemerlang, siri CPM model besar telah mendahului model besar domestik untuk naik ke puncak, dan VisCPM yang dikeluarkan baru-baru ini adalah satu lagi bukti! VisCPM ialah siri model besar berbilang modal yang disumberkan secara terbuka bersama oleh Wallface Intelligence, Makmal NLP Universiti Tsinghua dan Zhihu dalam OpenBMB Antaranya, model VisCPM-Chat menyokong keupayaan dialog multi-modal dwibahasa Cina dan Inggeris, dan VisCPM-Paint. model menyokong teks kepada keupayaan penjanaan Graf, penilaian menunjukkan bahawa VisCPM mencapai tahap terbaik dalam kalangan model sumber terbuka berbilang mod Cina.

VisCPM dilatih berdasarkan berpuluh bilion model asas parameter CPM-Bee, dan menyepadukan pengekod visual (Q-Former dan penyahkod visual (Diffusion-UNet) untuk menyokong input dan output isyarat visual. Terima kasih kepada CPM-Bee Dengan keupayaan dwibahasa yang sangat baik di pangkalan, VisCPM boleh dilatih terlebih dahulu dengan hanya data berbilang modal Bahasa Inggeris dan digeneralisasikan untuk mencapai keupayaan berbilang modal bahasa Cina yang sangat baik

清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳 Rajah seni bina ringkas VisCPM

Mari lihat lebih dekat VisCPM-Chat. Di manakah lembu dengan VisCPM-Paint

清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳 Pictures

VisCPM-Paint: https://gitBMB.com

VisCPM-Chat menyokong pemprosesan dwibahasa berorientasikan imej dalam dialog berbilang modal Model menggunakan Q-Former sebagai pengekod visual, menggunakan CPM-Bee (10B) sebagai model asas interaksi bahasa dan menggabungkan visual. dan model bahasa melalui sasaran latihan model bahasa termasuk latihan pra-latihan dan penalaan halus arahan

Pasukan menggunakan kira-kira

100M data imej dan teks bahasa Inggeris untuk pra-latihan VisCPM-Chat. , CC12M, COCO, Genom Visual, Laion, dsb. dalam pra-latihan Dalam peringkat ini, parameter model bahasa kekal dan hanya beberapa parameter Q-Former dikemas kini untuk menyokong penjajaran yang cekap bagi perwakilan bahasa visual berskala besar. . Pasukan itu kemudiannya memperhalusi arahan VisCPM-Chat,

menggunakan LLaVA-150K English data penalaan halus

, dan mencampurkan data terjemahan bahasa Cina yang sepadan untuk memperhalusi model untuk menyelaraskan berbilang model. -keupayaan asas mod dan niat penggunaan pengguna Dalam peringkat penalaan halus, mereka mengemas kini semua parameter model untuk meningkatkan kecekapan penggunaan data penalaan halus. data digunakan untuk penalaan halus arahan, model itu boleh memahami soalan bahasa Cina, tetapi hanya boleh menjawab dalam bahasa Inggeris Ini menunjukkan bahawa model itu berbilang bahasa Keupayaan modal telah digeneralisasikan dengan baik dalam peringkat penalaan halus arahan, bahasa respons model dan bahasa soalan pengguna boleh diselaraskan dengan set ujian Bahasa Inggeris LLaVA dan ujian Bahasa Cina yang diterjemahkan Penanda aras penilaian mengkaji prestasi model dalam dialog domain terbuka, penerangan terperinci imej dan penaakulan yang kompleks, dan menggunakan GPT-4 untuk pemarkahan Dapat diperhatikan bahawa VisCPM-Chat mempunyai keupayaan berbilang modal Cina yang sangat baik Mencapai prestasi purata terbaik , berprestasi baik dalam dialog domain umum dan penaakulan yang kompleks, dan juga menunjukkan bahasa Inggeris yang baik. keupayaan pelbagai modal

VisCPM-Chat menyediakan dua versi model, masing-masing VisCPM -Chat-balance dan VisCPM-Chat-zhplus, Yang pertama mempunyai keupayaan yang lebih seimbang dalam bahasa Inggeris dan Cina, manakala yang kedua lebih menonjol dalam. kebolehan Cina. Kedua-dua model menggunakan data yang sama dalam fasa penalaan halus arahan VisCPM-Chat-zhplus menambah data pasangan imej-teks Cina asli yang dibersihkan dan 120M diterjemahkan data pasangan teks-imej dalam fasa pra-latihan.

Gambar

Berikut ialah demonstrasi keupayaan dialog pelbagai mod VisCPM-Chat Ia bukan sahaja dapat mengenali peta kawasan tertentu, tetapi juga membaca grafiti dan poster filem, malah mengenali logo Starbucks. Lebih-lebih lagi, saya sangat dwibahasa dalam bahasa Cina dan Inggeris!