cari
RumahPeranti teknologiAIVisCPM model besar berbilang modal Cina yang menghadap dinding menghadap dinding Universiti Tsinghua: menyokong teks dan imej dialog generasi dua hala, serta mempunyai keupayaan puisi dan lukisan yang menakjubkan

CPM-1 yang dikeluarkan pada Disember 2020 ialah model besar China yang pertama di China; CPM-Ant yang dikeluarkan pada September 2022 boleh mengatasi kesan penalaan halus parameter penuh dengan hanya memperhalusi 0.06% daripada parameter WebCPM yang dikeluarkan pada Mei 2023 ialah Bahasa Cina Model Soal Jawab berasaskan carian sumber terbuka pertama. Model besar CPM-Bee 10 bilion ialah model asas terbaru yang dikeluarkan oleh pasukan Kebolehannya dalam bahasa Cina mendahului senarai berwibawa ZeroCLUE, dan kebolehan bahasa Inggerisnya menyamai LLaMA.

Berulang kali membuat pencapaian cemerlang, siri CPM model besar telah mendahului model besar domestik untuk naik ke puncak, dan VisCPM yang dikeluarkan baru-baru ini adalah satu lagi bukti! VisCPM ialah siri model besar berbilang modal yang disumberkan secara terbuka bersama oleh Wallface Intelligence, Makmal NLP Universiti Tsinghua dan Zhihu dalam OpenBMB Antaranya, model VisCPM-Chat menyokong keupayaan dialog multi-modal dwibahasa Cina dan Inggeris, dan VisCPM-Paint. model menyokong teks kepada keupayaan penjanaan Graf, penilaian menunjukkan bahawa VisCPM mencapai tahap terbaik dalam kalangan model sumber terbuka berbilang mod Cina.

VisCPM dilatih berdasarkan berpuluh bilion model asas parameter CPM-Bee, dan menyepadukan pengekod visual (Q-Former dan penyahkod visual (Diffusion-UNet) untuk menyokong input dan output isyarat visual. Terima kasih kepada CPM-Bee Dengan keupayaan dwibahasa yang sangat baik di pangkalan, VisCPM boleh dilatih terlebih dahulu dengan hanya data berbilang modal Bahasa Inggeris dan digeneralisasikan untuk mencapai keupayaan berbilang modal bahasa Cina yang sangat baik

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳Rajah seni bina ringkas VisCPM

Mari lihat lebih dekat VisCPM-Chat. Di manakah lembu dengan VisCPM-Paint

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳Pictures

VisCPM-Paint: https://gitBMB.com

VisCPM-Chat menyokong pemprosesan dwibahasa berorientasikan imej dalam dialog berbilang modal Model menggunakan Q-Former sebagai pengekod visual, menggunakan CPM-Bee (10B) sebagai model asas interaksi bahasa dan menggabungkan visual. dan model bahasa melalui sasaran latihan model bahasa termasuk latihan pra-latihan dan penalaan halus arahan

Pasukan menggunakan kira-kira

100M data imej dan teks bahasa Inggeris untuk pra-latihan VisCPM-Chat. , CC12M, COCO, Genom Visual, Laion, dsb. dalam pra-latihan Dalam peringkat ini, parameter model bahasa kekal dan hanya beberapa parameter Q-Former dikemas kini untuk menyokong penjajaran yang cekap bagi perwakilan bahasa visual berskala besar. . Pasukan itu kemudiannya memperhalusi arahan VisCPM-Chat,

menggunakan LLaVA-150K English data penalaan halus

, dan mencampurkan data terjemahan bahasa Cina yang sepadan untuk memperhalusi model untuk menyelaraskan berbilang model. -keupayaan asas mod dan niat penggunaan pengguna Dalam peringkat penalaan halus, mereka mengemas kini semua parameter model untuk meningkatkan kecekapan penggunaan data penalaan halus. data digunakan untuk penalaan halus arahan, model itu boleh memahami soalan bahasa Cina, tetapi hanya boleh menjawab dalam bahasa Inggeris Ini menunjukkan bahawa model itu berbilang bahasa Keupayaan modal telah digeneralisasikan dengan baik dalam peringkat penalaan halus arahan, bahasa respons model dan bahasa soalan pengguna boleh diselaraskan dengan set ujian Bahasa Inggeris LLaVA dan ujian Bahasa Cina yang diterjemahkan Penanda aras penilaian mengkaji prestasi model dalam dialog domain terbuka, penerangan terperinci imej dan penaakulan yang kompleks, dan menggunakan GPT-4 untuk pemarkahan Dapat diperhatikan bahawa VisCPM-Chat mempunyai keupayaan berbilang modal Cina yang sangat baik Mencapai prestasi purata terbaik , berprestasi baik dalam dialog domain umum dan penaakulan yang kompleks, dan juga menunjukkan bahasa Inggeris yang baik. keupayaan pelbagai modal

VisCPM-Chat menyediakan dua versi model, masing-masing VisCPM -Chat-balance dan VisCPM-Chat-zhplus, Yang pertama mempunyai keupayaan yang lebih seimbang dalam bahasa Inggeris dan Cina, manakala yang kedua lebih menonjol dalam. kebolehan Cina. Kedua-dua model menggunakan data yang sama dalam fasa penalaan halus arahan VisCPM-Chat-zhplus menambah data pasangan imej-teks Cina asli yang dibersihkan dan 120M diterjemahkan data pasangan teks-imej dalam fasa pra-latihan.

Gambar

Berikut ialah demonstrasi keupayaan dialog pelbagai mod VisCPM-Chat Ia bukan sahaja dapat mengenali peta kawasan tertentu, tetapi juga membaca grafiti dan poster filem, malah mengenali logo Starbucks. Lebih-lebih lagi, saya sangat dwibahasa dalam bahasa Cina dan Inggeris!


清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

Mari lihat VisCPM-Paint, yang menyokong penjanaan teks-ke-imej dwibahasa dalam bahasa Cina dan Inggeris. Model menggunakan CPM-Bee (10B) sebagai pengekod teks, UNet sebagai penyahkod imej, dan menyasarkan bahasa bercantum dan model visual melalui latihan model penyebaran.

Semasa proses latihan, parameter model bahasa sentiasa kekal tetap. Mulakan penyahkod visual menggunakan parameter UNet bagi Stable Diffusion 2.1 dan gabungkannya dengan model bahasa dengan secara beransur-ansur menyahbekukan parameter penyambung utamanya: mula-mula melatih lapisan linear pemetaan perwakilan teks kepada model visual, dan kemudian menyahbekukan perhatian silang. lapisan UNet. Model ini dilatih pada data teks imej Inggeris Laion 2B.

Sama seperti VisCPM-Paint, terima kasih kepada keupayaan dwibahasa model asas CPM-Bee, VisCPM-Paint boleh dilatih hanya melalui pasangan imej dan teks bahasa Inggeris dan digeneralisasikan untuk mencapai keupayaan penjanaan teks-ke-imej Cina yang baik , mencapai model sumber Terbuka Cina pada tahap terbaik mereka. Dengan menambahkan lagi 20M data pasangan imej-teks Cina asli yang telah dibersihkan dan 120M data pasangan teks-imej yang diterjemahkan ke dalam bahasa Cina, keupayaan penjanaan teks-ke-imej Cina model itu telah dipertingkatkan lagi. Begitu juga, VisCPM-Paint mempunyai dua versi berbeza: keseimbangan dan zhplus. Mereka mengambil sampel 30,000 imej pada set ujian penjanaan imej standard MSCOCO, dan mengira metrik penjanaan imej penilaian yang biasa digunakan FID (Jarak Permulaan Fréchet) untuk menilai kualiti imej yang dijana.

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

Masukkan dua gesaan ke dalam model VisCPM-Paint: "Bulan terang terbit di laut, dunia pada masa ini, gaya estetik, gaya abstrak" dan "Orang terbiar, osmanthus jatuh, bulan sunyi di langit musim bunga", dan dua berikut dihasilkan. Gambar:

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

(masih ada ruang untuk penambahbaikan dalam kestabilan kesan penjanaan)

agak menakjubkan. Boleh jadi mengatakan bahawa ia dengan tepat memahami konsep seni puisi kuno Jika anda tidak memahami puisi pada masa hadapan, anda boleh terus menjana gambar untuk difahami. Jika digunakan dalam reka bentuk, ia boleh menjimatkan banyak tenaga kerja. Bukan sahaja anda boleh "melukis", menggunakan VisCPM-Chat, anda juga boleh "mendeklamasikan puisi": Gunakan gambar untuk mencari puisi secara terbalik. Sebagai contoh, saya boleh menggunakan puisi Li Bai untuk menerangkan dan mentafsir pemandangan Sungai Kuning, dan saya juga boleh menggunakan "Shui Tiao Ge Tou" Su Shi untuk meluahkan emosi saya apabila menghadapi Malam Bulan Pertengahan Musim Luruh.

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM bukan sahaja mempunyai hasil penjanaan yang baik, tetapi versi muat turun direka dengan teliti dan juga sangat mudah untuk dipasang dan digunakan.

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳VisCPM menyediakan versi model dengan keupayaan bahasa Cina dan Inggeris yang berbeza

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM menyediakan versi model dengan keupayaan berbilang bahasa Cina dan Inggeris untuk semua orang memuat turun dan memilih, dan langkah pemasangan adalah mudah boleh dilaksanakan dengan beberapa baris kod semasa penggunaan dialog Dinamik, dan semakan keselamatan untuk teks input dan imej output didayakan secara lalai dalam kod. (Lihat README untuk tutorial khusus) Pada masa hadapan, pasukan itu juga akan menyepadukan VisCPM ke dalam rangka kerja kod muka peluk, dan akan menambah baik model keselamatan secara beransur-ansur, menyokong penggunaan halaman web yang pantas, menyokong fungsi pengkuantifikasian model, menyokong penalaan halus dan lain-lain. Nantikan kemas kini!

Perlu dinyatakan bahawa Model siri VisCPM sangat dialu-alukan untuk kegunaan peribadi dan tujuan penyelidikan. Jika anda ingin menggunakan model untuk tujuan komersial, anda juga boleh menghubungi cpm@modelbest.cn untuk membincangkan hal pelesenan komersial.

Model tradisional memfokuskan pada pemprosesan data modal tunggal Maklumat dalam dunia nyata selalunya model besar berbilang modal meningkatkan keupayaan interaksi persepsi sistem kecerdasan buatan dan menyelesaikan masalah persepsi dan interaksi yang kompleks di dunia nyata. untuk AI. Memahami tugas membawa peluang baharu. Perlu dikatakan bahawa syarikat model besar yang berpangkalan di Tsinghua mempunyai keupayaan penyelidikan dan pembangunan perisikan yang menghadap ke dinding VisCPM model besar berbilang modal yang dikeluarkan bersama adalah hebat dan berprestasi hebat Kami menantikan hasil keluaran mereka yang seterusnya.

Atas ialah kandungan terperinci VisCPM model besar berbilang modal Cina yang menghadap dinding menghadap dinding Universiti Tsinghua: menyokong teks dan imej dialog generasi dua hala, serta mempunyai keupayaan puisi dan lukisan yang menakjubkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Cara Membina Pembantu AI Peribadi Anda Dengan Huggingface SmollmCara Membina Pembantu AI Peribadi Anda Dengan Huggingface SmollmApr 18, 2025 am 11:52 AM

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

AI untuk Kesihatan Mental dianalisis dengan penuh perhatian melalui inisiatif baru yang menarik di Stanford UniversityAI untuk Kesihatan Mental dianalisis dengan penuh perhatian melalui inisiatif baru yang menarik di Stanford UniversityApr 18, 2025 am 11:49 AM

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

Kelas Draf WNBA 2025 memasuki liga yang semakin meningkat dan melawan gangguan dalam talianKelas Draf WNBA 2025 memasuki liga yang semakin meningkat dan melawan gangguan dalam talianApr 18, 2025 am 11:44 AM

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Panduan Komprehensif untuk Struktur Data Terbina Python - Analytics VidhyaPanduan Komprehensif untuk Struktur Data Terbina Python - Analytics VidhyaApr 18, 2025 am 11:43 AM

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Tayangan pertama dari model baru Openai berbanding dengan alternatifTayangan pertama dari model baru Openai berbanding dengan alternatifApr 18, 2025 am 11:41 AM

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

AI Portfolio | Bagaimana untuk membina portfolio untuk kerjaya AI?AI Portfolio | Bagaimana untuk membina portfolio untuk kerjaya AI?Apr 18, 2025 am 11:40 AM

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

AI AI apa yang boleh dimaksudkan untuk operasi keselamatanAI AI apa yang boleh dimaksudkan untuk operasi keselamatanApr 18, 2025 am 11:36 AM

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Google Versus Openai: AI berjuang untuk pelajarGoogle Versus Openai: AI berjuang untuk pelajarApr 18, 2025 am 11:31 AM

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

SublimeText3 Linux versi baharu

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

PhpStorm versi Mac

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

MinGW - GNU Minimalis untuk Windows

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa