Tencent Hunyuan は、多数の一般的なタスクを解決できる MoE アーキテクチャは、マルチモーダルな理解シナリオにとっても最適な選択であると信じています。 MoE は、より多くのモダリティやタスクとの互換性が向上し、さまざまなモダリティやタスクが競合するのではなく相互に強化されるようになります。
Tencent Hunyuan の大規模言語モデルの機能に依存して、Tencent Hunyuan は MoE アーキテクチャに基づいた大規模なマルチモーダル理解モデルを立ち上げ、アーキテクチャ、トレーニング方法、データの面で革新と徹底的な最適化を行いました。処理が強化され、パフォーマンスが大幅に向上しました。これは、中国の教育省アーキテクチャに基づいた初のマルチモーダル大型モデルでもあります。
模 Tencent rajah skema seni bina model multi-modal elemen campuran Di samping menggunakan seni bina berbilang MOE, reka bentuk elemen - Tencent mengikut mudah dan munasabah , Prinsip kebolehskalaan:
Menyokong resolusi arbitrari asli: Berbanding dengan kaedah resolusi tetap arus perdana atau kaedah subgraf, model berbilang modal hibrid Tencent boleh memproses imej asli bagi mana-mana resolusi yang pertama model berbilang modal untuk menyokong pemahaman imej dengan resolusi melebihi 7K dan sebarang nisbah aspek (cth. 16:1, lihat contoh di bawah).
-
Menggunakan penyesuai MLP ringkas: Berbanding dengan penyesuai Q-bekas arus perdana sebelumnya, penyesuai MLP kurang kehilangan semasa penghantaran maklumat.
Reka bentuk ringkas ini memudahkan untuk mengembangkan dan menskalakan model dan data.
SuperClue-V menduduki tempat pertama dalam senarai domestikPada Ogos 2024, SuperCLUE mengeluarkan senarai penilaian pemahaman pelbagai mod buat kali pertama - SuperClue-V.
Tanda aras SuperCLUE-V merangkumi dua arah umum: keupayaan asas dan keupayaan aplikasi Ia menilai model besar berbilang modal dalam bentuk soalan terbuka, termasuk 8 dimensi peringkat pertama dan 30 dimensi peringkat kedua.
Dalam penilaian ini, sistem pemahaman multi-modal Hunyuan hunyuan-vision mencapai markah 71.95, kedua selepas GPT-4o. Dari segi aplikasi berbilang modal, hunyuan-vision mendahului Claude3.5-Sonnet dan Gemini-1.5-Pro.
Perlu diingat bahawa penilaian pelbagai mod dalam industri sebelum ini kebanyakannya tertumpu pada penguasaan bahasa Inggeris, dan kebanyakan soalan penilaian adalah soalan aneka pilihan atau benar-salah. Penilaian SuperCLUE-V lebih memfokuskan kepada penilaian kecekapan bahasa Cina dan memfokuskan kepada masalah sebenar pengguna. Di samping itu, kerana ini adalah keluaran pertama, overfitting masih belum berlaku.
Tencent Hunyuan Graphics and Text Large Model menunjukkan prestasi yang baik dalam pelbagai dimensi seperti adegan umum, pengecaman dan pemahaman OCR imej, dan pemahaman dan penaakulan unsur Cina, dan juga mencerminkan potensi model dalam aplikasi masa hadapan .
Ditujukan untuk senario aplikasi umum
Model pemahaman multi-modal elemen campuran dioptimumkan untuk senario umum dan aplikasi besar-besaran, dan mempunyai berpuluh-puluh soalan asas dan jawapan yang terkumpul pemahaman imej, penciptaan kandungan, Ia boleh digunakan dalam banyak senario seperti analisis penaakulan, soal jawab pengetahuan, analisis dokumen OCR, dan menjawab subjek. Berikut adalah beberapa contoh aplikasi biasa.
Di sini ada contoh yang lebih tipikal:
Convert imej ke dalam jadual teks:
plain sekeping kod:
Analyze rang undang -undang:
description Kandungan gambar:
Buat masalah matematik:
Analisis berdasarkan kandungan gambar:
Bantu anda menulis salinan:
Pada masa ini, model besar pemahaman pelbagai mod Hunyuan Tencent telah dilancarkan dalam produk pembantu AI Tencent Yuanbao, dan terbuka kepada perusahaan dan pembangun individu melalui Tencent Cloud.
Alamat Tencent Yuanbao: https://yuanbao.tencent.com/chat
Atas ialah kandungan terperinci Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!