Rumah >Peranti teknologi >AI >Didedahkan: Step Star trilion MoE+ multi-modal model matriks besar diumumkan
Pada Persidangan Kepintaran Buatan Dunia 2024, ramai orang berbaris di hadapan gerai hanya untuk membiarkan model AI besar "mengatur" tugas untuk mereka di syurga. .
"Atur" tugas syurga mengikut jenis personaliti
Kaedah pengalaman:Pengalaman interaktif AI "AI + Havoc in Heaven" dengan kerjasama Shanghai Film Studio hanyalah pembuka selera untuk Stepping Stars untuk mempamerkan daya tarikan model besar. Semasa WAIC, mereka dengan hebatnya melancarkan langkah besar berikut:
Penjanaan imej dalam "AI + Upheaval in Heaven" dilengkapkan oleh model Step-1X, yang dioptimumkan secara mendalam untuk unsur Cina dan mempunyai penjajaran semantik dan keupayaan mengikuti arahan yang sangat baik.
Step Star telah mewujudkan matriks model besar yang lengkap meliputi trilion parameter model besar MoE dan model besar berbilang modal, menjadi eselon pertama syarikat permulaan model besar
. Ini disebabkan oleh kegigihan mereka dalam Undang-undang Penskalaan dan teknologi yang sepadan serta kekuatan sumber.Model besar parameter
Step-2 trilion
dilatih dari awal akan meningkatkan keupayaan penaakulan model dengan ketara dalam bidang seperti matematik dan pengaturcaraan. Langkah-2 boleh menyelesaikan masalah logik dan pengaturcaraan matematik yang lebih kompleks daripada model peringkat 100 bilion, dan telah disahkan secara kuantitatif oleh penilaian penanda aras.Selain itu, keupayaan bahasa Cina dan Inggeris serta kebolehan mengikuti arahan juga telah dipertingkatkan dengan ketara.
Sebab mengapa Langkah-2 menunjukkan prestasi yang baik adalah, dalam satu pihak, bilangan parameternya yang besar, dan sebaliknya, kaedah latihannya.
Kami tahu bahawa terdapat dua cara utama untuk melatih model KPM. Salah satunya ialah kitaran atas, iaitu untuk meningkatkan lagi prestasi model dengan cara yang lebih cekap dan menjimatkan dengan menggunakan semula hasil perantaraan proses latihan atau model yang telah dilatih. Kaedah latihan ini memerlukan kuasa pengkomputeran yang rendah dan mempunyai kecekapan latihan yang tinggi, tetapi model terlatih selalunya mempunyai had atas yang lebih rendah. Sebagai contoh, apabila melatih model KPM, jika beberapa model pakar diperoleh dengan menyalin dan memperhalusi model asas yang sama, mungkin terdapat tahap persamaan yang tinggi antara model pakar ini akan mengehadkan peningkatan prestasi model KPM ruang.
Memandangkan batasan ini, Step Stars memilih pendekatan lain - penyelidikan dan pembangunan dan latihan yang bebas sepenuhnya dari awal. Walaupun kaedah ini sukar untuk dilatih dan menggunakan banyak kuasa pengkomputeran, ia boleh mencapai had atas model yang lebih tinggi.
Secara khusus, mereka mula-mula membuat beberapa inovasi dalam reka bentuk seni bina MoE, termasuk perkongsian parameter oleh beberapa pakar, reka bentuk pakar heterogen, dsb. Yang pertama memastikan bahawa keupayaan umum tertentu dikongsi di kalangan berbilang pakar, tetapi pada masa yang sama setiap pakar masih mengekalkan keunikannya. Yang terakhir ini meningkatkan kepelbagaian dan prestasi keseluruhan model dengan mereka bentuk pelbagai jenis model pakar supaya setiap pakar mempunyai kelebihan unik pada tugas tertentu.
Berdasarkan inovasi ini, Langkah-2 bukan sahaja mempunyai jumlah parameter yang mencapai tahap trilion, tetapi juga bilangan parameter yang diaktifkan untuk setiap latihan atau inferens melebihi kebanyakan model padat di pasaran.
Selain itu, melatih model trilion parameter dari awal juga merupakan ujian besar untuk pasukan sistem. Nasib baik, pasukan Step Star System mempunyai pengalaman praktikal yang kaya dalam pembinaan dan pengurusan sistem, yang membolehkan mereka berjaya menembusi teknologi utama seperti selari 6D, pengurusan memori video yang melampau dan operasi dan penyelenggaraan automatik sepenuhnya semasa proses latihan, dan berjaya disiapkan. Langkah-2. Model besar berbilang modal Step-1.5V berdiri di atas bahu Step-2
Tiga bulan lalu, Step Star mengeluarkan model besar berbilang modal Step-1V. Baru-baru ini, dengan keluaran versi rasmi Langkah-2, model berbilang modal besar ini juga telah dinaik taraf kepada versi 1.5.
Langkah-1.5V tertumpu terutamanya pada keupayaan pemahaman pelbagai mod. Berbanding dengan versi sebelumnya, keupayaan persepsinya telah dipertingkatkan dengan banyaknya. Ia boleh memahami carta dan carta alir yang kompleks, melihat dengan tepat kedudukan geometri kompleks dalam ruang fizikal, dan juga boleh memproses imej nisbah aspek yang melampau.
Seperti yang dinyatakan sebelum ini, Langkah-2 memainkan peranan yang sangat diperlukan dalam kelahiran Langkah-1.5V. Ini bermakna semasa proses latihan RLHF (pembelajaran pengukuhan berdasarkan maklum balas manusia) Langkah-1, Langkah-2 digunakan sebagai model yang diselia, yang bersamaan dengan Langkah-1.5V yang mempunyai satu trilion parameter menjadi guru. Di bawah bimbingan guru ini, keupayaan penaakulan Langkah-1.5V telah dipertingkatkan dengan banyak, dan ia boleh melaksanakan pelbagai tugasan penaakulan lanjutan berdasarkan kandungan imej, seperti menyelesaikan masalah matematik, menulis kod, mengarang puisi, dsb. Ini juga merupakan salah satu keupayaan yang ditunjukkan oleh OpenAI GPT-4o baru-baru ini Keupayaan ini telah menjadikan dunia luar penuh dengan jangkaan untuk prospek aplikasinya.
Keupayaan penjanaan pelbagai modal ditunjukkan terutamanya dalam model baharu Step-1X. Berbanding dengan beberapa model yang serupa, ia mempunyai penjajaran semantik dan keupayaan mengikut arahan yang lebih baik Pada masa yang sama, ia telah dioptimumkan secara mendalam untuk unsur Cina dan lebih sesuai untuk gaya estetik orang Cina.Pengalaman interaktif AI "Havoc in Heaven" yang dicipta berdasarkan model ini menyepadukan pemahaman imej, pemindahan gaya, penjanaan imej, penciptaan plot dan keupayaan lain, dengan kaya dan tiga dimensi yang menunjukkan pelbagai modaliti peneraju industri Tahap Bintang Langkah. Sebagai contoh, apabila menjana aksara awal, sistem akan terlebih dahulu menentukan sama ada foto yang dimuat naik oleh pengguna memenuhi keperluan untuk "mencubit muka", dan kemudian secara fleksibel memberi maklum balas dalam gaya bahasa yang sangat "Kekacauan di Syurga". Ini mencerminkan keupayaan pemahaman gambar model dan keupayaan model bahasa yang besar. Dengan sokongan teknologi model besar, permainan ini membolehkan pemain memperoleh pengalaman interaktif yang berbeza daripada permainan tradisional H5 dalam talian. Oleh kerana semua soalan interaktif, imej pengguna dan hasil analisis dijana oleh model selepas mempelajari ciri dalam masa nyata, kemungkinan beribu-ribu orang dan muka serta plot tanpa had benar-benar direalisasikan.
Persembahan cemerlang ini tidak dapat dipisahkan daripada seni bina model DiT yang dibangunkan oleh Stepstar Full Link (Sora OpenAI juga merupakan seni bina DiT). Untuk membolehkan lebih ramai orang menggunakan model ini, Step Star telah mereka bentuk tiga kuantiti parameter berbeza untuk Step-1X: 600M, 2B dan 8B untuk memenuhi keperluan senario kuasa pengkomputeran yang berbeza.
Pada acara sulung pada bulan Mac, Jiang Daxin, pengasas Step Star, dengan jelas menyatakan bahawa dia percaya bahawa evolusi model besar akan melalui tiga peringkat:Ini juga laluan yang Jiang Daxin dan yang lain ikuti sejak awal perniagaan mereka. Di jalan ini, "Tillions of parameters" dan "multi-mod fusion" sangat diperlukan Step-2, Step-1.5V, dan Step-1X adalah semua nod yang telah dicapai di jalan ini.
Selain itu, nod ini disambungkan satu demi satu. Ambil OpenAI sebagai contoh Model penjanaan video Sora yang dikeluarkan pada awal tahun menggunakan alat dalaman OpenAI (kemungkinan besar GPT-4V) untuk anotasi dan GPT-4V dilatih berdasarkan teknologi berkaitan GPT-4. Dari sudut pandangan semasa, keupayaan berkuasa model-modal tunggal akan meletakkan asas untuk pelbagai modaliti akan meletakkan asas untuk penjanaan. Bergantung pada matriks model sedemikian, OpenAI menyedari kaki kiri memijak kaki kanan. Dan Step Star mengesahkan laluan ini di China.
Kami berharap syarikat ini membawa lebih banyak kejutan kepada bidang model besar domestik.
Atas ialah kandungan terperinci Didedahkan: Step Star trilion MoE+ multi-modal model matriks besar diumumkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!