


HuggingFace: Dua alpaka disambung bersama selepas mengeluarkan kepala dan ekornya
Senarai kedudukan model besar sumber terbuka HuggingFace telah dihapuskan lagi.
Barisan hadapan diduduki secara eksklusif oleh versi SOLAR 10.7B yang ditala halus, memerah pelbagai versi yang ditala halus Mixtral 8x7B dari beberapa minggu yang lalu.
Apakah asal usul model SOLAR yang besar?
Kertas berkaitan baru sahaja dimuat naik ke ArXiv, daripada syarikat Korea Upstage AI, menggunakan kaedah pengembangan model besar baharu penskalaan kedalaman (DUS).
Ringkasnya, dua alpaka 7B dicubit dan ekornya, satu dipotong 8 lapisan pertama, dan satu lagi dipotong 8 lapisan terakhir.
Baki dua 24 lapisan dicantum bersama Lapisan ke-24 model pertama disambung dengan lapisan ke-9 model kedua, dan akhirnya menjadi model besar 48-lapisan 10.7B.
Makalah itu mendakwa bahawa kaedah baharu itu mengatasi kaedah sambungan tradisional seperti MoE, dan boleh menggunakan infrastruktur yang sama seperti model besar asas.
Tidak perlu modul tambahan seperti rangkaian berpagar, rangka kerja latihan dioptimumkan untuk KPM, dan tidak perlu menyesuaikan isirong CUDA untuk inferens pantas Ia boleh disepadukan dengan lancar ke dalam kaedah sedia ada sambil mengekalkan kecekapan.
Pasukan memilih Mistral 7B, model besar tunggal terkuat 7B, sebagai bahan asas, dan menggunakan kaedah baharu untuk menggabungkannya untuk mengatasi versi asal dan versi MoE.
Pada masa yang sama, versi Arahan sejajar juga mengatasi versi Arahan KPM yang sepadan.
Lakukan jahitan hingga habis
Kenapa kaedah penyambungan ini datang dari gerak hati.
Mulakan dengan kaedah pengembangan yang paling mudah, iaitu mengulang model besar asas 32 lapisan dua kali menjadi 64 lapisan.
Kelebihan ini ialah tiada heterogen, semua lapisan adalah dari model besar asas, tetapi lapisan 32 dan 33 (sama seperti lapisan 1) mempunyai lapisan " yang lebih besar di kelim Jarak”(jarak lapisan ).
Penyelidikan sebelum ini telah menunjukkan bahawa lapisan Transformer yang berbeza melakukan perkara yang berbeza Contohnya, lapisan yang lebih dalam adalah lebih baik dalam memproses konsep yang lebih abstrak.
Pasukan percaya bahawa jarak lapisan yang berlebihan boleh menghalang keupayaan model untuk menggunakan pemberat pra-latihan dengan berkesan.
Satu penyelesaian yang berpotensi adalah dengan mengorbankan lapisan tengah, dengan itu mengurangkan perbezaan pada jahitan, dan di sinilah kaedah DUS dilahirkan.
Berdasarkan pertukaran antara prestasi dan saiz model, pasukan memilih untuk memadam 8 lapisan daripada setiap model, dan jahitan ditukar daripada 32 lapisan kepada lapisan 1 kepada 24 lapisan kepada lapisan 9.
Prestasi model yang disambung ringkas akan tetap lebih rendah daripada model asas asal pada mulanya, tetapi ia boleh pulih dengan cepat selepas latihan pra berterusan.
Dalam fasa penalaan halus arahan, selain menggunakan set data sumber terbuka, kami juga mencipta set data yang dipertingkatkan secara matematik dan menggunakan DPO dalam fasa penjajaran.
Langkah terakhir ialah menimbang purata versi model yang dilatih menggunakan set data yang berbeza, yang juga merupakan penyiapan jahitan.
Sesetengah netizen mempersoalkan kemungkinan kebocoran data ujian. Pasukan
juga mengambil kira perkara ini dan secara khusus melaporkan keputusan ujian pencemaran data dalam lampiran kertas, yang menunjukkan tahap rendah.
Akhir sekali, kedua-dua model asas SOLAR 10.7B dan model yang diperhalusi adalah sumber terbuka di bawah lesen Apache 2.0.
Netizen yang telah mencubanya telah melaporkan bahawa ia berfungsi dengan baik dalam mengekstrak data daripada data format JSON.
Alamat kertas: https://arxiv.org/abs/2312.15166
Atas ialah kandungan terperinci HuggingFace: Dua alpaka disambung bersama selepas mengeluarkan kepala dan ekornya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Model bahasa yang besar (LLMS) telah melonjak populariti, dengan ciri-ciri alat yang secara dramatik memperluaskan keupayaan mereka di luar penjanaan teks mudah. Sekarang, LLMS dapat mengendalikan tugas automasi yang kompleks seperti penciptaan UI dinamik dan autonomi a

Bolehkah permainan video meringankan kebimbangan, membina fokus, atau menyokong kanak -kanak dengan ADHD? Memandangkan cabaran penjagaan kesihatan melonjak di seluruh dunia - terutamanya di kalangan belia - inovator beralih kepada alat yang tidak mungkin: permainan video. Sekarang salah satu hiburan terbesar di dunia Indus

"Sejarah telah menunjukkan bahawa walaupun kemajuan teknologi memacu pertumbuhan ekonomi, ia tidak sendiri memastikan pengagihan pendapatan yang saksama atau menggalakkan pembangunan manusia yang inklusif," tulis Rebeca Grynspan, Setiausaha Agung Unctad, dalam Mukadimah.

Easy-peasy, gunakan AI Generatif sebagai tutor rundingan dan rakan kongsi sparring anda. Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menjelaskan

Persidangan TED2025, yang diadakan di Vancouver, membungkus edisi ke -36 semalam, 11 April. Ia menampilkan 80 penceramah dari lebih daripada 60 negara, termasuk Sam Altman, Eric Schmidt, dan Palmer Luckey. Tema Ted, "Kemanusiaan Reimagined," telah disesuaikan dibuat

Joseph Stiglitz adalah ahli ekonomi yang terkenal dan penerima Hadiah Nobel dalam Ekonomi pada tahun 2001. Stiglitz berpendapat bahawa AI dapat memburukkan lagi ketidaksamaan dan kuasa yang disatukan di tangan beberapa syarikat dominan, akhirnya menjejaskan ekonomi

Pangkalan Data Graf: Merevolusi Pengurusan Data Melalui Hubungan Apabila data berkembang dan ciri -cirinya berkembang di pelbagai bidang, pangkalan data grafik muncul sebagai penyelesaian transformatif untuk menguruskan data yang saling berkaitan. Tidak seperti tradisional

Routing Model Besar (LLM): Mengoptimumkan Prestasi melalui Pengedaran Tugas Pintar Landskap LLM yang pesat berkembang membentangkan pelbagai model, masing -masing dengan kekuatan dan kelemahan yang unik. Beberapa cemerlang di Gen Kandungan Kreatif


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

SublimeText3 versi Inggeris
Disyorkan: Versi Win, menyokong gesaan kod!

Pelayar Peperiksaan Selamat
Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

ZendStudio 13.5.1 Mac
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver Mac版
Alat pembangunan web visual

Dreamweaver CS6
Alat pembangunan web visual