cari
RumahPeranti teknologiAIHuggingFace: Dua alpaka disambung bersama selepas mengeluarkan kepala dan ekornya

Senarai kedudukan model besar sumber terbuka HuggingFace telah dihapuskan lagi.

Barisan hadapan diduduki secara eksklusif oleh versi SOLAR 10.7B yang ditala halus, memerah pelbagai versi yang ditala halus Mixtral 8x7B dari beberapa minggu yang lalu.

HuggingFace: Dua alpaka disambung bersama selepas mengeluarkan kepala dan ekornya

Apakah asal usul model SOLAR yang besar?

Kertas berkaitan baru sahaja dimuat naik ke ArXiv, daripada syarikat Korea Upstage AI, menggunakan kaedah pengembangan model besar baharu penskalaan kedalaman (DUS).

HuggingFace: Dua alpaka disambung bersama selepas mengeluarkan kepala dan ekornya

Ringkasnya, dua alpaka 7B dicubit dan ekornya, satu dipotong 8 lapisan pertama, dan satu lagi dipotong 8 lapisan terakhir.

Baki dua 24 lapisan dicantum bersama Lapisan ke-24 model pertama disambung dengan lapisan ke-9 model kedua, dan akhirnya menjadi model besar 48-lapisan 10.7B.

HuggingFace: Dua alpaka disambung bersama selepas mengeluarkan kepala dan ekornya

Makalah itu mendakwa bahawa kaedah baharu itu mengatasi kaedah sambungan tradisional seperti MoE, dan boleh menggunakan infrastruktur yang sama seperti model besar asas.

Tidak perlu modul tambahan seperti rangkaian berpagar, rangka kerja latihan dioptimumkan untuk KPM, dan tidak perlu menyesuaikan isirong CUDA untuk inferens pantas Ia boleh disepadukan dengan lancar ke dalam kaedah sedia ada sambil mengekalkan kecekapan.

Pasukan memilih Mistral 7B, model besar tunggal terkuat 7B, sebagai bahan asas, dan menggunakan kaedah baharu untuk menggabungkannya untuk mengatasi versi asal dan versi MoE.

Pada masa yang sama, versi Arahan sejajar juga mengatasi versi Arahan KPM yang sepadan.

HuggingFace: Dua alpaka disambung bersama selepas mengeluarkan kepala dan ekornya

Lakukan jahitan hingga habis

Kenapa kaedah penyambungan ini datang dari gerak hati.

Mulakan dengan kaedah pengembangan yang paling mudah, iaitu mengulang model besar asas 32 lapisan dua kali menjadi 64 lapisan.

Kelebihan ini ialah tiada heterogen, semua lapisan adalah dari model besar asas, tetapi lapisan 32 dan 33 (sama seperti lapisan 1) mempunyai lapisan " yang lebih besar di kelim Jarak”(jarak lapisan ).

Penyelidikan sebelum ini telah menunjukkan bahawa lapisan Transformer yang berbeza melakukan perkara yang berbeza Contohnya, lapisan yang lebih dalam adalah lebih baik dalam memproses konsep yang lebih abstrak.

Pasukan percaya bahawa jarak lapisan yang berlebihan boleh menghalang keupayaan model untuk menggunakan pemberat pra-latihan dengan berkesan.

Satu penyelesaian yang berpotensi adalah dengan mengorbankan lapisan tengah, dengan itu mengurangkan perbezaan pada jahitan, dan di sinilah kaedah DUS dilahirkan.

Berdasarkan pertukaran antara prestasi dan saiz model, pasukan memilih untuk memadam 8 lapisan daripada setiap model, dan jahitan ditukar daripada 32 lapisan kepada lapisan 1 kepada 24 lapisan kepada lapisan 9.

Prestasi model yang disambung ringkas akan tetap lebih rendah daripada model asas asal pada mulanya, tetapi ia boleh pulih dengan cepat selepas latihan pra berterusan.

Dalam fasa penalaan halus arahan, selain menggunakan set data sumber terbuka, kami juga mencipta set data yang dipertingkatkan secara matematik dan menggunakan DPO dalam fasa penjajaran.

Langkah terakhir ialah menimbang purata versi model yang dilatih menggunakan set data yang berbeza, yang juga merupakan penyiapan jahitan.

HuggingFace: Dua alpaka disambung bersama selepas mengeluarkan kepala dan ekornya

Sesetengah netizen mempersoalkan kemungkinan kebocoran data ujian. Pasukan

HuggingFace: Dua alpaka disambung bersama selepas mengeluarkan kepala dan ekornya

juga mengambil kira perkara ini dan secara khusus melaporkan keputusan ujian pencemaran data dalam lampiran kertas, yang menunjukkan tahap rendah.

HuggingFace: Dua alpaka disambung bersama selepas mengeluarkan kepala dan ekornya

Akhir sekali, kedua-dua model asas SOLAR 10.7B dan model yang diperhalusi adalah sumber terbuka di bawah lesen Apache 2.0.

Netizen yang telah mencubanya telah melaporkan bahawa ia berfungsi dengan baik dalam mengekstrak data daripada data format JSON.

HuggingFace: Dua alpaka disambung bersama selepas mengeluarkan kepala dan ekornya

Alamat kertas: https://arxiv.org/abs/2312.15166

Atas ialah kandungan terperinci HuggingFace: Dua alpaka disambung bersama selepas mengeluarkan kepala dan ekornya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Alat panggilan di LLMSAlat panggilan di LLMSApr 14, 2025 am 11:28 AM

Model bahasa yang besar (LLMS) telah melonjak populariti, dengan ciri-ciri alat yang secara dramatik memperluaskan keupayaan mereka di luar penjanaan teks mudah. Sekarang, LLMS dapat mengendalikan tugas automasi yang kompleks seperti penciptaan UI dinamik dan autonomi a

Bagaimana permainan ADHD, alat kesihatan & chatbots AI mengubah kesihatan globalBagaimana permainan ADHD, alat kesihatan & chatbots AI mengubah kesihatan globalApr 14, 2025 am 11:27 AM

Bolehkah permainan video meringankan kebimbangan, membina fokus, atau menyokong kanak -kanak dengan ADHD? Memandangkan cabaran penjagaan kesihatan melonjak di seluruh dunia - terutamanya di kalangan belia - inovator beralih kepada alat yang tidak mungkin: permainan video. Sekarang salah satu hiburan terbesar di dunia Indus

Input PBB pada AI: Pemenang, Losers, dan PeluangInput PBB pada AI: Pemenang, Losers, dan PeluangApr 14, 2025 am 11:25 AM

"Sejarah telah menunjukkan bahawa walaupun kemajuan teknologi memacu pertumbuhan ekonomi, ia tidak sendiri memastikan pengagihan pendapatan yang saksama atau menggalakkan pembangunan manusia yang inklusif," tulis Rebeca Grynspan, Setiausaha Agung Unctad, dalam Mukadimah.

Kemahiran rundingan pembelajaran melalui AI generatifKemahiran rundingan pembelajaran melalui AI generatifApr 14, 2025 am 11:23 AM

Easy-peasy, gunakan AI Generatif sebagai tutor rundingan dan rakan kongsi sparring anda. Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menjelaskan

Ted mendedahkan dari Openai, Google, Meta Heads to Court, selfie dengan diri sayaTed mendedahkan dari Openai, Google, Meta Heads to Court, selfie dengan diri sayaApr 14, 2025 am 11:22 AM

Persidangan TED2025, yang diadakan di Vancouver, membungkus edisi ke -36 semalam, 11 April. Ia menampilkan 80 penceramah dari lebih daripada 60 negara, termasuk Sam Altman, Eric Schmidt, dan Palmer Luckey. Tema Ted, "Kemanusiaan Reimagined," telah disesuaikan dibuat

Joseph Stiglitz memberi amaran tentang ketidaksamaan yang menjulang di tengah -tengah kuasa monopoli AIJoseph Stiglitz memberi amaran tentang ketidaksamaan yang menjulang di tengah -tengah kuasa monopoli AIApr 14, 2025 am 11:21 AM

Joseph Stiglitz adalah ahli ekonomi yang terkenal dan penerima Hadiah Nobel dalam Ekonomi pada tahun 2001. Stiglitz berpendapat bahawa AI dapat memburukkan lagi ketidaksamaan dan kuasa yang disatukan di tangan beberapa syarikat dominan, akhirnya menjejaskan ekonomi

Apakah pangkalan data graf?Apakah pangkalan data graf?Apr 14, 2025 am 11:19 AM

Pangkalan Data Graf: Merevolusi Pengurusan Data Melalui Hubungan Apabila data berkembang dan ciri -cirinya berkembang di pelbagai bidang, pangkalan data grafik muncul sebagai penyelesaian transformatif untuk menguruskan data yang saling berkaitan. Tidak seperti tradisional

LLM Routing: Strategi, Teknik, dan Pelaksanaan PythonLLM Routing: Strategi, Teknik, dan Pelaksanaan PythonApr 14, 2025 am 11:14 AM

Routing Model Besar (LLM): Mengoptimumkan Prestasi melalui Pengedaran Tugas Pintar Landskap LLM yang pesat berkembang membentangkan pelbagai model, masing -masing dengan kekuatan dan kelemahan yang unik. Beberapa cemerlang di Gen Kandungan Kreatif

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

SublimeText3 versi Inggeris

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual