Selain LLM: Inilah Sebabnya Model Bahasa Kecil Adalah Masa Depan AI-AI-php.cn

Rumah

Peranti teknologi

Selain LLM: Inilah Sebabnya Model Bahasa Kecil Adalah Masa Depan AI

Jennifer Aniston

Dec 13, 2024 pm 03:53 PM

Pautan Pantas

Apakah Model Bahasa Kecil?

Kecil Model Bahasa lwn. Model Bahasa Besar

Mengapa Model Bahasa Kecil Adalah Masa Depan

Ringkasan

Syarikat besar seperti Open AI, Google, Microsoft dan Meta sedang melabur dalam SLM.
SLM semakin popular di seluruh industri dan diletakkan lebih baik sebagai AI masa depan.
Contoh SLM termasuk Google Nano, Phi-3 Microsoft dan mini GPT-4o Open AI.

Model bahasa besar (LLM) muncul dengan keluaran Open AI's ChatGPT. Sejak itu, beberapa syarikat juga telah melancarkan LLM mereka, tetapi lebih banyak syarikat kini cenderung kepada model bahasa kecil (SLM).

SLM semakin mendapat momentum, tetapi apakah itu, dan bagaimana ia berbeza daripada LLM?

Apakah Model Bahasa Kecil?

Model bahasa kecil (SLM) ialah sejenis model kecerdasan buatan dengan parameter yang lebih sedikit (anggap ini sebagai nilai dalam model yang dipelajari semasa latihan). Seperti rakan sejawat mereka yang lebih besar, SLM boleh menjana teks dan melaksanakan tugas lain. Walau bagaimanapun, SLM menggunakan lebih sedikit set data untuk latihan, mempunyai parameter yang lebih sedikit dan memerlukan kurang kuasa pengiraan untuk melatih dan menjalankan.

SLM memfokuskan pada fungsi utama, dan jejak kecilnya bermakna ia boleh digunakan pada peranti yang berbeza, termasuk peranti tersebut yang tidak mempunyai perkakasan mewah seperti peranti mudah alih. Contohnya, Nano Google ialah SLM pada peranti yang dibina dari bawah ke atas yang berjalan pada peranti mudah alih. Oleh kerana saiznya yang kecil, Nano boleh berjalan secara tempatan dengan atau tanpa sambungan rangkaian, menurut syarikat itu.

small language model gemini nano use examples — Google

🎜>

Selain Nano, ada banyak lagi SLM daripada syarikat terkemuka dan akan datang dalam ruang AI. Beberapa SLM yang popular termasuk Microsoft Phi-3, OpenAI's GPT-4o mini, Anthropic's Claude 3 Haiku, Meta's Llama 3 dan Mistral AI's Mixtral 8x7B.

Pilihan lain juga tersedia, yang mungkin anda anggap sebagai LLM tetapi SLM. Ini benar terutamanya memandangkan kebanyakan syarikat mengambil pendekatan berbilang model untuk mengeluarkan lebih daripada satu model bahasa dalam portfolio mereka, menawarkan kedua-dua LLM dan SLM. Satu contoh ialah GPT-4, yang mempunyai pelbagai model, termasuk

GPT-4, GPT-4o (Omni) dan GPT-4o mini.

Model Bahasa Kecil lwn. Model Bahasa Besar

Semasa membincangkan SLM, kita tidak boleh mengabaikan rakan sejawat besar mereka: LLM. Kunci perbezaan antara SLM dan LLM ialah saiz model, yang diukur dari segi parameter.

Sehingga artikel ini ditulis, tiada konsensus dalam industri AI mengenai bilangan maksimum daripada parameter model tidak boleh melebihi untuk dianggap sebagai SLM atau bilangan minimum yang diperlukan untuk dianggap sebagai LLM. Walau bagaimanapun, SLM biasanya mempunyai berjuta-juta hingga beberapa bilion parameter, manakala LLM mempunyai lebih banyak, mencecah setinggi trilion.

Sebagai contoh, GPT-3, yang dikeluarkan pada 2020, mempunyai 175 bilion parameter (dan Model GPT-4 dikhabarkan mempunyai sekitar 1.76 trilion), manakala 2024 Phi-3-mini Microsoft, Phi-3-small dan Phi-3-medium SLM masing-masing mengukur 3.8, 7 dan 14 bilion parameter.

small language models versus large language models chart — Microsoft

Satu lagi faktor pembezaan antara SLM dan LLM ialah jumlah data yang digunakan untuk latihan. SLM dilatih pada jumlah data yang lebih kecil, manakala LLM menggunakan set data yang besar. Perbezaan ini juga mempengaruhi keupayaan model untuk menyelesaikan tugas yang rumit.

Disebabkan oleh data yang besar yang digunakan dalam latihan, LLM lebih sesuai untuk menyelesaikan pelbagai jenis tugasan kompleks yang memerlukan penaakulan lanjutan, manakala SLM lebih sesuai untuk lebih mudah. tugasan. Tidak seperti LLM, SLM menggunakan kurang data latihan, tetapi data yang digunakan mestilah berkualiti tinggi untuk mencapai banyak keupayaan yang terdapat dalam LLM dalam pakej yang kecil.

Mengapa Model Bahasa Kecil Adalah Masa Depan

Bagi kebanyakan kes penggunaan, SLM berada pada kedudukan yang lebih baik untuk menjadi model arus perdana yang digunakan oleh syarikat dan pengguna untuk melaksanakan pelbagai jenis tugas. Pasti, LLM mempunyai kelebihannya dan lebih sesuai untuk kes penggunaan tertentu, seperti menyelesaikan tugas yang rumit. Walau bagaimanapun, SLM adalah masa depan untuk kebanyakan kes penggunaan disebabkan oleh sebab berikut.

1. Kos Latihan dan Penyelenggaraan yang Lebih Rendah

server raid configurations feature — Timofeev Vladimir/Shutterstock

SLM memerlukan lebih sedikit data untuk latihan berbanding LLM, yang menjadikannya pilihan paling berdaya maju untuk individu dan syarikat kecil hingga sederhana dengan data latihan, kewangan atau kedua-duanya terhad. LLM memerlukan sejumlah besar data latihan dan, secara lanjutan, memerlukan sumber pengiraan yang besar untuk melatih dan menjalankan.

Untuk meletakkan ini dalam perspektif, Ketua Pegawai Eksekutif OpenAI, Sam Altman, mengesahkan mereka mengambil masa lebih daripada $100 juta untuk berlatih GPT-4 semasa bercakap pada acara di MIT (seperti Berwayar). Contoh lain ialah OPT-175B LLM Meta. Meta berkata ia telah dilatih menggunakan 992 NVIDIA A100 80GB GPU, yang berharga kira-kira $10,000 seunit, mengikut CNBC. Ini menjadikan kos kira-kira $9 juta, tanpa memasukkan perbelanjaan lain seperti tenaga, gaji dan banyak lagi.

Dengan angka sedemikian, syarikat kecil dan sederhana tidak berdaya maju untuk melatih LLM. Sebaliknya, SLM mempunyai halangan yang lebih rendah untuk kemasukan dari segi sumber dan kos yang lebih rendah untuk dijalankan, dan oleh itu, lebih banyak syarikat akan menerimanya.

2. Prestasi Lebih Baik

A person talking to their phone with the ChatGPT icon hovering over the screen. — GBJSTOCK / S 🎜>

Prestasi ialah satu lagi bidang di mana SLM mengalahkan LLM kerana saiznya yang padat. SLM mempunyai kurang kependaman dan lebih sesuai untuk senario yang memerlukan respons yang lebih pantas, seperti dalam aplikasi masa nyata. Sebagai contoh, respons yang lebih pantas diutamakan dalam sistem respons suara seperti pembantu digital.

Menjalankan pada peranti (lebih lanjut mengenai perkara ini kemudian) juga bermakna permintaan anda tidak perlu membuat perjalanan ke pelayan dalam talian dan kembali ke balas pertanyaan anda, yang membawa kepada respons yang lebih pantas.

3. Lebih Tepat

ZinetroN / Shutterstock

Mengenai AI generatif, satu perkara kekal: sampah masuk, sampah keluar. LLM semasa telah dilatih menggunakan set data besar data internet mentah. Oleh itu, mereka mungkin tidak tepat dalam semua keadaan. Ini adalah salah satu daripada masalah dengan ChatGPT dan model yang serupa dan mengapa anda tidak sepatutnya mempercayai semua yang dikatakan oleh chatbot AI. Sebaliknya, SLM dilatih menggunakan data berkualiti lebih tinggi daripada LLM dan dengan itu mempunyai ketepatan yang lebih tinggi.

SLM juga boleh diperhalusi lagi dengan latihan tertumpu pada tugas atau domain tertentu, yang membawa kepada ketepatan yang lebih baik dalam kawasan berbanding model yang lebih besar dan lebih umum.

4. Boleh Jalankan Pada Peranti

small language model mockup on smartphone — Pete Hansen/Shutterstock

SLM memerlukan kurang kuasa pengiraan berbanding LLM dan oleh itu sesuai untuk kes pengkomputeran tepi. Ia boleh digunakan pada peranti tepi seperti telefon pintar dan kenderaan autonomi, yang tidak mempunyai kuasa atau sumber pengiraan yang besar. Model Nano Google boleh dijalankan pada peranti, membolehkan ia berfungsi walaupun anda tidak mempunyai sambungan internet yang aktif.

Keupayaan ini memberikan situasi menang-menang untuk kedua-dua syarikat dan pengguna. Pertama, ini adalah kemenangan untuk privasi kerana data pengguna diproses secara tempatan dan bukannya dihantar ke awan, yang penting kerana lebih banyak AI disepadukan ke dalam telefon pintar kami, yang mengandungi hampir setiap butiran tentang kami. Ia juga merupakan satu kemenangan bagi syarikat kerana mereka tidak perlu menggunakan dan menjalankan pelayan yang besar untuk mengendalikan tugas AI.

SLM semakin mendapat momentum, dengan pemain industri terbesar, seperti Open AI, Google, Microsoft, Anthropic, dan Meta, mengeluarkan model sedemikian. Model-model ini lebih sesuai untuk tugasan yang lebih mudah, yang mana kebanyakan kita menggunakan LLM; oleh itu, mereka adalah masa depan.

Tetapi LLM tidak akan ke mana-mana. Sebaliknya, ia akan digunakan untuk aplikasi lanjutan yang menggabungkan maklumat merentas domain yang berbeza untuk mencipta sesuatu yang baharu, seperti dalam penyelidikan perubatan.

Atas ialah kandungan terperinci Selain LLM: Inilah Sebabnya Model Bahasa Kecil Adalah Masa Depan AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

California Taps AI ke Permit Pemulihan Wildfire CepatMay 04, 2025 am 11:10 AM

AI menyelaraskan pemulihan kebakaran hutan yang membenarkan Firma teknologi Australia Archistar's AI Software, menggunakan pembelajaran mesin dan penglihatan komputer, mengautomasikan penilaian rancangan bangunan untuk mematuhi peraturan tempatan. Kepentingan pra-pengesahan ini

Apa yang kita boleh belajar dari kerajaan digital berkuasa AI EstoniaMay 04, 2025 am 11:09 AM

Kerajaan Digital Estonia: Model untuk AS? AS berjuang dengan ketidakcekapan birokrasi, tetapi Estonia menawarkan alternatif yang menarik. Negara kecil ini mempunyai hampir 100% kerajaan yang berpusatkan rakyat yang dikuasai oleh AI. Ini bukan

Perancangan perkahwinan melalui ai generatifMay 04, 2025 am 11:08 AM

Merancang perkahwinan adalah tugas yang monumental, selalunya menggembirakan walaupun pasangan yang paling teratur. Artikel ini, sebahagian daripada siri Forbes yang berterusan mengenai kesan AI (lihat pautan di sini), meneroka bagaimana AI generatif dapat merevolusikan perancangan perkahwinan. Perkahwinan pl

Apakah ejen AI pertahanan digital?May 04, 2025 am 11:07 AM

Perniagaan semakin memanfaatkan ejen AI untuk jualan, sementara kerajaan menggunakannya untuk pelbagai tugas yang ditetapkan. Walau bagaimanapun, penyokong pengguna menyerlahkan keperluan bagi individu untuk memiliki ejen AI mereka sendiri sebagai pertahanan terhadap yang sering disasarkan

Panduan Pemimpin Perniagaan untuk Pengoptimuman Enjin Generatif (GEO)May 03, 2025 am 11:14 AM

Google mengetuai peralihan ini. Ciri "AI Gambaran Keseluruhan" sudah melayani lebih daripada satu bilion pengguna, memberikan jawapan lengkap sebelum ada yang mengklik pautan. [^2] Pemain lain juga mendapat tanah dengan cepat. Chatgpt, microsoft copilot, dan pe

Permulaan ini menggunakan ejen AI untuk melawan iklan jahat dan akaun peniruMay 03, 2025 am 11:13 AM

Pada tahun 2022, beliau mengasaskan permulaan pertahanan kejuruteraan sosial Doppel untuk berbuat demikian. Dan sebagai penjenayah siber memanfaatkan model AI yang lebih maju untuk mengatasi serangan mereka, sistem AI Doppel telah membantu perniagaan memerangi mereka secara lebih cepat dan lebih cepat dan lebih cepat

Bagaimana model dunia secara radikal membentuk semula masa depan AI dan LLM generatifMay 03, 2025 am 11:12 AM

Voila, melalui berinteraksi dengan model dunia yang sesuai, AI generatif dan LLMs boleh didorong secara substansial. Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk

May Day 2050: Apa yang kita tinggalkan untuk meraikan?May 03, 2025 am 11:11 AM

Hari Buruh 2050. Taman di seluruh negara mengisi dengan keluarga yang menikmati barbeku tradisional manakala perarakan nostalgia angin melalui jalan -jalan bandar. Namun perayaan kini membawa kualiti muzium seperti muzium-reenactment bersejarah dan bukannya peringatan c

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

3 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

3 minggu yang laluByDDD

Tahap kekuatan untuk setiap musuh & raksasa di R.E.P.O.

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

<🎜>: Rails Dead - Cara menjinakkan serigala

3 minggu yang laluByDDD

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

2 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),