Pautan Pantas
Ringkasan
- Syarikat besar seperti Open AI, Google, Microsoft dan Meta sedang melabur dalam SLM.
- SLM semakin popular di seluruh industri dan diletakkan lebih baik sebagai AI masa depan.
- Contoh SLM termasuk Google Nano, Phi-3 Microsoft dan mini GPT-4o Open AI.
Model bahasa besar (LLM) muncul dengan keluaran Open AI's ChatGPT. Sejak itu, beberapa syarikat juga telah melancarkan LLM mereka, tetapi lebih banyak syarikat kini cenderung kepada model bahasa kecil (SLM).
SLM semakin mendapat momentum, tetapi apakah itu, dan bagaimana ia berbeza daripada LLM?
Apakah Model Bahasa Kecil?
Model bahasa kecil (SLM) ialah sejenis model kecerdasan buatan dengan parameter yang lebih sedikit (anggap ini sebagai nilai dalam model yang dipelajari semasa latihan). Seperti rakan sejawat mereka yang lebih besar, SLM boleh menjana teks dan melaksanakan tugas lain. Walau bagaimanapun, SLM menggunakan lebih sedikit set data untuk latihan, mempunyai parameter yang lebih sedikit dan memerlukan kurang kuasa pengiraan untuk melatih dan menjalankan.
SLM memfokuskan pada fungsi utama, dan jejak kecilnya bermakna ia boleh digunakan pada peranti yang berbeza, termasuk peranti tersebut yang tidak mempunyai perkakasan mewah seperti peranti mudah alih. Contohnya, Nano Google ialah SLM pada peranti yang dibina dari bawah ke atas yang berjalan pada peranti mudah alih. Oleh kerana saiznya yang kecil, Nano boleh berjalan secara tempatan dengan atau tanpa sambungan rangkaian, menurut syarikat itu.
Pilihan lain juga tersedia, yang mungkin anda anggap sebagai LLM tetapi SLM. Ini benar terutamanya memandangkan kebanyakan syarikat mengambil pendekatan berbilang model untuk mengeluarkan lebih daripada satu model bahasa dalam portfolio mereka, menawarkan kedua-dua LLM dan SLM. Satu contoh ialah GPT-4, yang mempunyai pelbagai model, termasuk
GPT-4, GPT-4o (Omni) dan GPT-4o mini.
Model Bahasa Kecil lwn. Model Bahasa Besar
Semasa membincangkan SLM, kita tidak boleh mengabaikan rakan sejawat besar mereka: LLM. Kunci perbezaan antara SLM dan LLM ialah saiz model, yang diukur dari segi parameter.
Sehingga artikel ini ditulis, tiada konsensus dalam industri AI mengenai bilangan maksimum daripada parameter model tidak boleh melebihi untuk dianggap sebagai SLM atau bilangan minimum yang diperlukan untuk dianggap sebagai LLM. Walau bagaimanapun, SLM biasanya mempunyai berjuta-juta hingga beberapa bilion parameter, manakala LLM mempunyai lebih banyak, mencecah setinggi trilion.
Sebagai contoh, GPT-3, yang dikeluarkan pada 2020, mempunyai 175 bilion parameter (dan Model GPT-4 dikhabarkan mempunyai sekitar 1.76 trilion), manakala 2024 Phi-3-mini Microsoft, Phi-3-small dan Phi-3-medium SLM masing-masing mengukur 3.8, 7 dan 14 bilion parameter.

Satu lagi faktor pembezaan antara SLM dan LLM ialah jumlah data yang digunakan untuk latihan. SLM dilatih pada jumlah data yang lebih kecil, manakala LLM menggunakan set data yang besar. Perbezaan ini juga mempengaruhi keupayaan model untuk menyelesaikan tugas yang rumit.
Disebabkan oleh data yang besar yang digunakan dalam latihan, LLM lebih sesuai untuk menyelesaikan pelbagai jenis tugasan kompleks yang memerlukan penaakulan lanjutan, manakala SLM lebih sesuai untuk lebih mudah. tugasan. Tidak seperti LLM, SLM menggunakan kurang data latihan, tetapi data yang digunakan mestilah berkualiti tinggi untuk mencapai banyak keupayaan yang terdapat dalam LLM dalam pakej yang kecil.
Mengapa Model Bahasa Kecil Adalah Masa Depan
Bagi kebanyakan kes penggunaan, SLM berada pada kedudukan yang lebih baik untuk menjadi model arus perdana yang digunakan oleh syarikat dan pengguna untuk melaksanakan pelbagai jenis tugas. Pasti, LLM mempunyai kelebihannya dan lebih sesuai untuk kes penggunaan tertentu, seperti menyelesaikan tugas yang rumit. Walau bagaimanapun, SLM adalah masa depan untuk kebanyakan kes penggunaan disebabkan oleh sebab berikut.
1. Kos Latihan dan Penyelenggaraan yang Lebih Rendah

SLM memerlukan lebih sedikit data untuk latihan berbanding LLM, yang menjadikannya pilihan paling berdaya maju untuk individu dan syarikat kecil hingga sederhana dengan data latihan, kewangan atau kedua-duanya terhad. LLM memerlukan sejumlah besar data latihan dan, secara lanjutan, memerlukan sumber pengiraan yang besar untuk melatih dan menjalankan.
Untuk meletakkan ini dalam perspektif, Ketua Pegawai Eksekutif OpenAI, Sam Altman, mengesahkan mereka mengambil masa lebih daripada $100 juta untuk berlatih GPT-4 semasa bercakap pada acara di MIT (seperti Berwayar). Contoh lain ialah OPT-175B LLM Meta. Meta berkata ia telah dilatih menggunakan 992 NVIDIA A100 80GB GPU, yang berharga kira-kira $10,000 seunit, mengikut CNBC. Ini menjadikan kos kira-kira $9 juta, tanpa memasukkan perbelanjaan lain seperti tenaga, gaji dan banyak lagi.
Dengan angka sedemikian, syarikat kecil dan sederhana tidak berdaya maju untuk melatih LLM. Sebaliknya, SLM mempunyai halangan yang lebih rendah untuk kemasukan dari segi sumber dan kos yang lebih rendah untuk dijalankan, dan oleh itu, lebih banyak syarikat akan menerimanya.
2. Prestasi Lebih Baik

Prestasi ialah satu lagi bidang di mana SLM mengalahkan LLM kerana saiznya yang padat. SLM mempunyai kurang kependaman dan lebih sesuai untuk senario yang memerlukan respons yang lebih pantas, seperti dalam aplikasi masa nyata. Sebagai contoh, respons yang lebih pantas diutamakan dalam sistem respons suara seperti pembantu digital.
Menjalankan pada peranti (lebih lanjut mengenai perkara ini kemudian) juga bermakna permintaan anda tidak perlu membuat perjalanan ke pelayan dalam talian dan kembali ke balas pertanyaan anda, yang membawa kepada respons yang lebih pantas.
3. Lebih Tepat

SLM juga boleh diperhalusi lagi dengan latihan tertumpu pada tugas atau domain tertentu, yang membawa kepada ketepatan yang lebih baik dalam kawasan berbanding model yang lebih besar dan lebih umum.
4. Boleh Jalankan Pada Peranti

SLM memerlukan kurang kuasa pengiraan berbanding LLM dan oleh itu sesuai untuk kes pengkomputeran tepi. Ia boleh digunakan pada peranti tepi seperti telefon pintar dan kenderaan autonomi, yang tidak mempunyai kuasa atau sumber pengiraan yang besar. Model Nano Google boleh dijalankan pada peranti, membolehkan ia berfungsi walaupun anda tidak mempunyai sambungan internet yang aktif.
Keupayaan ini memberikan situasi menang-menang untuk kedua-dua syarikat dan pengguna. Pertama, ini adalah kemenangan untuk privasi kerana data pengguna diproses secara tempatan dan bukannya dihantar ke awan, yang penting kerana lebih banyak AI disepadukan ke dalam telefon pintar kami, yang mengandungi hampir setiap butiran tentang kami. Ia juga merupakan satu kemenangan bagi syarikat kerana mereka tidak perlu menggunakan dan menjalankan pelayan yang besar untuk mengendalikan tugas AI.
SLM semakin mendapat momentum, dengan pemain industri terbesar, seperti Open AI, Google, Microsoft, Anthropic, dan Meta, mengeluarkan model sedemikian. Model-model ini lebih sesuai untuk tugasan yang lebih mudah, yang mana kebanyakan kita menggunakan LLM; oleh itu, mereka adalah masa depan.
Tetapi LLM tidak akan ke mana-mana. Sebaliknya, ia akan digunakan untuk aplikasi lanjutan yang menggabungkan maklumat merentas domain yang berbeza untuk mencipta sesuatu yang baharu, seperti dalam penyelidikan perubatan.
Atas ialah kandungan terperinci Selain LLM: Inilah Sebabnya Model Bahasa Kecil Adalah Masa Depan AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Pengekodan Vibe membentuk semula dunia pembangunan perisian dengan membiarkan kami membuat aplikasi menggunakan bahasa semulajadi dan bukannya kod yang tidak berkesudahan. Diilhamkan oleh penglihatan seperti Andrej Karpathy, pendekatan inovatif ini membolehkan Dev

Februari 2025 telah menjadi satu lagi bulan yang berubah-ubah untuk AI generatif, membawa kita beberapa peningkatan model yang paling dinanti-nantikan dan ciri-ciri baru yang hebat. Dari Xai's Grok 3 dan Anthropic's Claude 3.7 Sonnet, ke Openai's G

Yolo (anda hanya melihat sekali) telah menjadi kerangka pengesanan objek masa nyata yang terkemuka, dengan setiap lelaran bertambah baik pada versi sebelumnya. Versi terbaru Yolo V12 memperkenalkan kemajuan yang meningkatkan ketepatan

Google's Veo 2 dan Openai's Sora: Generator Video AI Mana yang memerintah Supreme? Kedua -dua platform menghasilkan video AI yang mengagumkan, tetapi kekuatan mereka terletak di kawasan yang berbeza. Perbandingan ini, menggunakan pelbagai arahan, mendedahkan alat yang paling sesuai dengan keperluan anda. T

Google Deepmind's Gencast: AI Revolusioner untuk Peramalan Cuaca Peramalan cuaca telah menjalani transformasi dramatik, bergerak dari pemerhatian asas kepada ramalan berkuasa AI yang canggih. Google Deepmind's Gencast, tanah air

CHATGPT 4 kini tersedia dan digunakan secara meluas, menunjukkan penambahbaikan yang ketara dalam memahami konteks dan menjana tindak balas yang koheren berbanding dengan pendahulunya seperti ChATGPT 3.5. Perkembangan masa depan mungkin merangkumi lebih banyak Inter yang diperibadikan

Artikel ini membincangkan model AI yang melampaui chatgpt, seperti Lamda, Llama, dan Grok, menonjolkan kelebihan mereka dalam ketepatan, pemahaman, dan kesan industri. (159 aksara)

Openai's O1: Hadiah 12 Hari Bermula dengan model mereka yang paling berkuasa Ketibaan Disember membawa kelembapan global, kepingan salji di beberapa bahagian dunia, tetapi Openai baru sahaja bermula. Sam Altman dan pasukannya melancarkan mantan hadiah 12 hari


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Dreamweaver CS6
Alat pembangunan web visual

MantisBT
Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

ZendStudio 13.5.1 Mac
Persekitaran pembangunan bersepadu PHP yang berkuasa

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

DVWA
Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini