Ini adalah bagaimana llms memecah bahasa-AI-php.cn

Rumah

Peranti teknologi

Ini adalah bagaimana llms memecah bahasa

Patricia Arquette

Mar 11, 2025 am 10:40 AM

Membentangkan Rahsia Model Bahasa Besar: menyelam yang mendalam ke dalam tokenisasi

Ingat buzz sekitar Openai's GPT-3 pada tahun 2020? Walaupun bukan yang pertama dalam barisannya, keupayaan penjanaan teks GPT-3 yang luar biasa meletupkannya. Sejak itu, model bahasa besar yang banyak (LLM) telah muncul. Tetapi bagaimana LLMs seperti bahasa chatgpt menguraikan bahasa? Jawapannya terletak pada proses yang dipanggil tokenisasi.

Artikel ini menarik inspirasi dari siri YouTube yang berwawasan Andrej Karpathy, "Deep Dive Into LLMS Like Chatgpt," yang mesti menonton bagi sesiapa yang mencari pemahaman yang lebih mendalam tentang LLM. (Sangat disyorkan!)

Sebelum meneroka tokenisasi, mari kita mengkaji secara ringkas kerja -kerja dalaman LLM. Langkau ke hadapan jika anda sudah biasa dengan rangkaian saraf dan LLMS.

Di dalam model bahasa besar

LLMS menggunakan rangkaian saraf pengubah - formula matematik yang kompleks. Input adalah urutan token (perkataan, frasa, atau aksara) yang diproses melalui lapisan penyembuhan, menukarnya ke dalam perwakilan berangka. Input ini, bersama dengan parameter rangkaian (berat), dimasukkan ke dalam persamaan matematik besar -besaran.

Rangkaian neural moden membanggakan berbilion parameter, pada mulanya ditetapkan secara rawak. Rangkaian pada mulanya membuat ramalan rawak. Latihan secara beransur -ansur menyesuaikan berat ini untuk menyelaraskan output rangkaian dengan corak dalam data latihan. Oleh itu, latihan melibatkan mencari set berat optimum yang paling mencerminkan sifat statistik data latihan.

Senibina Transformer, yang diperkenalkan dalam kertas 2017 "Perhatian adalah semua yang anda perlukan" oleh Vaswani et al., Adalah rangkaian saraf yang direka khusus untuk pemprosesan urutan. Pada mulanya digunakan untuk terjemahan mesin saraf, kini menjadi asas kepada LLMS.

Untuk pemahaman visual rangkaian pengubah peringkat pengeluaran, lawati https://www.php.cn/link/f4a75336b061f291b6c11f5e4d6ebf7d . Laman ini menawarkan visualisasi 3D interaktif arsitektur GPT dan proses kesimpulan mereka.

Ini adalah bagaimana llms memecah bahasa Senibina nano-GPT (kira-kira 85,584 parameter) menunjukkan urutan token input yang diproses melalui lapisan, menjalani transformasi (mekanisme perhatian dan rangkaian ke hadapan) untuk meramalkan token seterusnya.

Tokenisasi: memecahkan teks

Latihan LLM canggih seperti Chatgpt atau Claude melibatkan beberapa peringkat berurutan. (Lihat artikel saya sebelumnya mengenai halusinasi untuk maklumat lanjut mengenai saluran paip latihan.)

Pretraining, peringkat awal, memerlukan dataset berkualiti tinggi (terabytes). Dataset ini biasanya proprietari. Kami akan menggunakan dataset FineWeb sumber terbuka dari muka memeluk (tersedia di bawah Lesen Atribusi Data Terbuka Data) sebagai contoh. ( Maklumat lanjut mengenai penciptaan Fineweb di sini ).

Ini adalah bagaimana llms memecah bahasa Sampel dari FineWeb (100 contoh digabungkan).

Ini adalah bagaimana llms memecah bahasa Matlamat kami adalah untuk melatih rangkaian saraf untuk meniru teks ini. Rangkaian saraf memerlukan urutan satu dimensi simbol dari set terhingga. Ini memerlukan menukar teks ke dalam urutan sedemikian.

Kami bermula dengan urutan teks satu dimensi. Pengekodan UTF-8 menukarkannya menjadi urutan bit mentah.

Ini adalah bagaimana llms memecah bahasa 8 bit pertama mewakili huruf 'a'.

Urutan binari ini, sementara secara teknikal urutan simbol (0 dan 1), terlalu panjang. Kami memerlukan urutan yang lebih pendek dengan lebih banyak simbol. Mengumpulkan 8 bit ke dalam bait memberi kita urutan 256 simbol yang mungkin (0-255).

Ini adalah bagaimana llms memecah bahasa Perwakilan byte.

Ini adalah bagaimana llms memecah bahasa Nombor -nombor ini adalah pengecam sewenang -wenangnya.

Ini adalah bagaimana llms memecah bahasa Penukaran ini adalah tokenisasi. Model-model canggih pergi lebih jauh, menggunakan pengekodan pasangan byte (BPE).

BPE mengenal pasti pasangan byte berturut -turut dan menggantikannya dengan simbol baru. Sebagai contoh, jika "101 114" sering muncul, ia digantikan dengan simbol baru. Proses ini mengulangi, memendekkan urutan dan memperluaskan perbendaharaan kata. GPT-4 menggunakan BPE, mengakibatkan perbendaharaan kata sekitar 100,000 token.

Terokai tokenisasi secara interaktif dengan Tiktokenizer , yang menggambarkan tokenisasi untuk pelbagai model. Menggunakan pengekod CL100K_BASE GPT-4 pada empat ayat pertama menghasilkan:

 <code>11787, 499, 21815, 369, 90250, 763, 14689, 30, 7694, 1555, 279, 21542, 3770, 323, 499, 1253, 1120, 1518, 701, 4832, 2457, 13, 9359, 1124, 323, 6642, 264, 3449, 709, 3010, 18396, 13, 1226, 617, 9214, 315, 1023, 3697, 430, 1120, 649, 10379, 83, 3868, 311, 3449, 18570, 1120, 1093, 499, 0</code>

Ini adalah bagaimana llms memecah bahasa

Keseluruhan dataset sampel kami juga boleh ditolak menggunakan CL100K_BASE .

Ini adalah bagaimana llms memecah bahasa

Kesimpulan

Tokenisasi adalah penting untuk LLMS, mengubah teks mentah menjadi format berstruktur untuk rangkaian saraf. Mengimbangi panjang urutan dan saiz perbendaharaan kata adalah kunci untuk kecekapan pengiraan. LLM moden seperti GPT menggunakan BPE untuk prestasi yang optimum. Memahami tokenisasi memberikan pandangan yang berharga ke dalam kerja dalaman LLM.

Ikuti saya di X (dahulunya Twitter) untuk lebih banyak pandangan AI!

Rujukan

Menyelam jauh ke LLM seperti chatgpt
Andrej Karpathy
Perhatian adalah semua yang anda perlukan
LLM Visualisasi ( https://www.php.cn/link/f4a75336b061f291b6c11f5e4d6ebf7d )
LLM Hallucinations (link_to_hallucination_article)
HuggingFaceFW/FineWeb · dataset di muka pelukan (link_to_huggingface_fineweb)
FINEWEB: Decanting web untuk data teks terbaik pada skala - ruang muka yang memeluk oleh ... (https://www.php.cn/link/271df68653f0b3c70d446bdcbc6a2715)
Buka Data Commons Attribusi Lesen (ODC-BY) v1.0-Terbuka Data Commons: Alat Undang-Undang untuk Data Terbuka (Link_TO_ODC_BY)
Tokenisasi Pengekodan Byte-pasangan-Memeluk Kursus NLP Face (link_to_huggingface_bpe)
Tiktokenizer (https://www.php.cn/link/3b8d83483189887a2f1a39d690463a8f)

Sila ganti pautan kurungan dengan pautan sebenar. Saya telah cuba mengekalkan pemformatan dan penempatan imej asal seperti yang diminta.

Atas ialah kandungan terperinci Ini adalah bagaimana llms memecah bahasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Semua mengenai operasi mengiris di PythonMay 14, 2025 am 01:48 AM

Bagi setiap pengaturcara Python, sama ada dalam domain sains data dan pembelajaran mesin atau pembangunan perisian, operasi mengiris Python adalah salah satu operasi yang paling berkesan, serba boleh, dan berkuasa. Sintaks pengirik python a

Penjelasan yang mudah difahami tentang cara menggunakan chatgpt untuk membuat petikan!May 14, 2025 am 01:44 AM

Evolusi teknologi AI telah mempercepat kecekapan perniagaan. Apa yang menarik perhatian ialah penciptaan anggaran menggunakan AI. Pembantu AI Openai, ChatGPT, menyumbang untuk meningkatkan proses penciptaan anggaran dan meningkatkan ketepatan. Artikel ini menerangkan cara membuat petikan menggunakan chatgpt. Kami akan memperkenalkan peningkatan kecekapan melalui kerjasama dengan Excel VBA, contoh aplikasi khusus untuk projek pembangunan sistem, manfaat pelaksanaan AI, dan prospek masa depan. Ketahui cara meningkatkan kecekapan operasi dan produktiviti dengan CHATGPT. Op

Apa itu Chatgpt Pro (O1 Pro)? Menjelaskan apa yang boleh anda lakukan, harga, dan perbezaan di antara mereka dari rancangan lain!May 14, 2025 am 01:40 AM

Pelan langganan terbaru Openai, Chatgpt Pro, menyediakan resolusi masalah AI yang maju! Pada bulan Disember 2024, OpenAI mengumumkan pelan teratasnya, The ChatGPT Pro, yang berharga $ 200 sebulan. Dalam artikel ini, kami akan menerangkan ciri -cirinya, terutamanya prestasi "Mod O1 Pro" dan inisiatif baru dari OpenAI. Ini mesti dibaca untuk penyelidik, jurutera, dan profesional yang bertujuan untuk menggunakan AI lanjutan. Chatgpt pro: Melepaskan kuasa AI lanjutan Chatgpt Pro adalah produk terkini dan paling maju dari OpenAI.

Kami menerangkan bagaimana untuk membuat dan membetulkan motivasi anda untuk memohon menggunakan chatgpt! Juga memperkenalkan arahanMay 14, 2025 am 01:29 AM

Adalah diketahui bahawa kepentingan motivasi untuk memohon ketika mencari pekerjaan yang diketahui, tetapi saya pasti ada banyak pencari pekerjaan yang berjuang untuk menciptanya. Dalam artikel ini, kami akan memperkenalkan cara yang berkesan untuk membuat pernyataan motivasi menggunakan teknologi AI terkini, CHATGPT. Kami dengan teliti akan menerangkan langkah-langkah khusus untuk menyelesaikan motivasi anda, termasuk kepentingan analisis diri dan penyelidikan korporat, menunjukkan kepada perhatikan ketika menggunakan AI, dan bagaimana untuk memadankan pengalaman dan kemahiran anda dengan keperluan syarikat. Melalui artikel ini, pelajari kemahiran untuk mewujudkan motivasi yang menarik dan bertujuan untuk memburu pekerjaan yang berjaya! Ejen AI Terbuka Terbuka, "Buka

Apa yang luar biasa mengenai Chatgpt? Penjelasan menyeluruh mengenai ciri -ciri dan kekuatannya!May 14, 2025 am 01:26 AM

Chatgpt: pemprosesan bahasa semulajadi yang menakjubkan dan cara menggunakannya ChatGPT adalah model pemprosesan bahasa semulajadi yang inovatif yang dibangunkan oleh OpenAI. Ia menarik perhatian di seluruh dunia sebagai alat lanjutan yang membolehkan dialog semulajadi dengan manusia dan boleh digunakan dalam pelbagai bidang. Pemahaman bahasa yang sangat baik, pengetahuan yang luas, keupayaan pembelajaran dan kebolehlaksanaan fleksibel berpotensi untuk mengubah kehidupan dan perniagaan kita. Dalam artikel ini, kami akan menerangkan ciri -ciri utama CHATGPT dan contoh penggunaan khusus, dan meneroka kemungkinan masa depan AI akan membuka kunci. Membongkar kemungkinan dan rayuan chatgpt, dan menikmati kehidupan dan perniagaan

[Imej yang dihasilkan menggunakan AI] Cara Membuat dan Mencetak Pelekat Gaya Coklat Bikkuriman Dengan ChatGPTMay 14, 2025 am 01:16 AM

Melepaskan kenangan zaman kanak -kanak! Buat pelekat eksklusif anda dengan chatgpt! Adakah anda ingat keseronokan mengumpul pelekat dari zaman kanak -kanak? Pada masa kini, dengan keupayaan generasi imej yang kuat dari ChatGPT, anda boleh membuat watak -watak yang unik dalam gaya tanpa kemahiran menarik! Artikel ini akan mengajar anda langkah demi langkah bagaimana mengubah foto atau ilustrasi ke dalam pelekat berkilat yang penuh dengan nostalgia menggunakan chatgpt. Kami akan menerangkan segala -galanya dari contoh kata tip terperinci untuk membuat dan mencetak langkah -langkah, idea -idea kreatif yang dikongsi di media sosial, dan juga perkara -perkara seperti hak hak cipta dan potret. Jadual Kandungan Mengapa chatgpt boleh membuat gambar angin? Generasi gambar chatgpt berjaya

Penjelasan yang mudah difahami tentang sebab-sebab dan penyelesaian apabila paparan chatgpt tidak betul!May 14, 2025 am 01:00 AM

Adakah anda pernah mengalami ralat paparan atau kerosakan di ChatGPT? Terdapat pelbagai isu yang boleh berlaku, seperti membeku, kelewatan tindak balas, dan tingkah laku yang tidak dijangka. Artikel ini menerangkan dengan cara yang mudah difahami sebab-sebab dan penyelesaian untuk masalah paparan chatgpt. Kami akan mencadangkan penyelesaian khusus, dari memuat semula penyemak imbas anda untuk meningkatkan persekitaran rangkaian anda, jadi jangan ragu untuk menggunakan ini jika anda menghadapi masalah dengan masalah paparan. Akses ke CHATGPT telah berjalan dari sekitar pukul 9 malam pada 12 Disember 2024 (termasuk Via API). Sila periksa status terbuka untuk maklumat terkini. C

Laman web alat lucah percuma lucahMay 13, 2025 am 11:26 AM

https://undressaitool.ai/ adalah aplikasi mudah alih yang kuat dengan ciri -ciri AI canggih untuk kandungan dewasa. Buat imej atau video pornografi AI yang dihasilkan sekarang!

See all articles