Model bahasa menaakul tentang teks, yang biasanya dalam bentuk rentetan, tetapi input kepada model hanya boleh menjadi nombor, jadi teks perlu ditukar kepada bentuk berangka.
Tokenisasi ialah tugas asas pemprosesan bahasa semula jadi Ia boleh membahagikan urutan teks berterusan (seperti ayat, perenggan, dll.) ke dalam urutan aksara (seperti perkataan, frasa, aksara, tanda baca, dll.) mengikut tertentu. keperluan. Antaranya Unit itu dipanggil token atau perkataan.
Mengikut proses khusus yang ditunjukkan dalam rajah di bawah, mula-mula bahagikan ayat teks kepada unit, kemudian digitalkan elemen tunggal (petakannya ke dalam vektor), kemudian masukkan vektor ini ke dalam model untuk pengekodan, dan akhirnya keluarkannya ke tugas hiliran untuk mendapatkan lagi keputusan akhir.
Segmentasi teks
Mengikut butiran segmentasi teks, Tokenisasi boleh dibahagikan kepada tiga kategori: Tokenisasi berbutir perkataan, Tokenisasi berbutir aksara dan Tokenisasi berbutir subkata.
1. Tokenisasi kebutiran perkataan
Tokenisasi kebutiran perkataan ialah kaedah pembahagian perkataan yang paling intuitif, yang bermaksud membahagikan teks mengikut perbendaharaan kata. Contohnya:
The quick brown fox jumps over the lazy dog.词粒度Tokenized结果:['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']
Dalam contoh ini, teks dibahagikan kepada perkataan bebas, setiap perkataan digunakan sebagai token, dan tanda baca '.' juga dianggap sebagai token bebas.
Teks bahasa Cina biasanya dibahagikan mengikut koleksi perbendaharaan kata standard yang disertakan dalam kamus atau frasa, simpulan bahasa, kata nama khas, dsb. yang dikenali melalui algoritma segmentasi perkataan.
我喜欢吃苹果。词粒度Tokenized结果:['我', '喜欢', '吃', '苹果', '。']
Teks bahasa Cina ini terbahagi kepada lima perkataan: "Saya", "suka", "makan", "epal" dan titik ".", setiap perkataan berfungsi sebagai tanda.
2. Tokenisasi berbutir aksara
Tokenisasi berbutir aksara membahagikan teks kepada unit aksara terkecil, iaitu, setiap aksara dianggap sebagai token yang berasingan. Contohnya:
Hello, world!字符粒度Tokenized结果:['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '!']
Tokenisasi kebutiran aksara dalam bahasa Cina adalah untuk membahagikan teks mengikut setiap aksara Cina bebas.
我喜欢吃苹果。字符粒度Tokenized结果:['我', '喜', '欢', '吃', '苹', '果', '。']
3.Tokenisasi berbutir subkata
Tokenisasi berbutir subkata ialah antara kebutiran perkataan dan kebutiran aksara Ia membahagikan teks kepada subkata (subkata) antara perkataan dan aksara sebagai token. Kaedah Tokenisasi subkata biasa termasuk Pengekodan Pasangan Byte (BPE), WordPiece, dsb. Kaedah ini menjana kamus pembahagian perkataan secara automatik dengan mengira frekuensi subrentetan dalam data teks, yang boleh menangani masalah perkataan di luar perkhidmatan (OOV) dengan berkesan sambil mengekalkan integriti semantik tertentu.
helloworld
Andaikan bahawa selepas latihan dengan algoritma BPE, kamus subkata yang dijana mengandungi entri berikut:
h, e, l, o, w, r, d, hel, low, wor, orld
Kebutiran kata kunci Keputusan Tokenized:
['hel', 'low', 'orld']
HelloHello" hel", "rendah", "orld", ini semua gabungan subrentetan frekuensi tinggi yang muncul dalam kamus. Kaedah pembahagian ini bukan sahaja boleh mengendalikan perkataan yang tidak diketahui (contohnya, "helloworld" bukan perkataan Inggeris standard), tetapi juga mengekalkan maklumat semantik tertentu (gabungan sub-perkataan boleh memulihkan perkataan asal).
Dalam bahasa Cina, Tokenisasi berbutir subkata juga membahagikan teks kepada subkata antara aksara Cina dan perkataan sebagai token. Contohnya:
我喜欢吃苹果
Andaikan selepas latihan dengan algoritma BPE, kamus subkata yang dijana mengandungi entri berikut:
我, 喜, 欢, 吃, 苹, 果, 我喜欢, 吃苹果
Kebutiran kata kunci Keputusan Token:
['我', '喜欢', '吃', '苹果']I
vocabulary = {'我': 0,'喜欢': 1,'吃': 2,'苹果': 3,'。': 4}boleh mencari indeks setiap token dalam urutan dalam perbendaharaan kata.
indexed_tokens = [vocabulary[token] for token in token_sequence]print(indexed_tokens)Output: [0, 1, 2, 3, 4].
Atas ialah kandungan terperinci Fahami Tokenisasi dalam satu artikel!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Integriti Data: Menghapuskan Duplikat dalam Excel untuk Analisis Tepat Data bersih adalah penting untuk membuat keputusan yang berkesan. Penyertaan pendua dalam spreadsheet Excel boleh menyebabkan kesilapan dan analisis yang tidak boleh dipercayai. Panduan ini menunjukkan kepada anda bagaimana untuk menghapuskan dup dengan mudah

Menguasai Seni Temuduga Telefon: Panduan Anda untuk Kejayaan Wawancara telefon yang berjaya dapat meningkatkan peluang anda untuk memajukan ke peringkat seterusnya proses permohonan kerja. Kesan pertama yang penting ini, selalunya satu-satunya pra-FAC

Pengenalan Bayangkan mempunyai kuasa untuk membuat keputusan yang tepat untuk diri sendiri dan syarikat anda dalam bidang seperti penjagaan kesihatan, kewangan, atau sukan. Itulah peranan ahli statistik. Dengan peningkatan penggunaan data dalam organisasi, permintaan untuk statistik

Kecerdasan Buatan: Panduan Komprehensif Teknologi telah membolehkan kita membayangkan dunia di mana mesin memahami keutamaan kita, menjangkakan keperluan kita, dan belajar dari interaksi masa lalu untuk memberikan hasil yang lebih baik. Ini bukan fiksyen sains; itu

Pengenalan Dalam dunia analisis data, komunikasi yang berkesan adalah kunci. Grafik Pictogram menawarkan penyelesaian yang kuat, menyampaikan maklumat dalam format visual yang menarik dan mudah dicerna. Tidak seperti carta dan angka kompleks, pictograph -juga

Llama 3.1 Storm 8b: Terobosan dalam model bahasa yang cekap Mengejar model bahasa yang cekap dan tepat telah membawa kepada pembangunan Llama 3.1 Storm 8b, kemajuan yang signifikan dalam kategori model parameter 8 bilion. Ini halus

Git: Panduan penting anda untuk kawalan dan kerjasama versi GIT adalah alat penting untuk pemaju, memudahkan kerjasama projek dan kawalan versi. Panduan ini memberikan arahan mudah untuk memasang git di linux, macOS, dan angin

Model bahasa yang besar (LLMS) telah melonjak populariti, dengan ciri-ciri alat yang secara dramatik memperluaskan keupayaan mereka di luar penjanaan teks mudah. Sekarang, LLMS dapat mengendalikan tugas automasi yang kompleks seperti penciptaan UI dinamik dan autonomi a


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Dreamweaver CS6
Alat pembangunan web visual

Pelayar Peperiksaan Selamat
Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

SublimeText3 Linux versi baharu
SublimeText3 Linux versi terkini

MantisBT
Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

Versi Mac WebStorm
Alat pembangunan JavaScript yang berguna