Rumah > Artikel > pembangunan bahagian belakang > Contoh pemprosesan bahasa semula jadi dalam Python: pembahagian perkataan
Bahasa Python ialah salah satu bahasa pengaturcaraan yang paling popular hari ini, dan kit alat pemprosesan bahasa semula jadi yang berkuasa juga telah menjadi kelebihan uniknya. Natural Language Processing (NLP) ialah hala tuju penyelidikan penting dalam bidang kecerdasan buatan dan mempunyai prospek aplikasi yang luas. Artikel ini terutamanya akan memperkenalkan salah satu contoh pemprosesan bahasa semula jadi dalam Python - pembahagian perkataan.
Tokenisasi ialah tugas asas dalam pemprosesan bahasa semula jadi Tujuannya adalah untuk membahagikan teks kepada unit perbendaharaan kata yang bermakna, seperti perkataan dan tanda baca dalam bahasa Inggeris, dan Perkataan, perkataan, dsb. Pembahagian perkataan ialah langkah pertama dalam pemprosesan bahasa semula jadi dan juga merupakan asas untuk tugasan seperti penandaan sebahagian daripada pertuturan, pengecaman entiti bernama dan analisis sentimen yang akan dilaksanakan dalam langkah seterusnya.
Terdapat banyak alat pembahagian perkataan yang biasa digunakan dalam Python, seperti nltk, spacy dan jieba Dalam artikel ini, kami memperkenalkan penggunaan alat pembahagian perkataan jieba yang biasa digunakan.
Pertama, kita perlu memasang alat pembahagian perkataan jieba. Hanya laksanakan arahan berikut:
!pip install jieba
Selepas pemasangan selesai, kita boleh melakukan pembahagian perkataan pada teks. Katakan kita mempunyai teks bahasa Cina:
text = "自然语言处理是人工智能领域的一个重要方向,其目的是让计算机能够理解自然语言及其含义。"
Kita boleh menggunakan kaedah cut()
jieba untuk membahagikannya Kod sampel adalah seperti berikut: kaedah
import jieba text = "自然语言处理是人工智能领域的一个重要方向,其目的是让计算机能够理解自然语言及其含义。" seg_list = jieba.cut(text, cut_all=False) print(" ".join(seg_list))
cut()
menerima dua parameter, yang pertama. satu Parameter ialah kandungan teks yang akan dibahagikan Parameter kedua cut_all
menunjukkan sama ada hendak menggunakan pembahagian perkataan mod penuh (iaitu, semua perkataan yang boleh dilaksanakan adalah dibahagikan penggunaan pembahagian kata mod tepat. False
自然语言 处理 是 人工智能 领域 的 一个 重要 方向 , 其 目的 是 让 计算机 能够 理解 自然语言 及 其 含义 。Dalam contoh ini, kita dapat melihat bahawa pembahagian perkataan jieba dengan betul membahagikan teks kepada unit perkataan yang bermakna. Pada masa yang sama, kami juga boleh melengkapkan operasi pembahagian perkataan lain dengan memanggil parameter berlainan kaedah
: jieba.cut()
cut()
cut_for_search()
dan lcut()
lcut_for_search()
Selain itu, alat pembahagian perkataan jieba juga menyokong kamus tersuai, yang boleh meningkatkan ketepatan pembahagian perkataan. Sebagai contoh, kami boleh mentakrifkan kamus yang mengandungi istilah berkaitan domain, bernama import jieba # 加载自定义词典 jieba.load_userdict("newdict.txt") text = "自然语言处理是人工智能领域的一个重要方向,其目的是让计算机能够理解自然语言及其含义。" seg_list = jieba.cut(text, cut_all=False) print(" ".join(seg_list))
newdict.txt
Melalui contoh mudah ini, kami memahami Learn cara menggunakan alat segmentasi perkataan jieba untuk pemprosesan bahasa semula jadi dalam Python. Segmen perkataan adalah salah satu tugas asas NLP Menguasai penggunaan teknologi segmentasi perkataan juga sangat penting untuk merealisasikan tugas NLP yang kompleks. Melalui pembelajaran dan amalan berterusan, saya percaya bahawa semua orang boleh menguasai teknologi pemprosesan bahasa semula jadi Python dengan lebih baik dan memberikan bantuan yang lebih baik untuk memproses pelbagai data teks. load_userdict()
Atas ialah kandungan terperinci Contoh pemprosesan bahasa semula jadi dalam Python: pembahagian perkataan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!