Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Contoh pemprosesan bahasa semula jadi dalam Python: pembahagian perkataan

Contoh pemprosesan bahasa semula jadi dalam Python: pembahagian perkataan

王林
王林asal
2023-06-09 22:01:451316semak imbas

Bahasa Python ialah salah satu bahasa pengaturcaraan yang paling popular hari ini, dan kit alat pemprosesan bahasa semula jadi yang berkuasa juga telah menjadi kelebihan uniknya. Natural Language Processing (NLP) ialah hala tuju penyelidikan penting dalam bidang kecerdasan buatan dan mempunyai prospek aplikasi yang luas. Artikel ini terutamanya akan memperkenalkan salah satu contoh pemprosesan bahasa semula jadi dalam Python - pembahagian perkataan.

Tokenisasi ialah tugas asas dalam pemprosesan bahasa semula jadi Tujuannya adalah untuk membahagikan teks kepada unit perbendaharaan kata yang bermakna, seperti perkataan dan tanda baca dalam bahasa Inggeris, dan Perkataan, perkataan, dsb. Pembahagian perkataan ialah langkah pertama dalam pemprosesan bahasa semula jadi dan juga merupakan asas untuk tugasan seperti penandaan sebahagian daripada pertuturan, pengecaman entiti bernama dan analisis sentimen yang akan dilaksanakan dalam langkah seterusnya.

Terdapat banyak alat pembahagian perkataan yang biasa digunakan dalam Python, seperti nltk, spacy dan jieba Dalam artikel ini, kami memperkenalkan penggunaan alat pembahagian perkataan jieba yang biasa digunakan.

Pertama, kita perlu memasang alat pembahagian perkataan jieba. Hanya laksanakan arahan berikut:

!pip install jieba

Selepas pemasangan selesai, kita boleh melakukan pembahagian perkataan pada teks. Katakan kita mempunyai teks bahasa Cina:

text = "自然语言处理是人工智能领域的一个重要方向,其目的是让计算机能够理解自然语言及其含义。"

Kita boleh menggunakan kaedah cut() jieba untuk membahagikannya Kod sampel adalah seperti berikut: kaedah

import jieba

text = "自然语言处理是人工智能领域的一个重要方向,其目的是让计算机能够理解自然语言及其含义。"
seg_list = jieba.cut(text, cut_all=False)

print(" ".join(seg_list))

cut() menerima dua parameter, yang pertama. satu Parameter ialah kandungan teks yang akan dibahagikan Parameter kedua cut_all menunjukkan sama ada hendak menggunakan pembahagian perkataan mod penuh (iaitu, semua perkataan yang boleh dilaksanakan adalah dibahagikan penggunaan pembahagian kata mod tepat. False

Hasil menjalankan kod adalah seperti berikut:

自然语言 处理 是 人工智能 领域 的 一个 重要 方向 , 其 目的 是 让 计算机 能够 理解 自然语言 及 其 含义 。

Dalam contoh ini, kita dapat melihat bahawa pembahagian perkataan jieba dengan betul membahagikan teks kepada unit perkataan yang bermakna. Pada masa yang sama, kami juga boleh melengkapkan operasi pembahagian perkataan lain dengan memanggil parameter berlainan kaedah

: jieba.cut()

  • Kaedah mengembalikan penjana, dan anda boleh terus menggunakan gelung for untuk mengeluarkan hasil segmentasi perkataan secara berulang; Kaedah cut()
  • ialah penyegmen perkataan mod campuran yang boleh membahagikan perkataan secara tepat dan mengimbas semua kemungkinan gabungan perkataan dalam teks; Kaedah cut_for_search() dan
  • akan Mengembalikan hasil pembahagian perkataan jenis senarai.
  • lcut()lcut_for_search()Selain itu, alat pembahagian perkataan jieba juga menyokong kamus tersuai, yang boleh meningkatkan ketepatan pembahagian perkataan. Sebagai contoh, kami boleh mentakrifkan kamus yang mengandungi istilah berkaitan domain, bernama
  • dan memanggil kaedah
tokenizer jieba untuk memuatkan kamus tersuai:

import jieba

# 加载自定义词典
jieba.load_userdict("newdict.txt")

text = "自然语言处理是人工智能领域的一个重要方向,其目的是让计算机能够理解自然语言及其含义。"
seg_list = jieba.cut(text, cut_all=False)

print(" ".join(seg_list))
newdict.txt Melalui contoh mudah ini, kami memahami Learn cara menggunakan alat segmentasi perkataan jieba untuk pemprosesan bahasa semula jadi dalam Python. Segmen perkataan adalah salah satu tugas asas NLP Menguasai penggunaan teknologi segmentasi perkataan juga sangat penting untuk merealisasikan tugas NLP yang kompleks. Melalui pembelajaran dan amalan berterusan, saya percaya bahawa semua orang boleh menguasai teknologi pemprosesan bahasa semula jadi Python dengan lebih baik dan memberikan bantuan yang lebih baik untuk memproses pelbagai data teks. load_userdict()

Atas ialah kandungan terperinci Contoh pemprosesan bahasa semula jadi dalam Python: pembahagian perkataan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn