Rumah >pembangunan bahagian belakang >Tutorial Python >[Python NLTK] Stemming untuk mendapatkan bentuk akar perkataan dengan mudah

[Python NLTK] Stemming untuk mendapatkan bentuk akar perkataan dengan mudah

WBOY
WBOYke hadapan
2024-02-25 10:04:30786semak imbas

【Python NLTK】词干提取,轻松获取词语的根形式

1. Pengenalan kepada NLTK

NLTK (Natural Language Toolkit) ialah pemprosesan bahasa semula jadiperpustakaan dalam python, yang menyediakan set kaya dengan alat dan algoritma untuk memproses data teks dalam pelbagai bahasa. Salah satu kelebihan hebat NLTK ialah kebolehlanjutannya, pengguna boleh menambah alat dan algoritma mereka sendiri dengan mudah untuk melanjutkan fungsinya.

2. NLTK berpunca

  1. Gambaran Keseluruhan Stemming

Stemming, juga dikenali sebagai pengekstrakan akar, ialah proses mengurangkan perkataan kepada bentuk pangkal atau akarnya. Tujuannya adalah untuk mengurangkan bilangan perkataan dalam teks, memudahkan pemprosesan teks, dan meningkatkan kecekapan dan ketepatan perolehan semula teks. Contohnya, perkataan "lari", "lari", "lari" dan "lari" semuanya boleh diekstrak sebagai batang "lari".

  1. Kaedah stemming NLTK

NLTK menyediakan pelbagai kaedah stemming, antaranya:

  • Porter Stemmer: Porter Stemmer ialah salah satu kaedah stemming yang paling biasa digunakan Ia adalah algoritma berasaskan peraturan yang boleh memulihkan kata-kata ke stemnya dengan cepat.
  • Lancaster Stemmer: Lancaster Stemmer juga merupakan algoritma berasaskan peraturan, tetapi ia lebih kompleks daripada Porter Stemmer dan boleh mengekstrak batang yang lebih tepat.
  • Snowball Stemmer: Snowball Stemmer ialah algoritma stem bebas bahasa yang boleh mengendalikan perkataan dalam berbilang bahasa.

3. Contoh berpunca NLTK

  1. Import NLTK

Pertama, anda perlu mengimport perpustakaan NLTK.

import nltk
  1. Memulakan stemmer

Anda kemudian boleh menggunakan modul stem NLTK untuk memulakan stemmer.

from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
  1. Ekstrak batang menggunakan stemmer

Akhir sekali, anda boleh menggunakan kaedah stem() stemmer untuk mengeluarkan batang perkataan.

stemmer.stem("running")
# "run"

IV Ringkasan

Stemming ialah salah satu teknologi asas dalam pemprosesan bahasa semula jadi NLTK menyediakan pelbagai kaedah stemming, yang boleh melaksanakan stemming dengan mudah. Artikel ini memperkenalkan penggunaan stemming NLTK dan menunjukkan cara menggunakan NLTK untuk stemming melalui contoh.

Atas ialah kandungan terperinci [Python NLTK] Stemming untuk mendapatkan bentuk akar perkataan dengan mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:lsjlt.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam