Rumah >pembangunan bahagian belakang >Tutorial Python >Python untuk NLP: Bagaimana untuk mengekstrak kata kunci secara automatik daripada fail PDF?

Python untuk NLP: Bagaimana untuk mengekstrak kata kunci secara automatik daripada fail PDF?

PHPzasal: 2023-09-27 20:09:381660semak imbas

Python for NLP：如何自动提取PDF文件中的关键词？

Dalam pemprosesan bahasa semula jadi (NLP), pengekstrakan kata kunci ialah tugas penting. Ia dapat mengenal pasti perkataan atau frasa yang paling representatif dan bermaklumat daripada teks. Artikel ini akan memperkenalkan cara menggunakan Python untuk mengekstrak kata kunci daripada fail PDF, dan melampirkan contoh kod tertentu.

Pasang perpustakaan bergantung
Sebelum kita mula, kita perlu memasang beberapa perpustakaan Python yang diperlukan. Perpustakaan ini akan membantu kami memproses fail PDF dan melaksanakan pengekstrakan kata kunci. Sila jalankan arahan berikut dalam terminal untuk memasang perpustakaan yang diperlukan:
```
pip install PyPDF2
pip install nltk
```
Import perpustakaan dan modul
Sebelum kita mula menulis kod, kita perlu mengimport kod Perpustakaan dan modul yang diperlukan. Berikut ialah contoh kod untuk perpustakaan dan modul yang perlu diimport:
```
import PyPDF2
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist
```

Membaca fail PDF
Pertama, kita perlu membaca fail PDF dengan Pustaka PyPDF2. Berikut ialah contoh kod yang membaca fail PDF dan menukarkannya kepada teks:

def extract_text_from_pdf(file_path):
 pdf_file = open(file_path, 'rb')
 reader = PyPDF2.PdfFileReader(pdf_file)
 num_pages = reader.numPages
 text = ""
 for page in range(num_pages):
     text += reader.getPage(page).extract_text()
 return text

Memproses data teks
Sebelum mengekstrak kata kunci, kita perlu Data menjalani beberapa prapemprosesan. Ini termasuk mengalih keluar kata henti, membahagikan perkataan dan mengira kekerapan kejadian, dsb. Berikut ialah kod sampel:

def preprocess_text(text):
 stop_words = set(stopwords.words('english'))
 tokens = word_tokenize(text.lower())
 filtered_tokens = [token for token in tokens if token.isalnum() and token not in stop_words]
 fdist = FreqDist(filtered_tokens)
 return fdist

Ekstrak kata kunci
Kini, kita boleh menggunakan data teks praproses untuk mengekstrak kata kunci. Berikut ialah contoh kod:

def extract_keywords(file_path, top_n):
 text = extract_text_from_pdf(file_path)
 fdist = preprocess_text(text)
 keywords = [pair[0] for pair in fdist.most_common(top_n)]
 return keywords

Jalankan kod dan cetak hasilnya
Akhirnya, kami boleh menjalankan kod dan mencetak kata kunci yang diekstrak. Berikut ialah kod sampel:

file_path = 'example.pdf'  # 替换为你的PDF文件路径
top_n = 10  # 希望提取的关键词数量

keywords = extract_keywords(file_path, top_n)
print("提取到的关键词：")
for keyword in keywords:
 print(keyword)

Melalui langkah di atas, kami berjaya menggunakan Python untuk mengekstrak kata kunci secara automatik daripada fail PDF. Anda boleh melaraskan kod dan mengekstrak lebih banyak atau kurang kata kunci mengikut keperluan anda.

Di atas ialah pengenalan ringkas dan contoh kod tentang cara menggunakan Python untuk mengekstrak kata kunci secara automatik daripada fail PDF. Saya harap artikel ini akan membantu anda dalam pengekstrakan kata kunci dalam NLP. Jika anda mempunyai sebarang soalan, sila berasa bebas untuk bertanya kepada saya.

Atas ialah kandungan terperinci Python untuk NLP: Bagaimana untuk mengekstrak kata kunci secara automatik daripada fail PDF?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Python for nlp

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Bagaimana untuk mengekstrak maklumat utama daripada fail PDF menggunakan Python untuk NLP?Artikel seterusnya：Bagaimana untuk mengekstrak maklumat utama daripada fail PDF menggunakan Python untuk NLP?

Artikel berkaitan

Lihat lagi