Rumah > Artikel > pembangunan bahagian belakang > Python untuk NLP: Bagaimana untuk mengekstrak kata kunci secara automatik daripada fail PDF?
Python untuk NLP: Bagaimana untuk mengekstrak kata kunci secara automatik daripada fail PDF?
Dalam pemprosesan bahasa semula jadi (NLP), pengekstrakan kata kunci ialah tugas penting. Ia dapat mengenal pasti perkataan atau frasa yang paling representatif dan bermaklumat daripada teks. Artikel ini akan memperkenalkan cara menggunakan Python untuk mengekstrak kata kunci daripada fail PDF, dan melampirkan contoh kod tertentu.
Pasang perpustakaan bergantung
Sebelum kita mula, kita perlu memasang beberapa perpustakaan Python yang diperlukan. Perpustakaan ini akan membantu kami memproses fail PDF dan melaksanakan pengekstrakan kata kunci. Sila jalankan arahan berikut dalam terminal untuk memasang perpustakaan yang diperlukan:
pip install PyPDF2 pip install nltk
Import perpustakaan dan modul
Sebelum kita mula menulis kod, kita perlu mengimport kod Perpustakaan dan modul yang diperlukan. Berikut ialah contoh kod untuk perpustakaan dan modul yang perlu diimport:
import PyPDF2 from nltk.corpus import stopwords from nltk.tokenize import word_tokenize from nltk.probability import FreqDist
Membaca fail PDF
Pertama, kita perlu membaca fail PDF dengan Pustaka PyPDF2. Berikut ialah contoh kod yang membaca fail PDF dan menukarkannya kepada teks:
def extract_text_from_pdf(file_path): pdf_file = open(file_path, 'rb') reader = PyPDF2.PdfFileReader(pdf_file) num_pages = reader.numPages text = "" for page in range(num_pages): text += reader.getPage(page).extract_text() return text
Memproses data teks
Sebelum mengekstrak kata kunci, kita perlu Data menjalani beberapa prapemprosesan. Ini termasuk mengalih keluar kata henti, membahagikan perkataan dan mengira kekerapan kejadian, dsb. Berikut ialah kod sampel:
def preprocess_text(text): stop_words = set(stopwords.words('english')) tokens = word_tokenize(text.lower()) filtered_tokens = [token for token in tokens if token.isalnum() and token not in stop_words] fdist = FreqDist(filtered_tokens) return fdist
Ekstrak kata kunci
Kini, kita boleh menggunakan data teks praproses untuk mengekstrak kata kunci. Berikut ialah contoh kod:
def extract_keywords(file_path, top_n): text = extract_text_from_pdf(file_path) fdist = preprocess_text(text) keywords = [pair[0] for pair in fdist.most_common(top_n)] return keywords
Jalankan kod dan cetak hasilnya
Akhirnya, kami boleh menjalankan kod dan mencetak kata kunci yang diekstrak. Berikut ialah kod sampel:
file_path = 'example.pdf' # 替换为你的PDF文件路径 top_n = 10 # 希望提取的关键词数量 keywords = extract_keywords(file_path, top_n) print("提取到的关键词:") for keyword in keywords: print(keyword)
Melalui langkah di atas, kami berjaya menggunakan Python untuk mengekstrak kata kunci secara automatik daripada fail PDF. Anda boleh melaraskan kod dan mengekstrak lebih banyak atau kurang kata kunci mengikut keperluan anda.
Di atas ialah pengenalan ringkas dan contoh kod tentang cara menggunakan Python untuk mengekstrak kata kunci secara automatik daripada fail PDF. Saya harap artikel ini akan membantu anda dalam pengekstrakan kata kunci dalam NLP. Jika anda mempunyai sebarang soalan, sila berasa bebas untuk bertanya kepada saya.
Atas ialah kandungan terperinci Python untuk NLP: Bagaimana untuk mengekstrak kata kunci secara automatik daripada fail PDF?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!