Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana untuk menggunakan Python untuk NLP untuk mengenal pasti dan memproses tarikh dan masa dalam fail PDF?

Bagaimana untuk menggunakan Python untuk NLP untuk mengenal pasti dan memproses tarikh dan masa dalam fail PDF?

PHPz
PHPzasal
2023-09-28 09:10:481441semak imbas

如何利用Python for NLP识别和处理PDF文件中的日期和时间?

Bagaimana untuk menggunakan Python untuk NLP untuk mengenal pasti dan memproses tarikh dan masa dalam fail PDF?

NLP (Pemprosesan Bahasa Asli) ialah bidang penyelidikan yang digunakan secara meluas yang melibatkan banyak tugas, termasuk klasifikasi teks, pengiktirafan entiti bernama, analisis sentimen, dsb. Dalam NLP, memproses tarikh dan masa adalah tugas penting kerana banyak data teks mengandungi maklumat tentang tarikh dan masa. Artikel ini akan memperkenalkan cara menggunakan Python untuk NLP untuk mengenal pasti dan memproses tarikh dan masa dalam fail PDF, dan memberikan contoh kod khusus.

Sebelum kita mula, kita perlu memasang beberapa perpustakaan Python yang diperlukan. Pustaka utama yang akan kami gunakan termasuk pdfminer.six untuk menghurai fail PDF dan perpustakaan NLTK (Natural Language Toolkit) untuk tugasan NLP. Jika anda masih belum memasang perpustakaan ini, anda boleh memasangnya menggunakan arahan berikut:

pip install pdfminer.six
pip install nltk

Selepas memasang perpustakaan ini, kami boleh mula menulis kod. Pertama, kita perlu mengimport perpustakaan yang diperlukan:

import re
import nltk
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

Seterusnya, kita perlu menentukan fungsi untuk menghuraikan fail PDF dan mengekstrak kandungan teks di dalamnya:

def extract_text_from_pdf(pdf_path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(pdf_path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos = set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()

    return text

Dalam kod di atas, kami menggunakan fungsi yang disediakan oleh pdfminer perpustakaan untuk menghuraikan fail PDF dan menyimpan kandungan teks yang dihuraikan dalam rentetan.

Seterusnya, kita perlu menentukan fungsi untuk mencari corak tarikh dan masa daripada teks dan mengekstraknya:

def extract_dates_and_times(text):
    sentences = nltk.sent_tokenize(text)
    dates_and_times = []

    for sentence in sentences:
        words = nltk.word_tokenize(sentence)
        tagged_words = nltk.pos_tag(words)
        
        pattern = r"(?:[0-9]{1,2}(?:st|nd|rd|th)?s+ofs+)?(?:jan(?:uary)?|feb(?:ruary)?|mar(?:ch)?|apr(?:il)?|may|jun(?:e)?|jul(?:y)?|aug(?:ust)?|sep(?:tember)?|oct(?:ober)?|nov(?:ember)?|dec(?:ember)?)(?:s*[0-9]{1,4})?(?:s*(?:a.?d.?|b.?c.?e.?))?|(?:(?:[0-9]+:)?[0-9]{1,2}(?::[0-9]{1,2})?(?:s*(?:a.?m.?|p.?m.?))?)"

        matches = re.findall(pattern, sentence, flags=re.IGNORECASE)
        dates_and_times.extend(matches)

    return dates_and_times

Dalam kod di atas, kita mula-mula menggunakan fungsi sent_tokenize yang disediakan oleh perpustakaan nltk untuk memisahkan teks kepada ayat , Kemudian gunakan fungsi word_tokenize untuk memisahkan setiap ayat kepada perkataan. Seterusnya, kami menggunakan fungsi pos_tag nltk untuk menandakan perkataan dengan sebahagian daripada ucapan untuk membantu kami mengenal pasti tarikh dan masa. Akhir sekali, kami menggunakan ungkapan biasa untuk memadankan corak pada tarikh dan masa dan menyimpannya dalam senarai hasil.

Akhir sekali, kita boleh menulis kod untuk memanggil fungsi di atas dan menggunakan tarikh dan masa yang diekstrak:

pdf_path = "example.pdf"
text = extract_text_from_pdf(pdf_path)
dates_and_times = extract_dates_and_times(text)

print("Dates and times found in the PDF:")
for dt in dates_and_times:
    print(dt)

Dalam kod di atas, kami menganggap bahawa laluan fail PDF ialah "example.pdf", dan kami memanggil extract_text_from_pdf berfungsi untuk mendapatkan kandungan teks dan memanggil fungsi extract_dates_and_times untuk mengekstrak tarikh dan masa. Akhirnya, kami mencetak tarikh dan masa yang diekstrak.

Dalam aplikasi sebenar, kami boleh melakukan pemprosesan dan analisis selanjutnya seperti yang diperlukan, seperti menukar tarikh dan masa yang diekstrak ke dalam format tertentu, atau melakukan operasi seterusnya yang lain berdasarkan tarikh dan masa.

Ringkasan:

Artikel ini memperkenalkan cara menggunakan Python untuk NLP untuk mengenal pasti dan memproses tarikh dan masa dalam fail PDF. Kami menggunakan perpustakaan pdfminer untuk menghuraikan fail PDF, pustaka NLTK untuk tugasan NLP, dan kemudian menggunakan padanan corak ungkapan biasa untuk mengekstrak tarikh dan masa. Dengan menulis contoh kod yang sepadan, kami boleh mengekstrak tarikh dan masa daripada fail PDF dan melakukan pemprosesan dan analisis seterusnya. Teknologi dan kaedah ini boleh digunakan dalam banyak senario praktikal, seperti dalam bidang seperti pengarkiban dokumen automatik, pengekstrakan maklumat dan analisis data.

Atas ialah kandungan terperinci Bagaimana untuk menggunakan Python untuk NLP untuk mengenal pasti dan memproses tarikh dan masa dalam fail PDF?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn