Rumah >pembangunan bahagian belakang >Tutorial Python >Python untuk NLP: Bagaimana untuk mengekstrak dan menganalisis teks penerangan imej daripada fail PDF?

Python untuk NLP: Bagaimana untuk mengekstrak dan menganalisis teks penerangan imej daripada fail PDF?

WBOY
WBOYasal
2023-09-29 18:33:451090semak imbas

Python for NLP:如何从PDF文件中提取并分析图片描述文本?

Python untuk NLP: Bagaimana untuk mengekstrak dan menganalisis teks penerangan imej daripada fail PDF?

Abstrak: Artikel ini akan memperkenalkan cara menggunakan perpustakaan PDF dan perpustakaan OCR (Optical Character Recognition) dalam Python untuk mengekstrak teks penerangan imej (Teks Penerangan Imej) daripada fail PDF dan menjalankan analisis dan pemprosesan selanjutnya. Kami akan menerangkan setiap langkah proses pelaksanaan melalui contoh kod tertentu.

  1. PENGENALAN
    Dengan perkembangan pesat pembelajaran mesin dan teknologi pemprosesan bahasa semula jadi, permintaan orang ramai untuk mengekstrak maklumat daripada data multimedia juga semakin meningkat. Antaranya, mengekstrak teks penerangan imej daripada fail PDF adalah tugas biasa. Contohnya, dalam penyelidikan saintifik, kita mungkin perlu mengekstrak huraian gambar hasil eksperimen daripada kertas saintifik untuk analisis dan pengesahan lanjut.
  2. Preparation
    Sebelum bermula, kita perlu memasang perpustakaan Python berikut:
  3. PyPDF2: untuk membaca dan memproses fail PDF.
  4. Pytesseract: Perpustakaan OCR untuk mengecam teks dalam imej.
  5. Wand: Pustaka Python untuk pemprosesan imej.

Anda boleh menggunakan arahan pip untuk memasang perpustakaan ini:

pip install PyPDF2 pytesseract Wand
  1. Ekstrak imej #🎜🎜, kami perlu mengekstrak imej daripada Ekstrak semua imej daripada fail PDF dan menyimpannya secara setempat. Berikut ialah contoh kod untuk mendapatkan senarai imej:

    import PyPDF2
    from wand.image import Image
    
    filename = 'example.pdf'
    pdf = PyPDF2.PdfFileReader(open(filename, 'rb'))
    
    images = []
    for page_num in range(pdf.numPages):
     image_blob = pdf.getPage(page_num).extract_images()
     for img in image_blob:
         images.append(img[0])
         
    # 保存图片
    for idx, img in enumerate(images):
     img_file = 'image_{}.png'.format(idx)
     try:
         img.save(filename=img_file)
     except Exception as e:
         print(e)

  2. Pengecaman teks gambar

    Seterusnya, kami menggunakan perpustakaan Pytesseract untuk melaksanakan OCR pada yang disimpan gambar dan tukarkan gambar kepada Teks dalam diekstrak.

    import pytesseract
    
    image_text = []
    for img_file in image_files:
     text = pytesseract.image_to_string(Image.open(img_file))
     image_text.append(text)
    
    print(image_text)

  3. Analisis dan Pemprosesan Teks

    Akhirnya, kita boleh menganalisis dan memproses teks penerangan imej dengan lebih lanjut. Sebagai contoh, kita boleh mengira kekerapan perkataan setiap teks penerangan imej untuk mendapatkan perkataan dan frasa biasa. Berikut ialah contoh kod untuk mengira 5 perkataan yang paling kerap dalam setiap teks penerangan imej: Memperkenalkan cara menggunakan perpustakaan PDF dan perpustakaan OCR dalam Python untuk mengekstrak dan menganalisis teks penerangan imej daripada fail PDF. Kami menunjukkan setiap langkah proses pelaksanaan dengan contoh kod khusus. Saya harap artikel ini dapat membantu anda lebih memahami dan menggunakan Python dalam aplikasi praktikal dalam NLP.

    Rujukan:

https://pypi.org/project/PyPDF2/

https://pypi.org / project/pytesseract/

https://pypi.org/project/Wand/

Atas ialah kandungan terperinci Python untuk NLP: Bagaimana untuk mengekstrak dan menganalisis teks penerangan imej daripada fail PDF?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn