Cara menggunakan ungkapan biasa Python untuk pemprosesan fail PDF-Tutorial Python-php.cn

Rumah

pembangunan bahagian belakang

Tutorial Python

Cara menggunakan ungkapan biasa Python untuk pemprosesan fail PDF

PHPz

Jun 22, 2023 pm 11:07 PM

pythonungkapan biasapemprosesan pdf

Pemprosesan fail PDF ialah tugas biasa dalam kerja harian dalam masyarakat moden Untuk memproses fail PDF dengan lebih cekap, kami boleh menggunakan ungkapan biasa Python untuk mencapainya. Artikel ini akan memperkenalkan cara menggunakan ungkapan biasa Python untuk pemprosesan fail PDF.

1. Memproses fail PDF dengan Python

Python ialah bahasa pengaturcaraan yang popular dengan banyak perpustakaan dan alatan yang boleh digunakan untuk memproses fail PDF. Menggunakan Python untuk memproses fail PDF boleh mencapai automasi dan pemprosesan kelompok, menjimatkan masa dan meningkatkan kecekapan. Berikut menggunakan perpustakaan pypdf2 sebagai contoh untuk memperkenalkan cara menggunakan Python untuk membaca dan mengendalikan fail PDF.

1. Pasang perpustakaan pypdf2

Kita boleh menggunakan pip untuk memasang perpustakaan pypdf2.

pip install pypdf2

2. Baca fail PDF

Gunakan kelas PdfFileReader pustaka pypdf2 untuk membaca fail PDF. Di bawah ialah contoh kod untuk membaca fail PDF.

import PyPDF2

# 打开PDF文件
file = open('example.pdf', 'rb')

# 读取PDF文件
pdf_reader = PyPDF2.PdfFileReader(file)

# 获取PDF文件的页码数量
num_pages = pdf_reader.getNumPages()

# 获取PDF文件的第一页
first_page = pdf_reader.getPage(0)

# 关闭文件
file.close()

3. Manipulasi fail PDF

Gunakan pustaka pypdf2 untuk melaksanakan pelbagai operasi pada fail PDF, termasuk pemasukan, pemadaman, penyahsulitan, dsb. Di bawah ialah contoh kod untuk menyulitkan fail PDF.

import PyPDF2

# 打开PDF文件
file = open('example.pdf', 'rb')

# 读取PDF文件
pdf_reader = PyPDF2.PdfFileReader(file)

# 创建PDF写入器
pdf_writer = PyPDF2.PdfFileWriter()

# 对PDF文件进行加密
pdf_writer.encrypt('password')

# 将所有页面写入PDF文件
for page in range(pdf_reader.getNumPages()):
    pdf_writer.addPage(pdf_reader.getPage(page))

# 创建新的PDF文件
output = open('encrypted.pdf', 'wb')

# 将加密后的PDF文件写入输出文件
pdf_writer.write(output)

# 关闭文件
file.close()
output.close()

Di atas adalah pengenalan ringkas kepada pemprosesan fail PDF. Berikut akan memperkenalkan secara terperinci cara menggunakan ungkapan biasa Python untuk pemprosesan fail PDF.

2. Ungkapan biasa Python

Ungkapan biasa Python ialah bahasa yang digunakan untuk memadankan corak rentetan. Ungkapan biasa boleh digunakan untuk carian rentetan, penggantian dan penghuraian. Python mempunyai modul semula terbina dalam yang boleh digunakan untuk memproses ungkapan biasa. Di bawah ialah beberapa metakarakter asas untuk ungkapan biasa.

1. Watak biasa

Watak biasa mewakili diri mereka dalam ungkapan biasa. Contohnya, ungkapan biasa abc sepadan dengan rentetan abc.

2. Watak istimewa

Watak istimewa mempunyai makna istimewa dalam ungkapan biasa. Sebagai contoh, ungkapan biasa d sepadan dengan mana-mana aksara angka.

Jadual berikut menyenaraikan beberapa aksara khas yang biasa digunakan.

字符	描述
d	匹配任何数字字符
w	匹配任何字母数字字符
s	匹配任何空白字符
.	匹配除换行符外的任何字符
^	匹配字符串的开头
$	匹配字符串的结尾
*	匹配前面的字符零次或多次
+	匹配前面的字符一次或多次
?	匹配前面的字符零次或一次

3. Watak sengkang ke belakang

Watak sengkang ke belakang digunakan untuk melepaskan watak istimewa. Contohnya, ungkapan biasa d sepadan dengan mana-mana aksara angka, manakala ungkapan biasa w sepadan dengan mana-mana aksara abjad angka.

4. Set aksara

Set aksara digunakan untuk memadankan mana-mana watak dalam satu set aksara. Contohnya, ungkapan biasa [Aa] sepadan dengan aksara A atau a.

5. Ulang

Ulang digunakan untuk memadankan berbilang aksara berulang. Contohnya, ungkapan biasa d{3} sepadan dengan tiga aksara angka berturut-turut.

3. Ungkapan biasa Python memproses fail PDF

Fail PDF mengandungi banyak metadata, seperti pengarang, tajuk, subjek, dsb. Kami boleh menggunakan ungkapan biasa Python untuk mencari dan mengekstrak maklumat metadata dalam fail PDF.

Berikut ialah contoh kod untuk mencari maklumat pengarang dalam fail PDF.

import PyPDF2
import re

# 打开PDF文件
file = open('example.pdf', 'rb')

# 读取PDF文件
pdf_reader = PyPDF2.PdfFileReader(file)

# 获取PDF文件元数据
metadata = pdf_reader.getDocumentInfo()

# 提取作者信息
author_regex = r'/Authors*((.*?))'
author_match = re.search(author_regex, metadata)

if author_match:
    author = author_match.group(1)
else:
    author = 'Unknown'

# 打印作者信息
print(author)

# 关闭文件
file.close()

Kod di atas menggunakan modul semula untuk mencari maklumat pengarang dalam metadata fail PDF. Ungkapan biasa /Pengarang((.?)) sepadan dengan medan pengarang dalam metadata dan menggunakan kaedah kumpulan() untuk mengekstrak nama pengarang.

4. Kesimpulan

Artikel ini memperkenalkan cara menggunakan ungkapan biasa Python untuk memproses fail PDF. Menggunakan Python untuk memproses fail PDF boleh mencapai automasi dan pemprosesan kelompok, menjimatkan masa dan meningkatkan kecekapan. Ungkapan biasa Python ialah alat pemadanan rentetan yang berkuasa yang boleh membantu kami mencari dan mengekstrak maklumat dalam fail PDF dengan cepat. Dalam kerja sebenar, kita boleh menulis skrip Python yang berbeza mengikut keperluan untuk mempercepatkan pemprosesan dan analisis fail PDF.

Atas ialah kandungan terperinci Cara menggunakan ungkapan biasa Python untuk pemprosesan fail PDF. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Bagaimana anda memotong senarai python?May 02, 2025 am 12:14 AM

Slicingapythonlistisdoneusingthesyntaxlist [Mula: berhenti: langkah] .here'showitworks: 1) startistheindexofthefirstelementtoinclude.2) stopistheindexofthefirstelementToexclude.3)

Apakah beberapa operasi biasa yang boleh dilakukan pada array numpy?May 02, 2025 am 12:09 AM

NumpyallowsforvariousoperationsonArrays: 1) BasicarithmeticLikeaddition, penolakan, pendaraban, danDivision; 2) Pengerjaan AdvancedSuchasmatrixmultiplication; 3) Element-WiseOperationswithoutExplicitLoops;

Bagaimana tatasusunan digunakan dalam analisis data dengan python?May 02, 2025 am 12:09 AM

Arraysinpython, terutamanya yang ada, adalah, penawaran yang ditawarkan.1) numpyarraysenableFandlingoflargedataSetsandClexPleperationsLikemovingAverages.2)

Bagaimanakah jejak memori senarai dibandingkan dengan jejak memori array di Python?May 02, 2025 am 12:08 AM

ListsSandnumpyAraySInpythonHavedifferMememoryFootPrints: listsaremoreflexibleButlessMememory-cekap, pemanmak

Bagaimana anda mengendalikan konfigurasi khusus persekitaran semasa menggunakan skrip python yang boleh dilaksanakan?May 02, 2025 am 12:07 AM

ToensurePythonscriptsbehaveCorrectlyCrossdevelopment, pementasan, dan produksi, usetheseStregies: 1) Environmentvariablesforsimplesettings, 2) ConfigurationFilesfilePlexSetups, dan3) Dynamicloadingforadaptability.EachMethodeFerPiReFiteReFiteShitsandReFitSandRiteFitSandRiteFitSandRiteFiteSandRiteReFitSandRiteReFitSandRiteFiteShiteSandReFiteShitsandReShitsAnfitsEts,

Bagaimana anda memotong array python?May 01, 2025 am 12:18 AM

Sintaks asas untuk pengirim senarai python adalah senarai [Mula: Berhenti: Langkah]. 1. Start adalah indeks elemen pertama yang disertakan, 2.Stop adalah indeks elemen pertama yang dikecualikan, dan 3. Step menentukan saiz langkah antara elemen. Hirisan tidak hanya digunakan untuk mengekstrak data, tetapi juga untuk mengubah suai dan membalikkan senarai.

Di bawah keadaan apa yang mungkin senarai lebih baik daripada tatasusunan?May 01, 2025 am 12:06 AM

ListsOutPerFormAraySin: 1) DynamicsizingandFrequentInsertions/Deletions, 2) StoringHeterogeneousData, dan3) MemoryeficiencyForSparsedata, ButmayHaveslightPerformancecostSincertaor.

Bagaimana anda boleh menukar array python ke senarai python?May 01, 2025 am 12:05 AM

ToConvertapythonarraytoalist, usethelist () constructororageneratorexpression.1) importTheArrayModuleAndCreateeanArray.2) uselist (arr) atau [xforxinarr] toConvertittoalist, urusanPengerasiPormanceAndMemoryeficiencyForlargedatasets.

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

4 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

3 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

1 bulan yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

3 minggu yang laluByDDD

Di mana untuk mencari kunci pejabat tapak di atomfall

1 bulan yang laluByDDD

Tunjukkan Lagi

Alat panas

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7912

1652

1411

1303

1248