


Cara menggunakan ungkapan biasa Python untuk pemprosesan fail PDF
Pemprosesan fail PDF ialah tugas biasa dalam kerja harian dalam masyarakat moden Untuk memproses fail PDF dengan lebih cekap, kami boleh menggunakan ungkapan biasa Python untuk mencapainya. Artikel ini akan memperkenalkan cara menggunakan ungkapan biasa Python untuk pemprosesan fail PDF.
1. Memproses fail PDF dengan Python
Python ialah bahasa pengaturcaraan yang popular dengan banyak perpustakaan dan alatan yang boleh digunakan untuk memproses fail PDF. Menggunakan Python untuk memproses fail PDF boleh mencapai automasi dan pemprosesan kelompok, menjimatkan masa dan meningkatkan kecekapan. Berikut menggunakan perpustakaan pypdf2 sebagai contoh untuk memperkenalkan cara menggunakan Python untuk membaca dan mengendalikan fail PDF.
1. Pasang perpustakaan pypdf2
Kita boleh menggunakan pip untuk memasang perpustakaan pypdf2.
pip install pypdf2
2. Baca fail PDF
Gunakan kelas PdfFileReader pustaka pypdf2 untuk membaca fail PDF. Di bawah ialah contoh kod untuk membaca fail PDF.
import PyPDF2 # 打开PDF文件 file = open('example.pdf', 'rb') # 读取PDF文件 pdf_reader = PyPDF2.PdfFileReader(file) # 获取PDF文件的页码数量 num_pages = pdf_reader.getNumPages() # 获取PDF文件的第一页 first_page = pdf_reader.getPage(0) # 关闭文件 file.close()
3. Manipulasi fail PDF
Gunakan pustaka pypdf2 untuk melaksanakan pelbagai operasi pada fail PDF, termasuk pemasukan, pemadaman, penyahsulitan, dsb. Di bawah ialah contoh kod untuk menyulitkan fail PDF.
import PyPDF2 # 打开PDF文件 file = open('example.pdf', 'rb') # 读取PDF文件 pdf_reader = PyPDF2.PdfFileReader(file) # 创建PDF写入器 pdf_writer = PyPDF2.PdfFileWriter() # 对PDF文件进行加密 pdf_writer.encrypt('password') # 将所有页面写入PDF文件 for page in range(pdf_reader.getNumPages()): pdf_writer.addPage(pdf_reader.getPage(page)) # 创建新的PDF文件 output = open('encrypted.pdf', 'wb') # 将加密后的PDF文件写入输出文件 pdf_writer.write(output) # 关闭文件 file.close() output.close()
Di atas adalah pengenalan ringkas kepada pemprosesan fail PDF. Berikut akan memperkenalkan secara terperinci cara menggunakan ungkapan biasa Python untuk pemprosesan fail PDF.
2. Ungkapan biasa Python
Ungkapan biasa Python ialah bahasa yang digunakan untuk memadankan corak rentetan. Ungkapan biasa boleh digunakan untuk carian rentetan, penggantian dan penghuraian. Python mempunyai modul semula terbina dalam yang boleh digunakan untuk memproses ungkapan biasa. Di bawah ialah beberapa metakarakter asas untuk ungkapan biasa.
1. Watak biasa
Watak biasa mewakili diri mereka dalam ungkapan biasa. Contohnya, ungkapan biasa abc sepadan dengan rentetan abc.
2. Watak istimewa
Watak istimewa mempunyai makna istimewa dalam ungkapan biasa. Sebagai contoh, ungkapan biasa d sepadan dengan mana-mana aksara angka.
Jadual berikut menyenaraikan beberapa aksara khas yang biasa digunakan.
字符 | 描述 |
---|---|
d | 匹配任何数字字符 |
w | 匹配任何字母数字字符 |
s | 匹配任何空白字符 |
. | 匹配除换行符外的任何字符 |
^ | 匹配字符串的开头 |
$ | 匹配字符串的结尾 |
* | 匹配前面的字符零次或多次 |
+ | 匹配前面的字符一次或多次 |
? | 匹配前面的字符零次或一次 |
3. Watak sengkang ke belakang
Watak sengkang ke belakang digunakan untuk melepaskan watak istimewa. Contohnya, ungkapan biasa d sepadan dengan mana-mana aksara angka, manakala ungkapan biasa w sepadan dengan mana-mana aksara abjad angka.
4. Set aksara
Set aksara digunakan untuk memadankan mana-mana watak dalam satu set aksara. Contohnya, ungkapan biasa [Aa] sepadan dengan aksara A atau a.
5. Ulang
Ulang digunakan untuk memadankan berbilang aksara berulang. Contohnya, ungkapan biasa d{3} sepadan dengan tiga aksara angka berturut-turut.
3. Ungkapan biasa Python memproses fail PDF
Fail PDF mengandungi banyak metadata, seperti pengarang, tajuk, subjek, dsb. Kami boleh menggunakan ungkapan biasa Python untuk mencari dan mengekstrak maklumat metadata dalam fail PDF.
Berikut ialah contoh kod untuk mencari maklumat pengarang dalam fail PDF.
import PyPDF2 import re # 打开PDF文件 file = open('example.pdf', 'rb') # 读取PDF文件 pdf_reader = PyPDF2.PdfFileReader(file) # 获取PDF文件元数据 metadata = pdf_reader.getDocumentInfo() # 提取作者信息 author_regex = r'/Authors*((.*?))' author_match = re.search(author_regex, metadata) if author_match: author = author_match.group(1) else: author = 'Unknown' # 打印作者信息 print(author) # 关闭文件 file.close()
Kod di atas menggunakan modul semula untuk mencari maklumat pengarang dalam metadata fail PDF. Ungkapan biasa /Pengarang((.?)) sepadan dengan medan pengarang dalam metadata dan menggunakan kaedah kumpulan() untuk mengekstrak nama pengarang.
4. Kesimpulan
Artikel ini memperkenalkan cara menggunakan ungkapan biasa Python untuk memproses fail PDF. Menggunakan Python untuk memproses fail PDF boleh mencapai automasi dan pemprosesan kelompok, menjimatkan masa dan meningkatkan kecekapan. Ungkapan biasa Python ialah alat pemadanan rentetan yang berkuasa yang boleh membantu kami mencari dan mengekstrak maklumat dalam fail PDF dengan cepat. Dalam kerja sebenar, kita boleh menulis skrip Python yang berbeza mengikut keperluan untuk mempercepatkan pemprosesan dan analisis fail PDF.
Atas ialah kandungan terperinci Cara menggunakan ungkapan biasa Python untuk pemprosesan fail PDF. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Slicingapythonlistisdoneusingthesyntaxlist [Mula: berhenti: langkah] .here'showitworks: 1) startistheindexofthefirstelementtoinclude.2) stopistheindexofthefirstelementToexclude.3)

NumpyallowsforvariousoperationsonArrays: 1) BasicarithmeticLikeaddition, penolakan, pendaraban, danDivision; 2) Pengerjaan AdvancedSuchasmatrixmultiplication; 3) Element-WiseOperationswithoutExplicitLoops;

Arraysinpython, terutamanya yang ada, adalah, penawaran yang ditawarkan.1) numpyarraysenableFandlingoflargedataSetsandClexPleperationsLikemovingAverages.2)

ListsSandnumpyAraySInpythonHavedifferMememoryFootPrints: listsaremoreflexibleButlessMememory-cekap, pemanmak

ToensurePythonscriptsbehaveCorrectlyCrossdevelopment, pementasan, dan produksi, usetheseStregies: 1) Environmentvariablesforsimplesettings, 2) ConfigurationFilesfilePlexSetups, dan3) Dynamicloadingforadaptability.EachMethodeFerPiReFiteReFiteShitsandReFitSandRiteFitSandRiteFitSandRiteFiteSandRiteReFitSandRiteReFitSandRiteFiteShiteSandReFiteShitsandReShitsAnfitsEts,

Sintaks asas untuk pengirim senarai python adalah senarai [Mula: Berhenti: Langkah]. 1. Start adalah indeks elemen pertama yang disertakan, 2.Stop adalah indeks elemen pertama yang dikecualikan, dan 3. Step menentukan saiz langkah antara elemen. Hirisan tidak hanya digunakan untuk mengekstrak data, tetapi juga untuk mengubah suai dan membalikkan senarai.

ListsOutPerFormAraySin: 1) DynamicsizingandFrequentInsertions/Deletions, 2) StoringHeterogeneousData, dan3) MemoryeficiencyForSparsedata, ButmayHaveslightPerformancecostSincertaor.

ToConvertapythonarraytoalist, usethelist () constructororageneratorexpression.1) importTheArrayModuleAndCreateeanArray.2) uselist (arr) atau [xforxinarr] toConvertittoalist, urusanPengerasiPormanceAndMemoryeficiencyForlargedatasets.


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

SecLists
SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

EditPlus versi Cina retak
Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

PhpStorm versi Mac
Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

DVWA
Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini
