ホームページ >バックエンド開発 >Python チュートリアル >PythonでPDFを操作するいくつかの方法をまとめます

PythonでPDFを操作するいくつかの方法をまとめます

coldplay.xixi転載: 2020-10-08 17:50:244199ブラウズ

Python チュートリアル 今日のコラムでは、Python を使用して PDF を操作するいくつかの方法をまとめます。

まえがき

みなさん、こんにちは。Python で PDF を操作する事例が書きました。 PDF バッチマージ を経験する前に、このケースの本来の目的は、便利なスクリプトを提供することだけであり、原理についてはあまり説明されていません。PDF 用の非常に実用的なモジュールが含まれています。処理、PyPDF2。この記事では、主に

os モジュールの包括的なアプリケーション
を中心に、このモジュールを注意深く分析します。 glob モジュールの包括的なアプリケーション
PyPDF2 モジュールの操作

#02

基本操作

##PyPDF2 モジュールをインポートするコードは通常次のとおりです:

from PyPDF2 import PdfFileReader, PdfFileWriter复制代码

ここでは 2 つのメソッドがインポートされます:

PdfFileReader はリーダーとして理解できます
PdfFileWriter がわかるライター向け

次に、いくつかの事例を通じて、この 2 つのツールの素晴らしさをさらに理解していきます。使用するサンプルファイルは pdf請求書 5 枚中

各請求書 PDF は 2 ページで構成されます:

MERGE

1 つの仕事は、

5 つの請求書 PDF を 10 ページに結合することです。ここで読み手と書き手はどのように協力すべきでしょうか？

ロジックは次のとおりです:

リーダーは読み取ったコンテンツをライターに渡します
ライターは一律に新しい PDF に出力します

ここにはもう 1 つの重要な知識ポイントがあります。リーダーは読み取ったコンテンツをページごとにライターに渡すことしかできません。

したがって、ロジックのステップ 1 と 2 は、実際には

独立したステップではありませんしかし、リーダーが PDF を読み取った後、ページごとに読み取られると、PDF のすべてのページが循環されます。作家に渡ります。最後に、すべての読み取り作業が完了するまで待ってから出力します。

コードを見るとアイデアがより明確になります:

from PyPDF2 import PdfFileReader, PdfFileWriter

path = r&#39;C:\Users\xxxxxx&#39;
pdf_writer = PdfFileWriter()

for i in range(1, 6):
    pdf_reader = PdfFileReader(path + &#39;/INV{}.pdf&#39;.format(i))
    for page in range(pdf_reader.getNumPages()):
        pdf_writer.addPage(pdf_reader.getPage(page))

with open(path + r&#39;\合并PDF\merge.pdf&#39;, &#39;wb&#39;) as out:
    pdf_writer.write(out)复制代码

すべてのコンテンツは同じライターに渡され、最終的に一緒に出力される必要があるため、ライターの初期化はループ本体の外側。

ループ本体の内側にある場合は、

PDF にアクセスするたびに新しいライターが生成され、各リーダーがライターに引き継がれるようになります。コンテンツは 繰り返し上書きされます ため、マージ要件は達成できません!ループ本体の先頭のコード:

for i in range(1, 6):
    pdf_reader = PdfFileReader(path + &#39;/INV{}.pdf&#39;.format(i))复制代码

目的は、ループするたびに新しい PDF ファイルは、後続の操作のためにリーダーに渡されます。実はこの書き方はあまりお勧めできませんが、各 PDF の命名はたまたま非常に規則的であるため、ループする番号を直接指定することもできます。より良い方法は、

glob

モジュールを使用することです。コード内の

import glob
for file in glob.glob(path + &#39;/*.pdf&#39;):
    pdf_reader = PdfFileReader(path)复制代码

pdf_reader.getNumPages():

を使用すると、リーダー内のページ数を取得できます。 range はリーダーのすべてのページを横断できます。

pdf_writer.addPage(pdf_reader.getPage(page))

は、現在のページをライターに渡すことができます。最後に、

with

を使用して新しい PDF を作成し、ライターの pdf_writer.write(out) メソッドを通じて出力します。 04

Split

マージ操作におけるリーダーとライターの協力を理解していれば、分割は簡単に理解できます。

INV1.pdf

を 2 つの個別の PDF ドキュメントに分割する例を取り上げます。最初にロジックを見てみましょう:

読者が PDF ドキュメントを読み取ります

読者が手にしますページごとにライターに渡されます。
ライターは、取得したすべてのページをすぐに出力します。
このコードロジックを通じて、次のことも理解できます。 Writer は、ループの外側ではなく、PDF 読み取りループの各ページのループ本体内に存在する必要があります。

コードは非常に単純です:

from PyPDF2 import PdfFileReader, PdfFileWriter
path = r&#39;C:\Users\xxx&#39;
pdf_reader = PdfFileReader(path + &#39;\INV1.pdf&#39;)

for page in range(pdf_reader.getNumPages()):
    # 遍历到每一页挨个生成写入器
    pdf_writer = PdfFileWriter()
    pdf_writer.addPage(pdf_reader.getPage(page))
    # 写入器被添加一页后立即输出产生pdf
    with open(path + &#39;\INV1-{}.pdf&#39;.format(page + 1), &#39;wb&#39;) as out:
        pdf_writer.write(out)复制代码

ウォーターマーク

今回の作業は、

INV1.pdf

透かしとして使用する画像を Word に挿入し、適切な位置に調整して PDF ファイルとして保存します。その後、コードを作成できます。追加で

copy モジュールを使用する必要があります。詳細な説明については、下の図を参照してください:

以上がPythonでPDFを操作するいくつかの方法をまとめますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事はjuejin.imで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：Python Flask はクロスドメインの問題を解決します次の記事：Python Flask はクロスドメインの問題を解決します

続きを見る