ホームページ >バックエンド開発 >Python チュートリアル >Python を使用して PDF からネイティブ解像度の画像を抽出する方法

Python を使用して PDF からネイティブ解像度の画像を抽出する方法

Barbara Streisand
Barbara Streisandオリジナル
2024-10-22 07:50:031102ブラウズ

How to Extract Native Resolution Images from PDFs Using Python

Python で PDF からネイティブ解像度の画像を抽出する

PDF から画像を正確に抽出するには、元の解像度と形式を維持することが重要です。画像。 PyMuPDF は、このタスクに便利なソリューションを提供します。

まず、PyMuPDF モジュールをインポートし、ターゲット PDF ファイルを開きます:

<code class="python">import fitz
doc = fitz.open("file.pdf")</code>

getPageImageList を使用してページを反復処理し、画像を抽出します。

<code class="python">for i in range(len(doc)):
    for img in doc.getPageImageList(i):
        xref = img[0]
        pix = fitz.Pixmap(doc, xref)</code>

画像の種類に応じて、画像を PNG として書き込むか、PNG として書き込む前に CMYK 画像を RGB に変換します:

<code class="python">if pix.n < 5:
            pix.writePNG("p%s-%s.png" % (i, xref))
else:               
            pix1 = fitz.Pixmap(fitz.csRGB, pix)
            pix1.writePNG("p%s-%s.png" % (i, xref))</code>

探索する追加リソースは次のとおりです:

  • [PyMuPDF 画像抽出ドキュメント](https://pymupdf.readthedocs.io/en/latest/image-extraction.html)
  • [FitZ 1.19.6 用の改良された FitZ 画像抽出]( https://stackoverflow.com/a/74345380)

この Python ソリューションを使用すると、ネイティブの解像度と形式を維持しながら PDF から画像を効率的に抽出でき、正確な再現と分析を保証できます。

以上がPython を使用して PDF からネイティブ解像度の画像を抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。