>  기사  >  백엔드 개발  >  치수를 변경하지 않고 Python을 사용하여 PDF에서 고해상도 이미지를 추출하는 방법은 무엇입니까?

치수를 변경하지 않고 Python을 사용하여 PDF에서 고해상도 이미지를 추출하는 방법은 무엇입니까?

Susan Sarandon
Susan Sarandon원래의
2024-10-22 07:53:30641검색

How to Extract High-Resolution Images from PDFs Using Python without Altering Dimensions?

리샘플링 없이 Python에서 PDF에서 기본 해상도 이미지 추출

레이아웃을 유지하면서 기본 해상도와 형식으로 PDF에서 이미지를 추출하는 방법은 다음과 같습니다. 도전. 그러나 Python의 PyMuPDF 모듈은 간단한 솔루션을 제공합니다.

PyMuPDF 사용

PyMuPDF는 이미지를 PNG 파일로 출력하여 고해상도를 보장하고 원본 형식(예: TIFF)을 유지할 수 있습니다. , JPEG). 다음 코드는 그 사용법을 보여줍니다.

<code class="python">import fitz
doc = fitz.open("file.pdf")
for i in range(len(doc)):
    for img in doc.getPageImageList(i):
        xref = img[0]
        pix = fitz.Pixmap(doc, xref)
        if pix.n < 5:       # GRAY or RGB
            pix.writePNG("p%s-%s.png" % (i, xref))
        else:               # CMYK
            pix1 = fitz.Pixmap(fitz.csRGB, pix)
            pix1.writePNG("p%s-%s.png" % (i, xref))
            pix1 = None
        pix = None</code>

fitz 1.19.6용 수정 버전

fitz 최신 버전(1.19.6)의 경우 다음이 수정되었습니다. 코드를 사용할 수 있습니다:

<code class="python">import os
import fitz
from tqdm import tqdm

workdir = "your_folder"

for each_path in os.listdir(workdir):
    if ".pdf" in each_path:
        doc = fitz.Document((os.path.join(workdir, each_path)))

        for i in tqdm(range(len(doc)), desc="pages"):
            for img in tqdm(doc.get_page_images(i), desc="page_images"):
                xref = img[0]
                image = doc.extract_image(xref)
                pix = fitz.Pixmap(doc, xref)
                pix.save(os.path.join(workdir, "%s_p%s-%s.png" % (each_path[:-4], i, xref)))</code>

이 수정된 코드는 진행률 표시줄 표시를 위해 tqdm을 활용하고 이미지 추출 및 저장 프로세스를 최적화합니다.

위 내용은 치수를 변경하지 않고 Python을 사용하여 PDF에서 고해상도 이미지를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.