Python에서 리샘플링 없이 PDF에서 이미지를 추출하는 방법은 무엇입니까?
PDF 문서에서 원본 해상도와 형식으로 이미지를 추출하려면 리샘플링을 수행하면 PyMuPDF 모듈을 활용할 수 있습니다. 이 Python 모듈을 사용하면 PDF 파일을 효율적으로 처리하고 해당 내용을 조작할 수 있습니다. PyMuPDF를 사용하여 이미지를 추출하는 방법은 다음과 같습니다.
<code class="python">import fitz doc = fitz.open("input.pdf") for page_num in range(len(doc)): for img in doc.getPageImageList(page_num): xref = img[0] pix = fitz.Pixmap(doc, xref) if pix.n < 5: # Check if it's grayscale or RGB pix.writePNG(f"page_{page_num}_img_{xref}.png") else: # Convert CMYK to RGB before saving pix1 = fitz.Pixmap(fitz.csRGB, pix) pix1.writePNG(f"page_{page_num}_img_{xref}.png")</code>
이 코드에서는 PDF 내의 페이지와 이미지를 반복합니다. 'xref' 변수는 이미지의 고유 식별자를 나타냅니다. 이미지의 색상 공간(RGB 또는 CMYK)에 따라 PNG 이미지를 직접 작성하거나 저장하기 전에 CMYK를 RGB로 변환합니다.
또는 fitz 버전 1.19.6을 사용하는 경우 다음을 사용할 수 있습니다. 더 나은 가시성을 위해 진행률 표시줄을 사용하여 추출을 수행하려면 다음 코드를 사용하세요.
<code class="python">import os import fitz from tqdm import tqdm workdir = "path_to_pdf_folder" for each_path in os.listdir(workdir): if ".pdf" in each_path: doc = fitz.Document(os.path.join(workdir, each_path)) for i in tqdm(range(len(doc)), desc="pages"): for img in tqdm(doc.get_page_images(i), desc="page_images"): xref = img[0] image = doc.extract_image(xref) pix = fitz.Pixmap(doc, xref) pix.save(os.path.join(workdir, f"{each_path[:-4]}_p{i}-{xref}.png"))</code>
이 코드 조각을 사용하면 원본 해상도와 형식을 유지하면서 PDF에서 이미지를 추출할 수 있습니다.
위 내용은 Python을 사용하여 리샘플링 없이 PDF에서 고해상도 이미지를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!