線上下載的 pdf 學習資料有些會帶有浮水印,非常影響閱讀。例如下面的圖片就是在 pdf 檔上截取出來的,今天我們就來用Python解決這個問題。
PIL:Python Imaging Library 是python 上非常強大的影像處理標準庫,但是只能支援python 2.7,於是就有志願者在PIL 的基礎上創建了支援python 3的pillow,並加入了一些新的功能。
pip install pillow
pymupdf 可以用 python 存取副檔名為*.pdf、.xps、.oxps、.epub、.cbz或*.fb2的檔案。也支援了許多流行的圖像格式,包括多頁TIFF圖像。
pip install PyMuPDF
導入需要用到的模組
from PIL import Image from itertools import product import fitz import os
pdf 去水印的原理和圖片去水印的原理差不多,小編先從去除上面那張圖片的浮水印開始。
學過電腦的朋友都知道,電腦中用RGB 代表紅綠藍,用(255, 0, 0) 表示紅色,(0, 255, 0) 表示綠色,(0, 0 , 255) 表示藍色,(255, 255, 255) 表示白色,(0, 0, 0) 表示黑色,去浮水印的原理就是將水印的顏色變成白色(255, 255, 255)。
先取得圖片寬和高,用 itertools 模組取得寬和高的笛卡爾積作為像素點。每個像素點的顏色都由 前三名的 RGB 和 第四位的 Alpha 通道組成。 Alpha 通道不需要,只要 RGB 資料。
def remove_img(): image_file = input("请输入图片地址:") img = Image.open(image_file) width, height = img.size for pos in product(range(width), range(height)): rgb = img.getpixel(pos)[:3] print(rgb)
用微信截圖的方式查看水印像素點的 RGB。
可以看到水印的RGB 是(210, 210, 210),這裡用RGB 的和超過620 就判定是水印點,此時將像素顏色替換為白色。最後保存圖片。
rgb = img.getpixel(pos)[:3] if(sum(rgb) >= 620): img.putpixel(pos, (255, 255, 255)) img.save('d:/qsy.png')
範例結果:
PDF 去浮水印的原理和圖片去水印的原理大致相同,用PyMuPDF開啟pdf 檔案後,將pdf 的每一頁都轉換為圖片pixmap,pixmap 有它自己的RGB,只需要將pdf 浮水印中的RGB 改為(255, 255, 255) 最後儲存為圖片。
def remove_pdf(): page_num = 0 pdf_file = input("请输入 pdf 地址:") pdf = fitz.open(pdf_file); for page in pdf: pixmap = page.get_pixmap() for pos in product(range(pixmap.width), range(pixmap.height)): rgb = pixmap.pixel(pos[0], pos[1]) if(sum(rgb) >= 620): pixmap.set_pixel(pos[0], pos[1], (255, 255, 255)) pixmap.pil_save(f"d:/pdf_images/{page_num}.png") print(f"第{page_num}水印去除完成") page_num = page_num + 1
範例結果:
圖片轉pdf 需要注意的是圖片的排序,數字檔案名稱必須先轉換為int 型別後排序。用 PyMuPDF 模組開啟圖片後將圖片以 convertToPDF() 函數轉為單頁的 pdf。插入到新的 pdf 檔案。
def pic2pdf(): pic_dir = input("请输入图片文件夹路径:") pdf = fitz.open() img_files = sorted(os.listdir(pic_dir),key=lambda x:int(str(x).split('.')[0])) for img in img_files: print(img) imgdoc = fitz.open(pic_dir + '/' + img) pdfbytes = imgdoc.convertToPDF() imgpdf = fitz.open("pdf", pdfbytes) pdf.insertPDF(imgpdf) pdf.save("d:/demo.pdf") pdf.close()
pdf 和圖片上惱人的水印終於可以在強大的 python 面前消失了。小夥伴學廢了嗎?
以上是超簡單!用 Python 為圖片和 PDF 去掉浮水印的詳細內容。更多資訊請關注PHP中文網其他相關文章!