首頁  >  文章  >  後端開發  >  超簡單!用 Python 為圖片和 PDF 去掉浮水印

超簡單!用 Python 為圖片和 PDF 去掉浮水印

WBOY
WBOY轉載
2023-04-12 23:43:012149瀏覽

超簡單!用 Python 為圖片和 PDF 去掉浮水印

線上下載的 pdf 學習資料有些會帶有浮水印,非常影響閱讀。例如下面的圖片就是在 pdf 檔上截取出來的,今天我們就來用Python解決這個問題。

超簡單!用 Python 為圖片和 PDF 去掉浮水印

安裝模組

PIL:Python Imaging Library 是python 上非常強大的影像處理標準庫,但是只能支援python 2.7,於是就有志願者在PIL 的基礎上創建了支援python 3的pillow,並加入了一些新的功能。

pip install pillow

pymupdf 可以用 python 存取副檔名為*.pdf、.xps、.oxps、.epub、.cbz或*.fb2的檔案。也支援了許多流行的圖像格式,包括多頁TIFF圖像。

pip install PyMuPDF

導入需要用到的模組

from PIL import Image
from itertools import product
import fitz
import os

獲取圖片的RGB

pdf 去水印的原理和圖片去水印的原理差不多,小編先從去除上面那張圖片的浮水印開始。

學過電腦的朋友都知道,電腦中用RGB 代表紅綠藍,用(255, 0, 0) 表示紅色,(0, 255, 0) 表示綠色,(0, 0 , 255) 表示藍色,(255, 255, 255) 表示白色,(0, 0, 0) 表示黑色,去浮水印的原理就是將水印的顏色變成白色(255, 255, 255)。

先取得圖片寬和高,用 itertools 模組取得寬和高的笛卡爾積作為像素點。每個像素點的顏色都由 前三名的 RGB 和 第四位的 Alpha 通道組成。 Alpha 通道不需要,只要 RGB 資料。

def remove_img():
image_file = input("请输入图片地址:")
img = Image.open(image_file)
width, height = img.size
for pos in product(range(width), range(height)):
rgb = img.getpixel(pos)[:3]
print(rgb)

圖片去浮水印

用微信截圖的方式查看水印像素點的 RGB。

超簡單!用 Python 為圖片和 PDF 去掉浮水印

可以看到水印的RGB 是(210, 210, 210),這裡用RGB 的和超過620 就判定是水印點,此時將像素顏色替換為白色。最後保存圖片。

rgb = img.getpixel(pos)[:3]
if(sum(rgb) >= 620):
img.putpixel(pos, (255, 255, 255))
img.save('d:/qsy.png')

範例結果:

超簡單!用 Python 為圖片和 PDF 去掉浮水印

PDF 去水印

PDF 去浮水印的原理和圖片去水印的原理大致相同,用PyMuPDF開啟pdf 檔案後,將pdf 的每一頁都轉換為圖片pixmap,pixmap 有它自己的RGB,只需要將pdf 浮水印中的RGB 改為(255, 255, 255) 最後儲存為圖片。

def remove_pdf():
page_num = 0
pdf_file = input("请输入 pdf 地址:")
pdf = fitz.open(pdf_file);
for page in pdf:
pixmap = page.get_pixmap()
for pos in product(range(pixmap.width), range(pixmap.height)):
rgb = pixmap.pixel(pos[0], pos[1])
if(sum(rgb) >= 620):
pixmap.set_pixel(pos[0], pos[1], (255, 255, 255))
pixmap.pil_save(f"d:/pdf_images/{page_num}.png")
print(f"第{page_num}水印去除完成")
page_num = page_num + 1

範例結果:

超簡單!用 Python 為圖片和 PDF 去掉浮水印

圖片轉為pdf

圖片轉pdf 需要注意的是圖片的排序,數字檔案名稱必須先轉換為int 型別後排序。用 PyMuPDF 模組開啟圖片後將圖片以 convertToPDF() 函數轉為單頁的 pdf。插入到新的 pdf 檔案。

def pic2pdf():
pic_dir = input("请输入图片文件夹路径:")
pdf = fitz.open()
img_files = sorted(os.listdir(pic_dir),key=lambda x:int(str(x).split('.')[0]))
for img in img_files:
print(img)
imgdoc = fitz.open(pic_dir + '/' + img)
pdfbytes = imgdoc.convertToPDF()
imgpdf = fitz.open("pdf", pdfbytes)
pdf.insertPDF(imgpdf)
pdf.save("d:/demo.pdf")
pdf.close()

總結

pdf 和圖片上惱人的水印終於可以在強大的 python 面前消失了。小夥伴學廢了嗎?

以上是超簡單!用 Python 為圖片和 PDF 去掉浮水印的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除