ホームページ >バックエンド開発 >Python チュートリアル >2 行の Python コードを使用して PDF を Word に変換する方法

2 行の Python コードを使用して PDF を Word に変換する方法

王林転載: 2023-04-28 18:25:062497ブラウズ

一、取付依赖包

pip install --index https://pypi.mirrors.ustc.edu.cn/simple/ python-office

二、pdf转word

2.1代コード实现

import office
office.pdf.pdf2docx(file_path = &#39;test.pdf&#39;)

运行程以下：

[1/4] ドキュメントを開いています...
[情報] [2/4] ドキュメントを分析中...
[警告] 「作成された」タイムスタンプが非常に低いようです; UNIX タイムスタンプとしての考慮
[警告] 「変更された」タイムスタンプは非常に低いようです。 UNIX タイムスタンプとしての考慮
[警告] 「作成された」タイムスタンプは非常に低いようです。 UNIX タイムスタンプとしての考慮
[警告] 「変更された」タイムスタンプは非常に低いようです。 UNIX タイムスタンプとして扱う
[情報] [3/4] ページを解析中...
[情報] (1/9) ページ 1
[情報] (2/9) ページ 2
[ [情報] (3/9) ページ 3
[情報] (4/9) ページ 4
[情報] (5/9) ページ 5
[情報] (6/9) ページ 6
[情報] (7/9) ページ 7
[情報] (8/9) ページ 8
[情報] (9/9) ページ 9
[情報] [4/4] ページの作成...
[情報] (1/9) ページ 1
[情報] (2/9) ページ 2
[情報] (3/9) ページ 3
[情報] (4) /9) ページ 4
[情報] (5/9) ページ 5
[情報] (6/9) ページ 6
[情報] (7/9) ページ 7
[情報] (8/9) ページ 8
[情報] (9/9) ページ 9
[情報] 1.30 秒で終了しました。

プロセスは終了コード 0

# で終了しました##2.2 pdf コンテンツ

2 行の Python コードを使用して PDF を Word に変換する方法 #2.3 変換後の単語

## 上で確認でき、効果も問題ありません。 2 行の Python コードを使用して PDF を Word に変換する方法

补充

上文の法を除いて、小编はさらに多くの Python の実践的な PDFWord メソッドを大家で整理しました。必要な参考資料 1:

import os
from configparser import ConfigParser
from io import StringIO
from io import open
from concurrent.futures import ProcessPoolExecutor

from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from docx import Document


def read_from_pdf(file_path):
    with open(file_path, &#39;rb&#39;) as file:
        resource_manager = PDFResourceManager()
        return_str = StringIO()
        lap_params = LAParams()

        device = TextConverter(
            resource_manager, return_str, laparams=lap_params)
        process_pdf(resource_manager, device, file)
        device.close()

        content = return_str.getvalue()
        return_str.close()
        return content


def save_text_to_word(content, file_path):
    doc = Document()
    for line in content.split(&#39;\n&#39;):
        paragraph = doc.add_paragraph()
        paragraph.add_run(remove_control_characters(line))
    doc.save(file_path)


def remove_control_characters(content):
    mpa = dict.fromkeys(range(32))
    return content.translate(mpa)


def pdf_to_word(pdf_file_path, word_file_path):
    content = read_from_pdf(pdf_file_path)
    save_text_to_word(content, word_file_path)


def main():
    config_parser = ConfigParser()
    config_parser.read(&#39;config.cfg&#39;)
    config = config_parser[&#39;default&#39;]

    tasks = []
    with ProcessPoolExecutor(max_workers=int(config[&#39;max_worker&#39;])) as executor:
        for file in os.listdir(config[&#39;pdf_folder&#39;]):
            extension_name = os.path.splitext(file)[1]
            if extension_name != &#39;.pdf&#39;:
                continue
            file_name = os.path.splitext(file)[0]
            pdf_file = config[&#39;pdf_folder&#39;] + &#39;/&#39; + file
            word_file = config[&#39;word_folder&#39;] + &#39;/&#39; + file_name + &#39;.docx&#39;
            print(&#39;正在处理: &#39;, file)
            result = executor.submit(pdf_to_word, pdf_file, word_file)
            tasks.append(result)
    while True:
        exit_flag = True
        for task in tasks:
            if not task.done():
                exit_flag = False
        if exit_flag:
            print(&#39;完成&#39;)
            exit(0)


if __name__ == &#39;__main__&#39;:
    main()

方法二：

加密过のPDFワード

#-*- coding: UTF-8 -*- 
#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
import importlib
importlib.reload(sys)
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import *
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
import os
#设置工作目录文件夹
os.chdir(r&#39;c:/users/dicey/desktop/codes/pdf-docx&#39;)
#解析pdf文件函数
def parse(pdf_path):
 fp = open(&#39;diya.pdf&#39;, &#39;rb&#39;) # 以二进制读模式打开
 # 用文件对象来创建一个pdf文档分析器
 parser = PDFParser(fp)
 # 创建一个PDF文档
 doc = PDFDocument()
 # 连接分析器 与文档对象
 parser.set_document(doc)
 doc.set_parser(parser)
 # 提供初始化密码
 # 如果没有密码 就创建一个空的字符串
 doc.initialize()
 # 检测文档是否提供txt转换，不提供就忽略
 if not doc.is_extractable:
  raise PDFTextExtractionNotAllowed
 else:
  # 创建PDf 资源管理器 来管理共享资源
  rsrcmgr = PDFResourceManager()
  # 创建一个PDF设备对象
  laparams = LAParams()
  device = PDFPageAggregator(rsrcmgr, laparams=laparams)
  # 创建一个PDF解释器对象
  interpreter = PDFPageInterpreter(rsrcmgr, device)
  # 用来计数页面，图片，曲线，figure，水平文本框等对象的数量
  num_page, num_image, num_curve, num_figure, num_TextBoxHorizontal = 0, 0, 0, 0, 0
  # 循环遍历列表，每次处理一个page的内容
  for page in doc.get_pages(): # doc.get_pages() 获取page列表
   num_page += 1 # 页面增一
   interpreter.process_page(page)
   # 接受该页面的LTPage对象
   layout = device.get_result()
   for x in layout:
    if isinstance(x,LTImage): # 图片对象
     num_image += 1
    if isinstance(x,LTCurve): # 曲线对象
     num_curve += 1
    if isinstance(x,LTFigure): # figure对象
     num_figure += 1
    if isinstance(x, LTTextBoxHorizontal): # 获取文本内容
     num_TextBoxHorizontal += 1 # 水平文本框对象增一
     # 保存文本内容
     with open(r&#39;test2.doc&#39;, &#39;a&#39;,encoding=&#39;utf-8&#39;) as f: #生成doc文件的文件名及路径
      results = x.get_text()
      f.write(results)
      f.write(&#39;\n&#39;)
  print(&#39;对象数量：\n&#39;,&#39;页面数：%s\n&#39;%num_page,&#39;图片数：%s\n&#39;%num_image,&#39;曲线数：%s\n&#39;%num_curve,&#39;水平文本框：%s\n&#39;
    %num_TextBoxHorizontal)

if __name__ == &#39;__main__&#39;:
 pdf_path = r&#39;diya.pdf&#39; #pdf文件路径及文件名
 parse(pdf_path)

以上が2 行の Python コードを使用して PDF を Word に変換する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python timestamp unix word

声明：

この記事はyisu.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：Github で Python コードを実行する方法次の記事：Github で Python コードを実行する方法

続きを見る