Heim >Backend-Entwicklung >Python-Tutorial >So verwenden Sie zwei Zeilen Python-Code, um PDF in Word zu konvertieren

So verwenden Sie zwei Zeilen Python-Code, um PDF in Word zu konvertieren

王林nach vorne: 2023-04-28 18:25:062494Durchsuche

一、安装依赖包

pip install --index https://pypi.mirrors.ustc.edu.cn/simple/ python-office

二、pdf转word

2.1

[1/4] Eröffnungsdokument...

[INFO] [2/ 4] Dokument wird analysiert...

[WARNUNG] Der Zeitstempel „erstellt“ scheint sehr niedrig zu sein. als Unix-Zeitstempel betrachten
[WARNUNG] Der „geänderte“ Zeitstempel scheint sehr niedrig zu sein; als Unix-Zeitstempel betrachten
[WARNUNG] Der 'erstellte' Zeitstempel scheint sehr niedrig zu sein; als Unix-Zeitstempel betrachten
[WARNUNG] Der „geänderte“ Zeitstempel scheint sehr niedrig zu sein; betrachtet als Unix-Zeitstempel
[INFO] [3/4] Parsing-Seiten...
[INFO] (1/9) Seite 1
[INFO] (2/9) Seite 2
[INFO] (3/9) Seite 3
[INFO] (4/9) Seite 4
[INFO] (5/9) Seite 5
[INFO] (6/9) Seite 6
[INFO] (7/9) Seite 7
[INFO] ( 8/9) Seite 8
[INFO] (9/9) Seite 9
[INFO] [4/4] Seiten erstellen...
[INFO] (1/9) Seite 1
[INFO] (2/9 ) Seite 2
[INFO] (3/9) Seite 3
[INFO] (4/9) Seite 4
[INFO] (5/9) Seite 5
[INFO] (6/9) Seite 6
[INFO ] (7/9) Seite 7
[INFO] (8/9) Seite 8
[INFO] (9/9) Seite 9
[INFO] In 1,30 Sekunden beendet.

Prozess beendet mit Exit-Code 0

2.2 pdf内容

2.3 转换后的word So verwenden Sie zwei Zeilen Python-Code, um PDF in Word zu konvertieren

由上可见，效果还不错。 So verwenden Sie zwei Zeilen Python-Code, um PDF in Word zu konvertieren

补充

除了上文的办法,小编还为大家整理了更多Python实现的PDF转Word方法，需要的可以参考一下

方法一：

import office
office.pdf.pdf2docx(file_path = &#39;test.pdf&#39;)

方法二：

加密过的PDF转word

import os
from configparser import ConfigParser
from io import StringIO
from io import open
from concurrent.futures import ProcessPoolExecutor

from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from docx import Document


def read_from_pdf(file_path):
    with open(file_path, &#39;rb&#39;) as file:
        resource_manager = PDFResourceManager()
        return_str = StringIO()
        lap_params = LAParams()

        device = TextConverter(
            resource_manager, return_str, laparams=lap_params)
        process_pdf(resource_manager, device, file)
        device.close()

        content = return_str.getvalue()
        return_str.close()
        return content


def save_text_to_word(content, file_path):
    doc = Document()
    for line in content.split(&#39;\n&#39;):
        paragraph = doc.add_paragraph()
        paragraph.add_run(remove_control_characters(line))
    doc.save(file_path)


def remove_control_characters(content):
    mpa = dict.fromkeys(range(32))
    return content.translate(mpa)


def pdf_to_word(pdf_file_path, word_file_path):
    content = read_from_pdf(pdf_file_path)
    save_text_to_word(content, word_file_path)


def main():
    config_parser = ConfigParser()
    config_parser.read(&#39;config.cfg&#39;)
    config = config_parser[&#39;default&#39;]

    tasks = []
    with ProcessPoolExecutor(max_workers=int(config[&#39;max_worker&#39;])) as executor:
        for file in os.listdir(config[&#39;pdf_folder&#39;]):
            extension_name = os.path.splitext(file)[1]
            if extension_name != &#39;.pdf&#39;:
                continue
            file_name = os.path.splitext(file)[0]
            pdf_file = config[&#39;pdf_folder&#39;] + &#39;/&#39; + file
            word_file = config[&#39;word_folder&#39;] + &#39;/&#39; + file_name + &#39;.docx&#39;
            print(&#39;正在处理: &#39;, file)
            result = executor.submit(pdf_to_word, pdf_file, word_file)
            tasks.append(result)
    while True:
        exit_flag = True
        for task in tasks:
            if not task.done():
                exit_flag = False
        if exit_flag:
            print(&#39;完成&#39;)
            exit(0)


if __name__ == &#39;__main__&#39;:
    main()

Das obige ist der detaillierte Inhalt vonSo verwenden Sie zwei Zeilen Python-Code, um PDF in Word zu konvertieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Python timestamp unix word

Stellungnahme：

Dieser Artikel ist reproduziert unter:yisu.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：So führen Sie Python-Code auf Github ausNächster Artikel：So führen Sie Python-Code auf Github aus

In Verbindung stehende Artikel

Mehr sehen