使用 Python 将 PDF 转换为文本
PDF 文件通常用于安全地共享文档,但提取文本内容可能具有挑战性。本题探讨了能够将 PDF 文档转换为文本的 Python 模块。
用户尝试了利用 PyPDF 的代码,但输出缺少空格,导致无法使用。此回复提供了替代解决方案:PDFMiner。
PDFMiner:
PDFMiner 是一个 Python 模块,可以将 PDF 文件转换为 HTML、SGML 或“标记 PDF”格式。带标签的 PDF 格式特别有用,因为它可以轻松转换为纯文本。
用法:
要使用 PDFMiner,请按照以下步骤操作:
安装PDFMiner:
pip install pdfminer
从 PDF 文件中提取文本:
import pdfminer from pdfminer.high_level import extract_text text = extract_text("path/to/pdf_file.pdf")
Python 3 版本:
对于 Python 3,PDFMiner 可用at:
此替代解决方案解决了 PyPDF 用户面临的挑战,提供了更高效的解决方案Python中从PDF文件中提取文本的方法。
以上是如何在 Python 中从 PDF 文件中提取文本:用 PDFMiner 替换 PyPDF?的详细内容。更多信息请关注PHP中文网其他相关文章!