집 > Q&A > 본문

文本处理 - 求教使用python库提取pdf的方法？

使用过pypdf 对英文pdf文档处理比较简单，但是对中文的支持好像不太好

使用过textract 看文档支持的格式比较多方法也比较简单，但是老师出错

-- coding: utf-8 --

import textract
import pyPdf
import pdf2text
import pdfminer
import chardet

text = textract.process("F:ll.pdf",method = 'pdfminer')
print text

这个出错是编码问题

-- coding: utf-8 --

import textract
import pyPdf
import pdfminer
import chardet

text = textract.process("F:ll.pdf",method = 'pdfminer')
print text

这个出错类型不清楚

少使用了pdf2text库，但是出错情况好像不一样。

pdfminer库还没看过，看着好像麻烦一些，求解一下解析提取中文的pdf的方法。谢谢

怪我咯2871일 전611

모든 응답(1)나는 대답할 것이다

PHPz2017-04-18 10:26:58

이전에 사용했던 pdfminerpip install pdfminer

으아악

회신하다

취소회신하다