>백엔드 개발 >파이썬 튜토리얼 >Python을 사용하여 Ubuntu에서 doc 및 docx 문서의 내용을 읽는 방법

Python을 사용하여 Ubuntu에서 doc 및 docx 문서의 내용을 읽는 방법

不言
不言원래의
2018-05-08 14:18:123136검색

이 글은 Ubuntu에서 Python을 사용하여 doc 및 docx 문서를 읽는 콘텐츠 방법을 주로 소개합니다. 이제는 필요한 친구들이 참조할 수 있도록 공유합니다.

docx 문서 읽기

사용된 패키지는 python-docx입니다

1. python-docx 패키지를 설치하세요

sudo pip install python-docx

2. 데이터를 읽으려면 python-docx 패키지를 사용하세요

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx 처리됨 문서 문서의 경우 문서 문서의 내용을 읽으려면 안티워드 도구를 사용해야 합니다.

문서 읽기

1. 홈페이지에 접속하여 안티워드를 다운로드 받으세요.

2. 다운로드 후 압축을 풀고 추출된 폴더에서 make 및 make install 명령을 실행합니다.

3. 안티워드를 사용하여 문서 내용 읽기

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

관련 권장 사항:

dat 파일의 Python 일괄 처리 및 과학적인 계산 방법을 기반으로

Python을 사용하여 처리하는 사례 MS 워드

위 내용은 Python을 사용하여 Ubuntu에서 doc 및 docx 문서의 내용을 읽는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.