首頁 >後端開發 >Python教學 >Ubuntu下使用python讀取doc和docx文件的內容方法

Ubuntu下使用python讀取doc和docx文件的內容方法

不言
不言原創
2018-05-08 14:18:123162瀏覽

這篇文章主要介紹了關於Ubuntu下使用python讀取doc和docx文檔的內容方法,有著一定的參考價值,現在分享給大家,有需要的朋友可以參考一下

##讀取docx文件

使用的套件是python-docx

1. 安裝python-docx套件

sudo pip install python-docx

2. 使用python-docx套件讀取資料

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx這個套件是不能處理doc文件的,要讀取doc文檔內容的話需要使用antiword這個工具。

讀取doc文件

1. 到網站下載antiword。


2. 下載完畢後解壓,在解壓縮得到的資料夾中依序執行make和make install指令。


3. 使用antiword讀取doc文件內容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

##相關推薦:


#基於python批次處理dat檔案及科學計算的方法

用python處理MS Word的實例

以上是Ubuntu下使用python讀取doc和docx文件的內容方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn