Heim  >  Artikel  >  Backend-Entwicklung  >  So verwenden Sie Python zum Lesen des Inhalts von Doc- und DocX-Dokumenten unter Ubuntu

So verwenden Sie Python zum Lesen des Inhalts von Doc- und DocX-Dokumenten unter Ubuntu

不言
不言Original
2018-05-08 14:18:123106Durchsuche

Dieser Artikel stellt hauptsächlich die Methode zur Verwendung von Python zum Lesen des Inhalts von Doc- und DocX-Dokumenten unter Ubuntu vor. Jetzt kann ich ihn mit Ihnen teilen.

Docx-Dokument lesen

Das verwendete Paket ist python-docx

1. Installieren Sie das python-docx-Paket

sudo pip install python-docx

2. Verwenden Sie das Paket python-docx zum Lesen von Daten

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

Das Paket python-docx kann keine Dokumentdokumente verarbeiten . Um den Inhalt des Dokuments zu lesen, müssen Sie das Antiword-Tool verwenden.

Dokumentdokument lesen

1. Gehen Sie zur Website, um Antiword herunterzuladen.

2. Entpacken Sie es nach dem Herunterladen und führen Sie die Befehle „make“ und „make install“ nacheinander im dekomprimierten Ordner aus.

3. Verwenden Sie Antiword, um den Inhalt des Dokumentdokuments zu lesen

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

Verwandte Empfehlungen:

Methode zur Stapelverarbeitung von Datendateien und wissenschaftlichen Berechnungen basierend auf Python

Beispiel für die Verwendung von Python zur Verarbeitung von MS Word

Das obige ist der detaillierte Inhalt vonSo verwenden Sie Python zum Lesen des Inhalts von Doc- und DocX-Dokumenten unter Ubuntu. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn