Heim > Artikel > Backend-Entwicklung > So verwenden Sie Python zum Lesen des Inhalts von Doc- und DocX-Dokumenten unter Ubuntu
Dieser Artikel stellt hauptsächlich die Methode zur Verwendung von Python zum Lesen des Inhalts von Doc- und DocX-Dokumenten unter Ubuntu vor. Jetzt kann ich ihn mit Ihnen teilen.
Docx-Dokument lesen
Das verwendete Paket ist python-docx
1. Installieren Sie das python-docx-Paket
sudo pip install python-docx
2. Verwenden Sie das Paket python-docx zum Lesen von Daten
#encoding:utf8 import docx doc = docx.Document('test.docx') docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) #print(docText)
Das Paket python-docx kann keine Dokumentdokumente verarbeiten . Um den Inhalt des Dokuments zu lesen, müssen Sie das Antiword-Tool verwenden.
Dokumentdokument lesen
1. Gehen Sie zur Website, um Antiword herunterzuladen.
2. Entpacken Sie es nach dem Herunterladen und führen Sie die Befehle „make“ und „make install“ nacheinander im dekomprimierten Ordner aus.
3. Verwenden Sie Antiword, um den Inhalt des Dokumentdokuments zu lesen
#encoding:utf8 import subprocess word = 'test.doc' output = subprocess.check_output(['antiword',word]) print(output)
Verwandte Empfehlungen:
Beispiel für die Verwendung von Python zur Verarbeitung von MS Word
Das obige ist der detaillierte Inhalt vonSo verwenden Sie Python zum Lesen des Inhalts von Doc- und DocX-Dokumenten unter Ubuntu. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!