Maison  >  Article  >  développement back-end  >  Comment utiliser Python pour lire le contenu des documents doc et docx sous Ubuntu

Comment utiliser Python pour lire le contenu des documents doc et docx sous Ubuntu

不言
不言original
2018-05-08 14:18:123104parcourir

Cet article présente principalement la méthode d'utilisation de python pour lire le contenu des documents doc et docx sous Ubuntu. Il a une certaine valeur de référence. Maintenant, je le partage avec vous. Les amis dans le besoin peuvent s'y référer

. Lire le document docx

Le package utilisé est python-docx

1 Installez le package python-docx

sudo pip install python-docx

2. Utilisez le package python-docx pour lire les données

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx ne peut pas être traité par ce package Pour les documents doc, vous devez utiliser l'outil antiword pour lire le contenu du document doc.

Lire le document doc

1. Allez sur le site pour télécharger antiword.


2. Après le téléchargement, décompressez-le et exécutez les commandes make et make install en séquence dans le dossier décompressé.


3. Utilisez antiword pour lire le contenu du document doc

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

Recommandations associées :


Méthodes de traitement par lots de fichiers de données et de calculs scientifiques basés sur python

Instances d'utilisation de python pour traiter MS Word

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn