Maison > Article > développement back-end > Comment utiliser Python pour lire le contenu des documents doc et docx sous Ubuntu
Cet article présente principalement la méthode d'utilisation de python pour lire le contenu des documents doc et docx sous Ubuntu. Il a une certaine valeur de référence. Maintenant, je le partage avec vous. Les amis dans le besoin peuvent s'y référer
. Lire le document docx
Le package utilisé est python-docx
1 Installez le package python-docx
sudo pip install python-docx2. Utilisez le package python-docx pour lire les données
#encoding:utf8 import docx doc = docx.Document('test.docx') docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) #print(docText)python-docx ne peut pas être traité par ce package Pour les documents doc, vous devez utiliser l'outil antiword pour lire le contenu du document doc.
Lire le document doc
1. Allez sur le site pour télécharger antiword.#encoding:utf8 import subprocess word = 'test.doc' output = subprocess.check_output(['antiword',word]) print(output)Recommandations associées :
Méthodes de traitement par lots de fichiers de données et de calculs scientifiques basés sur python
Instances d'utilisation de python pour traiter MS Word
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!