Maison >développement back-end >Tutoriel Python >Comment extraire des informations d'un fichier python ? Comprendre l'analyse et l'extraction de texte Python en 3 minutes

Comment extraire des informations d'un fichier python ? Comprendre l'analyse et l'extraction de texte Python en 3 minutes

Tomorinoriginal: 2018-08-16 17:38:4012557parcourir

单位收集了很多word格式的调查表，领导需要收集表单里的信息，我就把所有调查表放一个文件里，写了个python小程序把所需的信息打印出来，这个小程序就能从Python文本中分析信息并提取信息

#coding:utf-8
 
import os
import win32com
from win32com.client import Dispatch, constants
from docx import Document
 
def parse_doc(f):
  """读取doc，返回姓名和行业
  """
  doc = w.Documents.Open( FileName = f )
  t = doc.Tables[0] # 根据文件中的图表选择信息
  name = t.Rows[0].Cells[1].Range.Text  
  situation = t.Rows[0].Cells[5].Range.Text
  people = t.Rows[1].Cells[1].Range.Text
  title = t.Rows[1].Cells[3].Range.Text  
  print name, situation, people,title
  doc.Close()
 
def parse_docx(f):
  """读取docx，返回姓名和行业
  """
  d = Document(f)
  t = d.tables[0]
  name = t.cell(0,1).text
  situation = t.cell(0,8).text
  people = t.cell(1,2).text
  title = t.cell(1,8).text
  print name, situation, people,title
 
 
if __name__ == "__main__":
   
  w = win32com.client.Dispatch(&#39;Word.Application&#39;)
   
  # 遍历文件
  PATH = "H:\work\\aaa" # windows文件路径
  doc_files = os.listdir(PATH)
  for doc in doc_files:
    if os.path.splitext(doc)[1] == &#39;.docx&#39;:
      try:
        parse_docx(PATH+&#39;\\&#39;+doc)
      except Exception as e:
        print e
    elif os.path.splitext(doc)[1] == &#39;.doc&#39;:
      try:
        parse_doc(PATH+&#39;\\&#39;+doc)
      except Exception as e:
        print e

下载安装win32com

from win32com import client as wc
 word = wc.Dispatch(&#39;Word.Application&#39;)
 doc = word.Documents.Open(&#39;c:/test&#39;)
 doc.SaveAs(&#39;c:/test.text&#39;, 2)
 doc.Close()
 word.Quit()

这种方式产生的text文档，不能用python用普通的r方式读取，为了让python可以用r方式读取，应当写成
doc.SaveAs('c:/test', 4)
注意：系统执行完成后，会自动产生文件后缀txt（虽然没有指明后缀）。
在xp系统下面，应当，

open(r&#39;c:\text&#39;,&#39;r&#39;)
wdFormatDocument = 0 wdFormatDocument97 = 0 wdFormatDocumentDefault = 16 wdFormatDOSText = 4 
wdFormatDOSTextLineBreaks = 5 wdFormatEncodedText = 7 wdFormatFilteredHTML = 10 wdFormatFlatXML = 19 
wdFormatFlatXMLMacroEnabled = 20 wdFormatFlatXMLTemplate = 21 wdFormatFlatXMLTemplateMacroEnabled = 22
 wdFormatHTML = 8 wdFormatPDF = 17 wdFormatRTF = 6 wdFormatTemplate = 1 
 wdFormatTemplate97 = 1 wdFormatText = 2 wdFormatTextLineBreaks = 3 wdFormatUnicodeText = 7 
 wdFormatWebArchive = 9 wdFormatXML = 11 
 wdFormatXMLDocument = 12 wdFormatXMLDocumentMacroEnabled = 13 wdFormatXMLTemplate = 14 
 wdFormatXMLTemplateMacroEnabled = 15 wdFormatXPS = 18

照着字面意思应该能对应到相应的文件格式，如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML（对应数字 8、10），区别是如果是wdFormatHTML格式的话，word文件里面的公式等ole对象将会存储成wmf格式，而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式，而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python html 对象 word

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Comment installer SQLite ? Une brève explication de l'utilisation de self en PythonArticle suivant：Comment installer SQLite ? Une brève explication de l'utilisation de self en Python

Articles Liés

Voir plus