首頁  >  文章  >  後端開發  >  python解析xml格式的日誌文件

python解析xml格式的日誌文件

高洛峰
高洛峰原創
2017-02-28 09:19:521279瀏覽

大家中午好,由於過年一直還沒回到狀態,好久沒分享一波小知識了,今天,繼續跟大家分享一波Python解析日誌的小腳本。

首先,同樣的先看看日誌是個啥樣。

python解析xml格式的日誌文件

都是xml格式的,是不是看著就頭暈了? ?沒事,我們先來分析一波。

1.每一段開頭都是catalina-exec,那麼我們就按catalina-exec來分,分了之後,他們就都是一段一段的了。

2.然後,我們再在已經分好的一段裡面分,找出你要分割的關鍵字,因為是xml的,所以,接下來的工作就簡單了,都是一個頭一個尾的。

3.但是還有一個問題,有可能有的裡面沒有你想要的關鍵字,所以你要判斷下,如果沒有這個字段,那麼我就把這個字段設為空。

思路清晰了,程式碼自然而然就簡單了。

接下來我們就來看看程式碼

#coding:utf-8 
import re 
#文本所在TXT文件 
file = 'iag_interface.log' 
#分割一段 
xml1='catalina-exec' 
xml2='catalina-exec' 
#关键字reqtimestamp 
time1 = &#39;<timestamp>&#39; 
time2 = &#39;</timestamp>&#39; 
#关键字functionid 
functionid1 = &#39;<functionid>&#39; 
functionid2 = &#39;</functionid>&#39; 
#关键字transid 
transid1=&#39;<transid>&#39; 
transid2=&#39;</transid>&#39; 
#关键字siappid 
siappid1=&#39;<siappid>&#39; 
siappid2=&#39;</siappid>&#39; 
#关键字userid 
userid1=&#39;<userid>&#39; 
userid2=&#39;</userid>&#39; 
#关键字mobnum 
mobnum1=&#39;<mobnum>&#39; 
mobnum2=&#39;</mobnum>&#39; 
f = open(file,&#39;r&#39;,encoding= &#39;utf-8&#39;) 
#f = open(file,&#39;r&#39;) 
#for (num,value) in enumerate(f): 
 #print("line number",num,"is:",value) 
buff = f.read() 
#清除换行符,请取消下一行注释 
#buff = buff.replace(&#39;\n&#39;,&#39;&#39;) 
pat = re.compile(time1+&#39;(.*?)&#39;+time2,re.S) 
pat1 = re.compile(functionid1+&#39;(.*?)&#39;+functionid2,re.S) 
pat2 = re.compile(transid1+&#39;(.*?)&#39;+transid2,re.S) 
pat3 = re.compile(siappid1+&#39;(.*?)&#39;+siappid2,re.S) 
pat4 = re.compile(userid1+&#39;(.*?)&#39;+userid2,re.S) 
pat5 = re.compile(mobnum1+&#39;(.*?)&#39;+mobnum2,re.S) 
pat6=re.compile(xml1+&#39;(.*?)&#39;+xml2,re.S) 
result6 = pat6.findall(buff) 
print(len(result6)) 
x = open("logfx.txt", &#39;w&#39;) 
x.write("===========================开始数据================================="+"\n") 
x.write("time"+"\t"+"functionid"+"\t"+"transid"+"\t"+"siappid"+"\t"+"userid"+"\t"+"mobnum"+"\n") 
for i in range(0,len(result6)): 
 result = pat.findall(result6[i]) 
 result1 = pat1.findall(result6[i]) 
 result2 = pat2.findall(result6[i]) 
 result3 = pat3.findall(result6[i]) 
 result4 = pat4.findall(result6[i]) 
 result5 = pat5.findall(result6[i]) 
 if len(result)==0: 
  result.append("空") 
 if len(result1)==0: 
  result1.append("空") 
 if len(result2)==0: 
  result2.append("空") 
 if len(result3)==0: 
  result3.append("空") 
 if len(result4)==0: 
  result4.append("空") 
 if len(result5)==0: 
  result5.append("空") 
 #print(result[0],"=",result1[0],"=",result2[0],"=",result3[0],"=",result4[0],"=",result5[0]) 
 x.write("timestamp:"+result[0]+"\t"+result1[0]+"\t"+result2[0]+"\t"+result3[0]+"\t"+result4[0]+"\t"+"mobnum:"+result5[0]+"\n") 
x.write("===========================结束数据================================="+"\n")  
print("执行完毕!生成文件logfx.txt") 
x.close()

#執行下程式碼

python解析xml格式的日誌文件

python解析基於xml格式的日誌檔案把所有資料運行成功了。接下來查看檔案

python解析xml格式的日誌文件

好了。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持PHP中文網。

更多python解析xml格式的日誌檔案相關文章請關注PHP中文網!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn