Nginx服務整理日誌分析（shell+python）的兩種方法-Python教學-PHP中文網

首頁

後端開發

Python教學

Nginx服務整理日誌分析（shell+python）的兩種方法

高洛峰

Mar 24, 2017 pm 03:19 PM

python脚本

log_format main ‘$remote_addr – $remote_user [$time_iso8601] “$request” ‘

‘$status $body_bytes_sent “$http_referer” ‘

‘”$http_user_agent” “$http_x_forwarded_for” ‘

‘ “$upstream_addr” “$upstream_status” “$request_time"`;

cat website.access.log| awk ‘{print $(NF)}’ | awk -F “\”” ‘{print $2′}>a.txt

paste -d ” ” website.access.log a.txt > b.txt

cat b.txt |awk ‘($NF>1){print $6$7 ” ” $NF}’>c.txt

linux下使用awk,wc,sort,uniq,grep对nginx日志进行分析和统计

b). 字段含义（如下说明）

column1：ip_address

column2：log_time

column3：request

column4：status_code

column5：send_bytes

column6：referer

需求一：统计总记录数，总成功数，各种失败数：404，403,500

cat data.log|awk -F '\t' '{if($4 > 0) print $4}'|wc -l|

awk '{print "Total Items:"$1}'

2. 提取成功、各种失败总数

cat data.log|awk -F '\t' '{if($4>0 && $4==200) print $4}'|wc -l

需求二：各种错误中，哪类URL出现的次数最多，要求剔除重复项，并倒叙给出结果

cat data.log|awk -F '\t' '{if($4>0 && $4==500) print $3}'|awk '{print $2}'|sort|uniq -c|sort -k1 nr

需求三：要统计URL中文件名出现的次数，结果中要包含Code 和 Referer。但是 URL和 Referer中都包含 / 字符，对于过滤有干扰，尝试去解决。

cat data.log|awk '{print $5,$7,$9}'|grep 200|

sed 's#.*/$.*$#\1#'|sort -k1|uniq -c

wc -l access.log |awk '{print $1}' 总请求数

awk '{print $1}' access.log|sort |uniq |wc -l 独立IP数

awk -F'[ []' '{print $5}' access.log|sort|uniq -c|sort -rn|head -5 每秒客户端请求数 TOP5

awk '{print $1}' access.log|sort |uniq -c | sort -rn |head -5 访问最频繁IP Top5

awk '{print $7}' access.log|sort |uniq -c | sort -rn |head -5 访问最频繁的URL TOP5

awk '{if ($12 > 10){print $7}}' access.log|sort|uniq -c|sort -rn |head -5

响应大于10秒的URL TOP5

awk '{if ($13 != 200){print $13}}' access.log|sort|uniq -c|sort -rn|head -5

分析请求数大于50000的源IP的行为

awk '{print $1}' access.log|sort |uniq -c |sort -rn|awk '{if ($1 > 50000){print $2}}' > tmp.txt

for i in $(cat tmp.txt)

echo $i >> analysis.txt

echo "访问行为统计" >> analysis.txt

grep $i access.log|awk '{print $6}' |sort |uniq -c | sort -rn |head -5 >> analysis.txt

echo "访问接口统计" >> analysis.txt

grep $i access.log|awk '{print $7}' |sort |uniq -c | sort -rn |head -5 >> analysis.txt

echo -e "\n" >> /root/analysis/$Ydate.txt

done

如果源IP来自代理服务器，应将第一条命令过滤地址改为$http_x_forwarded_for地址

awk '{print $NF}' access.log|sort |uniq -c |sort -rn|awk '{if ($1 > 50000){print $2}}' > tmp.txt

5.性能指标

并发连接数

客户端向服务器发起请求，并建立了TCP连接。每秒钟服务器链接的总TCP数量，就是并发连接数

PV（page view） UV（unique visitor）独立IP

6.故障

1.Nginx Connection 不夠用的參數調整

2.nginx+php-fpm出现502

3.线上nginx的一次“no live upstreams while connecting to upstream ”分析

4.nginx proxy_pass末端神奇的斜线

5.nginx+tomcat使用apache的FtpClient上传图片时由于多线程问题导致的文件大小为0的问题

案例一
ip - - [23/Mar/2017:00:17:49 +0800] "GET / HTTP/1.1" 302 0 "-" "PycURL/7.19.7"
 
log_format access &#39;$HTTP_X_REAL_IP - $remote_user [$time_local] "$request"&#39;
&#39;$status $body_bytes_sent "$http_referer" &#39;
&#39;"$http_user_agent" $HTTP_X_Forwarded_For&#39;;
 
192.168.21.1 - - [27/Jan/2014:11:28:53 +0800] "GET /2.php HTTP/1.1" 200 133 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1707.0 Safari/537.36" "-"192.168.21.128 200 127.0.0.1:9000 0.119 0.119
 
#log_format  main  &#39;$remote_addr - $remote_user [$time_local] "$request" &#39;    
#                  &#39;$status $body_bytes_sent "$http_referer" &#39;
#                  &#39;"$http_user_agent" "$http_x_forwarded_for"&#39;;
 
$http_host：用户在浏览器中输入的URL（IP或着域名）地址  192.168.21.128
$upstream_status： upstream状态    200
$upstream_addr： 后端upstream地址及端口  127.0.0.1:9000
$request_time： 页面访问总时间  0.119
$upstream_response_time：页面访问中upstream响应时间   0.119
 
$10 $body_bytes_sent
$1  $remote_addr
$7  $request
$11 $http_referer
$9  $status
$6  http_user_agent
 
1、总访问量
2、总带宽
3、独立访客量
4、访问IP统计
5、访问url统计
6、来源统计
7、404统计
8、搜索引擎访问统计(谷歌，百度)
9、搜索引擎来源统计(谷歌，百度)
 
#!/bin/bash
log_path=/home/www.centos.bz/log/access.log.1
domain="centos.bz"
email="log@centos.bz"
maketime=`date +%Y-%m-%d" "%H":"%M`
logdate=`date -d "yesterday" +%Y-%m-%d`
total_visit=`wc -l ${log_path} | awk &#39;{print $1}&#39;`
total_bandwidth=`awk -v total=0 &#39;{total+=$10}END{print total/1024/1024}&#39; ${log_path}`
total_unique=`awk &#39;{ip[$1]++}END{print asort(ip)}&#39; ${log_path}`
ip_pv=`awk &#39;{ip[$1]++}END{for (k in ip){print ip[k],k}}&#39; ${log_path} | sort -rn | head -20`
url_num=`awk &#39;{url[$7]++}END{for (k in url){print url[k],k}}&#39; ${log_path} | sort -rn | head -20`
referer=`awk -v domain=$domain &#39;$11 !~ 
/http:\/\/[^/]*&#39;"$domain"&#39;/{url[$11]++}END{for (k in url){print 
url[k],k}}&#39; ${log_path} | sort -rn | head -20`
notfound=`awk &#39;$9 == 404 {url[$7]++}END{for (k in url){print url[k],k}}&#39; ${log_path} | sort -rn | head -20`
spider=`awk -F&#39;"&#39; &#39;$6 ~ /Baiduspider/ {spider["baiduspider"]++} $6 ~
 /Googlebot/ {spider["googlebot"]++}END{for (k in spider){print 
k,spider[k]}}&#39;  ${log_path}`
search=`awk -F&#39;"&#39; &#39;$4 ~ /http:\/\/www\.baidu\.com/ 
{search["baidu_search"]++} $4 ~ /http:\/\/www\.google\.com/ 
{search["google_search"]++}END{for (k in search){print k,search[k]}}&#39; 
${log_path}`
#echo -e "概况\n报告生成时间：${maketime}\n总访问量:${total_visit}\n总带宽:${total_bandwidth}M\n独
立访客:${total_unique}\n\n访问IP统计\n${ip_pv}\n\n访问url统计\n${url_num}\n\n来源页面统计
\n${referer}\n\n404统计\n${notfound}\n\n蜘蛛统计\n${spider}\n\n搜索引擎来源统计
\n${search}" | mail -s "$domain $logdate log statistics" ${email}

案例二
# tar zxvf pymongo-1.11.tar.gz
# cd pymongo-1.11
# python setup.py install
python连接mongodb样例
$ cat conn_mongodb.py 
#!/usr/bin/python
   
import pymongo
import random
   
conn = pymongo.Connection("127.0.0.1",27017)
db = conn.tage #连接库
db.authenticate("tage","123")
#用户认证
db.user.drop()
#删除集合user
db.user.save({&#39;id&#39;:1,&#39;name&#39;:&#39;kaka&#39;,&#39;sex&#39;:&#39;male&#39;})
 #插入一个数据
for id in range(2,10):
    name = random.choice([&#39;steve&#39;,&#39;koby&#39;,&#39;owen&#39;,&#39;tody&#39;,&#39;rony&#39;])
    sex = random.choice([&#39;male&#39;,&#39;female&#39;])
    db.user.insert({&#39;id&#39;:id,&#39;name&#39;:name,&#39;sex&#39;:sex}) 
#通过循环插入一组数据
content = db.user.find()
#打印所有数据
for i in content:
    print i
 
编写python脚本
#encoding=utf8
   
import re
   
zuidaima_nginx_log_path="/usr/local/nginx/logs/www.zuidaima.com.access.log"
pattern = re.compile(r&#39;^\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}&#39;)
   
def stat_ip_views(log_path):
    ret={}
    f = open(log_path, "r")
    for line in f:
        match = pattern.match(line)
        if match:
            ip=match.group(0)
            if ip in ret:
                views=ret[ip]
            else:
                views=0
            views=views+1
            ret[ip]=views
    return ret
def run():
    ip_views=stat_ip_views(zuidaima_nginx_log_path)
    max_ip_view={}
    for ip in ip_views:
        views=ip_views[ip]
        if len(max_ip_view)==0:
            max_ip_view[ip]=views
        else:
            _ip=max_ip_view.keys()[0]
            _views=max_ip_view[_ip]
            if views>_views:
                max_ip_view[ip]=views
                max_ip_view.pop(_ip)
   
        print "ip:", ip, ",views:", views
    #总共有多少ip
    print "total:", len(ip_views)
    #最大访问的ip
    print "max_ip_view:", max_ip_view
   
run()

以上是Nginx服務整理日誌分析（shell+python）的兩種方法的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

如何使用Python查找文本文件的ZIPF分佈Mar 05, 2025 am 09:58 AM

本教程演示如何使用Python處理Zipf定律這一統計概念，並展示Python在處理該定律時讀取和排序大型文本文件的效率。您可能想知道Zipf分佈這個術語是什麼意思。要理解這個術語，我們首先需要定義Zipf定律。別擔心，我會盡量簡化說明。 Zipf定律 Zipf定律簡單來說就是：在一個大型自然語言語料庫中，最頻繁出現的詞的出現頻率大約是第二頻繁詞的兩倍，是第三頻繁詞的三倍，是第四頻繁詞的四倍，以此類推。讓我們來看一個例子。如果您查看美國英語的Brown語料庫，您會注意到最頻繁出現的詞是“th

我如何使用美麗的湯來解析HTML？Mar 10, 2025 pm 06:54 PM

本文解釋瞭如何使用美麗的湯庫來解析html。它詳細介紹了常見方法，例如find（），find_all（），select（）和get_text（），以用於數據提取，處理不同的HTML結構和錯誤以及替代方案（SEL）

python中的圖像過濾Mar 03, 2025 am 09:44 AM

處理嘈雜的圖像是一個常見的問題，尤其是手機或低分辨率攝像頭照片。本教程使用OpenCV探索Python中的圖像過濾技術來解決此問題。圖像過濾：功能強大的工具圖像過濾器

Python中的平行和並發編程簡介Mar 03, 2025 am 10:32 AM

Python是數據科學和處理的最愛，為高性能計算提供了豐富的生態系統。但是，Python中的並行編程提出了獨特的挑戰。本教程探討了這些挑戰，重點是全球解釋

如何使用TensorFlow或Pytorch進行深度學習？Mar 10, 2025 pm 06:52 PM

本文比較了Tensorflow和Pytorch的深度學習。它詳細介紹了所涉及的步驟：數據準備，模型構建，培訓，評估和部署。框架之間的關鍵差異，特別是關於計算刻度的

如何在Python中實現自己的數據結構Mar 03, 2025 am 09:28 AM

本教程演示了在Python 3中創建自定義管道數據結構，利用類和操作員超載以增強功能。管道的靈活性在於它能夠將一系列函數應用於數據集的能力，GE

python對象的序列化和避難所化：第1部分Mar 08, 2025 am 09:39 AM

Python 對象的序列化和反序列化是任何非平凡程序的關鍵方面。如果您將某些內容保存到 Python 文件中，如果您讀取配置文件，或者如果您響應 HTTP 請求，您都會進行對象序列化和反序列化。從某種意義上說，序列化和反序列化是世界上最無聊的事情。誰會在乎所有這些格式和協議？您想持久化或流式傳輸一些 Python 對象，並在以後完整地取回它們。這是一種在概念層面上看待世界的好方法。但是，在實際層面上，您選擇的序列化方案、格式或協議可能會決定程序運行的速度、安全性、維護狀態的自由度以及與其他系

Python中的數學模塊：統計Mar 09, 2025 am 11:40 AM

Python的statistics模塊提供強大的數據統計分析功能，幫助我們快速理解數據整體特徵，例如生物統計學和商業分析等領域。無需逐個查看數據點，只需查看均值或方差等統計量，即可發現原始數據中可能被忽略的趨勢和特徵，並更輕鬆、有效地比較大型數據集。本教程將介紹如何計算平均值和衡量數據集的離散程度。除非另有說明，本模塊中的所有函數都支持使用mean()函數計算平均值，而非簡單的求和平均。也可使用浮點數。 import random import statistics from fracti

See all articles