python - 通过正则提取出来的ip，怎么命名

Question

{代码...} 通过以上的代码把apache的日志ip提取出来，并且进行统计去重了，提取的ip数据如下： 那么要怎么将这些ip地址进行命名分类，如202.108.11.103跟220.181.32.137为百度蜘蛛ip想要实现的效果如下这两个ip命...

仅有的幸福 · Answer

雷雷

黄舟 · Answer

可以尝试构建一个大型的以字典为键, 爬虫名字为值的字典;

ip_map = {
    '202.108.11.103': 'baidu-spider',
    '220'.181.32.137: 'baidu-spider',
    '192.168.1.1': 'other'
    ....
}
sum = {}
for ip in source_ip:
    print ip
    sum[ip_mapping.get(ip, 'other')] = sum.get(ip, 0) + source_ip[ip]
print sum

滿天的星座 · Answer

使用pandas的数据透视表

阿神 · Answer

这样多累啊！
为什么不给这个ip分组单独建立一张表，名为IPGroup （id, ip, groupname)

id	ip	groupName
1	202.108.11.103	百度蜘蛛
2	220.181.32.137	百度蜘蛛

之后一个SQL就搞定了，多么轻松（设楼主用的表明为IPStastics）

SELECT b.groupName, SUM(a.count)
FROM IPStastics a 
  INNER JOIN IPGroup b
  ON a.ip = b.ip
GROUP BY b.groupName

python - 通过正则提取出来的ip，怎么命名

全部回复(4)我来回复