search

Home  >  Q&A  >  body text

php - How to classify ips in log files in python

The IP addresses have been extracted and deduplicated through Python.
Is there any way to classify these extracted IP addresses, such as [Baidu], [Google], [Sogou], [360], [ Others】
What are these categories?
Know roughly the IP address groups of these search engines

How to implement classification

大家讲道理大家讲道理2834 days ago548

reply all(2)I'll reply

  • 为情所困

    为情所困2017-05-16 13:13:11

    The following is excerpted from; link description

    百度蜘蛛IP地址
    123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。
    220.181.68.*每天这个IP段只增不减很有可能进沙盒或K站。
    220.181.7.*、123.125.66.*代表百度蜘蛛IP造访,准备抓取你东西。
    121.14.89.*这个ip段作为度过新站考察期。
    203.208.60.*这个ip段出现在新站及站点有不正常现象后。
    210.72.225.*这个ip段不间断巡逻各站。
    125.90.88.*广东茂名市电信也属于百度蜘蛛IP主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。
    220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照。(悲剧的我竟然屏蔽了这个IP)
    220.181.108.92同上98%抓取首页,可能还会抓取其他(不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。(嗯,还有这个也屏蔽了,晕死了!)
    123.125.71.106抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。(这个也有,汗!)
    220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP段,爬过的文章或首页基本24小时放出来。
    220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP段,爬过的文章或首页基本24小时放出来。(这个,……!)
    220.181.108.86专用抓取首页IP权重段,一般返回代码是30400代表未更新。(还有这个……)
    123.125.71.95抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
    123.125.71.97抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
    220.181.108.89专用抓取首页IP权重段,一般返回代码是30400代表未更新。(好吧,220开头的好像都被我屏蔽了,下手真心有点儿太狠了!)
    220.181.108.94专用抓取首页IP权重段,一般返回代码是30400代表未更新。
    220.181.108.97专用抓取首页IP权重段,一般返回代码是30400代表未更新。
    220.181.108.80专用抓取首页IP权重段,一般返回代码是30400代表未更新。
    220.181.108.77专用抓首页IP权重段,一般返回代码是30400代表未更新。
    123.125.71.117抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或是采集文章。
    注:以上IP尾数还有很多,但段位一样的123.125.71.*段IP代表抓取内页收录的权重比较低,可能由于你采集文章或拼文章暂时被收录但不放出来.。
    220.181.108.83专用抓取首页IP权重段,一般返回代码是30400代表未更新。
    220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的!
    一般成功抓取返回代码都200,返回304代表网站没更新。
    Google蜘蛛IP地址
    216.239.33.*
    216.239.35.*
    216.239.37.*
    216.239.39.*
    216.239.51.*
    216.239.53.*
    216.239.55.*
    216.239.57.*
    216.239.59.*
    64.233.161.*
    64.233.189.*
    66.102.11.*
    66.102.7.*
    66.102.9.*
    66.249.64.*
    66.249.65.*
    66.249.66.*
    66.249.71.*
    66.249.72.*
    72.14.207.*
    谷歌蜘蛛IP段解析
    
    202.101.43.*、222.73.247.*、66.249.65.*这三个ip段是最为常规出现的
    66.249.16.*出现的站点均为新站或站点出现无法访问情况后再次出现的ip段
    210.72.225.*这个ip段不间断巡逻各站
    203.208.60.*这个ip段出现在新站及站点有不正常现象后
    360蜘蛛IP段
    101.226.166.*(101.226.166.195~101.226.166.254,共60个)
    101.226.167.*(101.226.167.195~101.226.167.254,共60个)
    101.226.168.*(101.226.168.195~101.226.168.254,共60个)
    101.226.169.*(101.226.169.195~101.226.169.230,共36个)
    180.153.236.*(180.153.236.11~26;180.153.236.35~180.153.236.74;180.153.236.101~180.153.236.196,共152个)
    182.118.20.*(182.118.20.201~182.118.20.254,共39个)
    182.118.21.*(182.118.21.201~182.118.21.*254,共54个)
    182.118.22.*(182.118.22.141~182.118.22.149;182.118.22.211~182.118.22.250,共64个)
    182.118.25.*(182.118.25.131~182.118.25.245;)
    182.118.28.*
    61.55.185.*
    101.199.*.*
    220.181.126.*
    182.118.26.110~182.118.26.239(时效性UAIP段,主要针对网站内容更新的爬取)
    360蜘蛛IP段解析
    
    220.181.126.*、101.199.*.*据说为360举报IP。也就是说,假如你的网站日志出现这个IP段,你的网站被举报了。如果是违法站,那就自求多福吧。
    搜狗蜘蛛IP段
    123.126.113.79-123.126.113.191
    220.181.89.190
    220.181.89.189
    218.30.103.155
    61.135.189.75
    220.181.94.228
    61.135.189.74
    220.181.89.157
    220.181.89.165
    220.181.89.183
    220.181.89.194
    218.30.103.80
    神马蜘蛛IP段
    42.156.136.*-42.156.139.*
    42.120.160.*42.120.161.*
    其他蜘蛛IP段
    163搜索引擎蜘蛛IP地址大全
    
    202.106.186.*
    202.108.36.*
    202.108.44.*
    202.108.45.*
    202.108.5.*
    202.108.9.*
    220.181.12.*
    220.181.13.*
    220.181.14.*
    220.181.15.*
    220.181.28.*
    220.181.31.*
    222.185.245.*
    iask搜索引擎蜘蛛IP地址大全
    
    61.135.152.*
    msn搜索引擎蜘蛛IP地址大全
    
    65.54.188.*
    65.54.225.*
    65.54.226.*
    65.54.228.*
    65.54.229.*
    207.46.98.*
    207.68.157.*
    搜搜蜘蛛IP地址
    
    219.133.40.*
    202.96.170.*
    202.104.129.*
    61.135.157.*
    新浪搜索引擎蜘蛛IP地址
    
    219.142.118.*
    219.142.78.*
    搜狐搜索引擎蜘蛛IP地址
    
    61.135.132.*
    220.181.26.*
    220.181.19.*
    Yahoo搜索引擎蜘蛛IP地址
    
    66.196.90.*
    66.196.91.*
    68.142.249.*
    68.142.250.*
    68.142.251.*
    72.30.101.*
    72.30.102.*
    72.30.103.*
    72.30.104.*
    72.30.107.*
    72.30.110.*
    72.30.111.*
    72.30.128.*
    72.30.129.*
    72.30.131.*
    72.30.133.*
    72.30.134.*
    72.30.135.*
    72.30.216.*
    72.30.226.*
    72.30.252.*
    72.30.97.*
    72.30.98.*
    72.30.99.*
    74.6.74.*
    Yahoo中国搜索引擎蜘蛛IP地址
    
    202.165.102.*
    202.160.178.*
    202.160.179.*
    202.160.180.*
    202.160.181.*
    202.160.183.*
    中搜蜘搜索引擎蜘蛛IP地址
    
    202.108.4.*
    202.108.4.*
    202.108.33.*
    202.96.51.*
    219.142.53.*

    reply
    0
  • 阿神

    阿神2017-05-16 13:13:11

    Reconstruct the array using IP as key. That’ll be fine

    reply
    0
  • Cancelreply