网络爬虫的规则

2020年07月27日 17:35:22阅读数:171博客 / Laical / 网络爬虫教程

1.网络爬虫:自动从互联网中定向(有目标、过滤无关信息)或不定向(随机)地采集信息的一种程序。常用的类型有:通用网络爬虫(不定向)、聚焦网络爬虫(定向设置过滤规则)。
2.网络爬虫的应用:①搜索引擎②采集金融数据③采集商品数据④自动过滤广告⑤采集竞争对手的客户数据⑥采集行业相关数据,进行数据分析……
3.网络爬虫的运行原理
(1)通用网络爬虫:
①获取初始URL;②爬取页面并获取新的URL;③将爬取的内容放到服务器中,将新URL放入URL队列;④读取新URL,重复②③④;⑤直到满足停止条件结束。
(2)聚焦网络爬虫:
①对抓取目标进行相应的定义或描述;②获取初始URL;③爬取页面并获得新的URL;④将爬取的内容放到服务器中,过滤无关链接后,将新URL放入URL队列中;⑤确定下一步抓取目标,重复①②③④⑤;⑥直到满足停止条件结束。
限制网络爬虫
• 对服务器性能的骚扰问题
• 内容层面的法律风险问题
• 个人隐私泄露问题
因此,我们说网络爬虫的使用是要有它的规则。在实际的使用中,一些较大的网站都对网络爬虫有相关的限制。那么针对这些网站应该做出那些相应的策略:
1 使用代理亿牛云代理
适用情况:大部分网站均限制了IP的访问量
对于“频繁点击”的情况,我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。

  1. #! -*- encoding:utf-8 -*-
  2. import requests
  3. import random
  4. # 要访问的目标页面
  5. targetUrl = "http://httpbin.org/ip"
  6. # 要访问的目标HTTPS页面
  7. # targetUrl = "https://httpbin.org/ip"
  8. # 代理服务器(产品官网 www.16yun.cn)
  9. proxyHost = "t.16yun.cn"
  10. proxyPort = "31111"
  11. # 代理隧道验证信息
  12. proxyUser = "username"
  13. proxyPass = "password"
  14. proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
  15. "host" : proxyHost,
  16. "port" : proxyPort,
  17. "user" : proxyUser,
  18. "pass" : proxyPass,
  19. }
  20. # 设置 http和https访问都是用HTTP代理
  21. proxies = {
  22. "http" : proxyMeta,
  23. "https" : proxyMeta,
  24. }
  25. # 设置IP切换头
  26. tunnel = random.randint(1,10000)
  27. headers = {"Proxy-Tunnel": str(tunnel)}
  28. resp = requests.get(targetUrl, proxies=proxies, headers=headers)
  29. print resp.status_code
  30. print resp.text

2 伪装成浏览器,或者反“反盗链”
有些网站会检查你是不是真的浏览器访问,还是机器自动访问的。这种情况,加上User-Agent,表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法,一般再加上Referer。
User-Agent可以用亿牛云代理提供给的真实库,Referer的来源可以伪装成百度搜索来的。
headers = {‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73 Safari/537.36’, ‘Referer’:’https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'}
response = requests.get(url=url, headers=headers)
使用网络爬虫采集数据,需要高质量亿牛云爬虫代理才能更加高效稳定的采集出想要的数据。

全部评论

文明上网理性发言,请遵守新闻评论服务协议

条评论
  • 博主信息
    Laical
    博文
    10
    粉丝
    0
    评论
    0
    访问量
    6420
    积分:0
    P豆:28