首页  >  问答  >  正文

python - 禁止自己的网站被爬虫爬去?

禁止自己的网站被爬虫爬去?有什么方法啊

大家讲道理大家讲道理2742 天前1034

全部回复(13)我来回复

  • 黄舟

    黄舟2017-04-17 17:35:35

    如果是防御针对性的爬虫,可以做一些访问限制,比如访问频率,添加验证码等等。

    回复
    0
  • 阿神

    阿神2017-04-17 17:35:35

    1. 重要内容使用js动态添加

    2. 限制http_referer

    3. 不同的界面可以考虑不同的模板,一套正则不能完美匹配的那种

    4. 在可能会爬的内容里随机加一些版权信息

    5. .登陆之后才可以进行访问

    6. 记录访问日志

    能想到的就这些,不过如果真的想抓,这些也就只是增加一点抓取的难度而已

    回复
    0
  • 高洛峰

    高洛峰2017-04-17 17:35:35

    禁止搜索引擎爬取可以修改robots.txt
    禁止个人爬取的话难度有点大,只能增加难度,比如增加比较复杂的验证码、访问频率、定时换样式/数据格式之类的

    回复
    0
  • 取消回复