python - 禁止自己的网站被爬虫爬去？

Question

禁止自己的网站被爬虫爬去？有什么方法啊

迷茫 · Answer

加一个robots.txt文件，内容：

User-agent: *
Disallow: /

怪我咯 · Answer

加入robots.txt，告诉爬虫希望不要爬取我的网站，但是并不会强制禁止，这只是一个约定，需要双方都去遵守。

巴扎黑 · Answer

不知道你说的爬虫是指百度爬虫还是我们自己编写的爬虫。

百度爬虫按楼上的方法就好了，而防止别人的爬虫有很多方法，比如所有class，或者id都动态生成。因为爬虫解析html一般是通过class或者id来获取想要的东西的。

大家讲道理 · Answer

还得看是什么样的爬虫了
君子型？小人型？
如果这个爬虫能遵守robots.txt约定，那么还好
但是这种只是君子协定
如果碰上小人，那么也就呵呵了

迷茫 · Answer

1) JS什么的可以试试gzip压缩，很多爬虫不会爬取gzip压缩的js
2）使用log分析web服务器的日志，如果是恶意的访问你的关键资源的，并且对方是一个固定IP，可以试着ban掉对方IP

黄舟 · Answer

讲道理，不可能绝对做到

天蓬老师 · Answer

没有用的，首先你的网站本身对人公开，那自然也就对爬虫公开，除非换成内部网络，如果你把精力做到防止爬虫上去，还不如提高质量，现在分类信息网站都是爬来爬去，而用户体验基本没有提升。

迷茫 · Answer

噗，你可以把class和id乱七八糟，毫无规律，让正则都匹配不了

阿神 · Answer

网页内容全部js动态生成不知道可不可以

巴扎黑 · Answer

首先是你很难做到说100%不让爬虫爬取到，除非像楼上说的那样是内部网络。

但是你可以做一些的措施用来防止一些技术含量低的小爬虫爬取你的网站。

具体的措施可以移步到知乎，看看这篇文章点这里

希望能帮到你