Heim > Fragen und Antworten > Hauptteil
巴扎黑2017-04-17 17:35:35
不知道你说的爬虫是指百度爬虫还是我们自己编写的爬虫。
百度爬虫按楼上的方法就好了,而防止别人的爬虫有很多方法,比如所有class,或者id都动态生成。因为爬虫解析html一般是通过class或者id来获取想要的东西的。
大家讲道理2017-04-17 17:35:35
还得看是什么样的爬虫了
君子型?小人型?
如果这个爬虫能遵守robots.txt约定,那么还好
但是这种只是君子协定
如果碰上小人,那么也就呵呵了
迷茫2017-04-17 17:35:35
1) JS什么的可以试试gzip压缩,很多爬虫不会爬取gzip压缩的js
2)使用log分析web服务器的日志,如果是恶意的访问你的关键资源的,并且对方是一个固定IP,可以试着ban掉对方IP
天蓬老师2017-04-17 17:35:35
没有用的,首先你的网站本身对人公开,那自然也就对爬虫公开,除非换成内部网络,如果你把精力做到防止爬虫上去,还不如提高质量,现在分类信息网站都是爬来爬去,而用户体验基本没有提升。
巴扎黑2017-04-17 17:35:35
首先是你很难做到说100%不让爬虫爬取到,除非像楼上说的那样是内部网络。
但是你可以做一些的措施用来防止一些技术含量低的小爬虫爬取你的网站。
具体的措施可以移步到知乎,看看这篇文章点这里
希望能帮到你