首頁  >  文章  >  後端開發  >  php如何設定禁止抓取網站

php如何設定禁止抓取網站

藏色散人
藏色散人原創
2020-07-24 09:35:542847瀏覽

php禁止抓取的實作方法:先透過「$_SERVER['HTTP_USER_AGENT'];」方法取得UA資訊;然後將惡意「USER_AGENT」存入陣列;最後禁止空「USER_AGENT」等主流採集程序即可。

php如何設定禁止抓取網站

推薦:《PHP教學

我們都知道網路上的爬蟲非常多,有對網站收錄有益的,例如百度蜘蛛(Baiduspider),也有不但不遵守robots規則對伺服器造成壓力,還不能為網站帶來流量的無用爬蟲,例如宜搜蜘蛛(YisouSpider)(最新補充:宜搜蜘蛛已被UC神馬搜尋收購!所以本文已去掉宜搜蜘蛛的禁封!==>相關文章)。最近張戈發現nginx日誌中出現了很多宜搜等垃圾的抓取記錄,於是整理收集了網路上各種禁止垃圾蜘蛛爬站的方法,在給自己網做設置的同時,也給各位站長提供參考。

一、Apache

①、透過修改.htaccess檔案

二、Nginx程式碼

進入nginx安裝目錄下的conf目錄,將如下程式碼儲存為agent_deny.conf
cd /usr/local/nginx/conf
vim agent_deny.conf

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {
return 403;
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}

然後,在網站相關設定中的  location / {  之後插入以下程式碼:
include agent_deny.conf;
如張戈博客的配置:
[marsge@Mars_Server ~]$ cat /usr/local/nginx/conf/zhangge.conf

location / {
try_files $uri $uri/ /index.php?$args;
#这个位置新增1行:
include agent_deny.conf;
rewrite ^/sitemap_360_sp.txt$ /sitemap_360_sp.php last;
rewrite ^/sitemap_baidu_sp.xml$ /sitemap_baidu_sp.php last;
rewrite ^/sitemap_m.xml$ /sitemap_m.php last;
保存后,执行如下命令,平滑重启nginx即可:
/usr/local/nginx/sbin/nginx -s reload

 三、PHP程式碼

將以下方法放到貼到網站入口檔案index.php中的第一個//取得UA資訊

$ua = $_SERVER['HTTP_USER_AGENT'];
//将恶意USER_AGENT存入数组
$now_ua = array('FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot');

//禁止空USER_AGENT,dedecms等主流採集程式都是空USER_AGENT,部分sql注入工具也是空USER_AGENT

if(!$ua) {
header("Content-type: text/html; charset=utf-8");
die('请勿采集本站,因为采集的站长木有小JJ!');
}else{
foreach($now_ua as $value )
//判断是否是数组中存在的UA
if(eregi($value,$ua)) {
header("Content-type: text/html; charset=utf-8");
die('请勿采集本站,因为采集的站长木有小JJ!');
}
}

四、測試效果

如果是vps,那非常簡單,使用curl -A 模擬抓取即可,例如:
模擬宜搜蜘蛛抓取:
curl -I -A 'YisouSpider' zhang.ge
模擬UA為空的抓取:
curl -I -A ' ' zhang.ge
模擬百度蜘蛛的抓取:
curl -I -A 'Baiduspider' zhang.ge

修改網站目錄下的.htaccess,添加如下程式碼即可(2種程式碼選擇性):三次抓取結果截圖如下:

服务器反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站

可以看出,宜搜蜘蛛和UA為空的返回是403禁止存取標識,而百度蜘蛛則成功返回200,說明生效!

補充:第二天,查看nginx日誌的效果截圖:

①、UA資訊為空的垃圾收集被攔截:

服务器反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站

②、被禁止的UA被攔截:

服务器反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站

因此,對於垃圾蜘蛛的收集,我們可以透過分析網站的訪問日誌,找出一些沒見過的的蜘蛛(spider)名稱,經過查詢無誤之後,可以將其加入到前文代碼的禁止列表當中,起到禁止抓取的作用。

五、附錄:UA收集

以下是網路上常見的垃圾UA列表,僅供參考,同時也歡迎你來補充。

FeedDemon 内容采集
BOT/0.1 (BOT for JCE) sql注入
CrawlDaddy sql注入
Java 内容采集
Jullo 内容采集
Feedly 内容采集
UniversalFeedParser 内容采集
ApacheBench cc攻击器
Swiftbot 无用爬虫
YandexBot 无用爬虫
AhrefsBot 无用爬虫
YisouSpider 无用爬虫(已被UC神马搜索收购,此蜘蛛可以放开!)
MJ12bot 无用爬虫
ZmEu phpmyadmin 漏洞扫描
WinHttp 采集cc攻击
EasouSpider 无用爬虫
HttpClient tcp攻击
Microsoft URL Control 扫描
YYSpider 无用爬虫
jaunty wordpress爆破扫描器
oBot 无用爬虫
Python-urllib 内容采集
Indy Library 扫描
FlightDeckReports Bot 无用爬虫
Linguee Bot 无用爬虫

以上是php如何設定禁止抓取網站的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn