Home > Article > Backend Development > 啥是机器人!
define('ISROBOT', getrobot());if(defined('NOROBOT') && ISROBOT) { exit(header("HTTP/1.1 403 Forbidden"));}
function getrobot() { if(!defined('IS_ROBOT')) { $kw_spiders = 'Bot|Crawl|Spider|slurp|sohu-search|lycos|robozilla'; $kw_browsers = 'MSIE|Netscape|Opera|Konqueror|Mozilla'; if(preg_match("/($kw_browsers)/", $_SERVER['HTTP_USER_AGENT'])) { define('IS_ROBOT', FALSE); } elseif(preg_match("/($kw_spiders)/", $_SERVER['HTTP_USER_AGENT'])) { define('IS_ROBOT', TRUE); } else { define('IS_ROBOT', FALSE); } } return IS_ROBOT;}
Bot-微软的bing
Spider-百度
slurp-雅虎
其他几个不知道,不过这也只能防止正常的抓取,人家伪造了也不一定能防止
Bot-微软的bing
Spider-百度
slurp-雅虎
其他几个不知道,不过这也只能防止正常的抓取,人家伪造了也不一定能防止
流氓要抓也没办法,不过一般的搜索引擎都遵循robots协议
流氓要抓也没办法,不过一般的搜索引擎都遵循robots协议
Bot|Crawl|Spider|slurp|sohu-search|lycos|robozilla
是正则要匹配的模式
Bot,Spider...都是蜘蛛的标识,一般的搜索引擎都会写