Maison > Questions et réponses > le corps du texte
Code
$httpClass = new Snoopy();
$httpClass->fetch('https://v.qq.com/');
$url = $httpClass->results;
print_r($url);die();
L'exploration de https://www.baidu.com/ continue de signaler 405 erreurs
Le crawl https://v.qq.com/ fonctionne normalement
Je cherche une réponse, j'ai travaillé dessus tout l'après-midi et je n'arrive toujours pas à la résoudre
淡淡烟草味2017-05-16 13:00:40
Baidu a probablement un paramètre de type robot. Vous devez le dissimuler et définir un UA ou quelque chose comme ça
Référence : http://www.4wei.cn/archives/396
天蓬老师2017-05-16 13:00:40
Ce n'est pas un problème de type Snoopy. C'est parce que vous ne savez pas grand-chose sur les robots d'exploration. Puisqu’il existe des robots, il y aura bien sûr une technologie anti-crawler. Le plus simple est basé sur l'identifiant du navigateur ou le référent dans l'en-tête de la requête, etc. Les grands sites Web comme Baidu et Tencent ne voudront pas que nous explorions les données, ils ont donc dû prendre de nombreuses mesures préventives. Par conséquent, il est recommandé de comprendre les connaissances des robots d’exploration avant d’explorer les données.