recherche

Maison  >  Questions et réponses  >  le corps du texte

网页爬虫 - Python爬虫如何正确判断页面是否可以爬取?

用Python27些爬虫,想要爬取一些网站,我需要判断网页是否可以爬取,第一反应是通过状态码来判断,但是写完运行后发现有许多目标网站访问它不存在的页面时会返回一个404错误页面,可他的状态码却是200,结果爬回来好多根本就不存在的页面。这个本来是网站设置的问题,但是现在也不能用状态码来判断了,请问还有什么方法可以正确判断一个页面是不是404该不该爬?

ringa_leeringa_lee2785 Il y a quelques jours1376

répondre à tous(3)je répondrai

  • 阿神

    阿神2017-04-18 10:26:44

    Tout d'abord, le code d'état 200 est l'état de la connexion réseau, vous ne jugez donc que 200 et il ne satisfait pas tous les sites Web.

    Deuxièmement, lorsque vous écrivez un robot d'exploration, vous devez réellement voir quelles sont les règles de ces sites Web. Vous pouvez d'abord faire un jugement manuel et rechercher des modèles, par exemple vérifier si le contenu renvoyé par la page Web présente des caractéristiques.

    répondre
    0
  • 黄舟

    黄舟2017-04-18 10:26:44

    Portez un jugement sur le contenu de la page Web et renvoyez-le directement s'il n'y a pas de contenu dans la page Web.

    répondre
    0
  • 怪我咯

    怪我咯2017-04-18 10:26:44

    Même si le code d'état de la page est 200, la page 404 renvoyée doit avoir des éléments HTML différents de la page HTML explorable normale. Vous pouvez également juger s'il s'agit d'une page 404 en fonction de la présence ou non d'éléments HTML spécifiques

    .

    répondre
    0
  • Annulerrépondre