ホームページ  >  に質問  >  本文

网页爬虫 - Python爬虫如何正确判断页面是否可以爬取?

用Python27些爬虫,想要爬取一些网站,我需要判断网页是否可以爬取,第一反应是通过状态码来判断,但是写完运行后发现有许多目标网站访问它不存在的页面时会返回一个404错误页面,可他的状态码却是200,结果爬回来好多根本就不存在的页面。这个本来是网站设置的问题,但是现在也不能用状态码来判断了,请问还有什么方法可以正确判断一个页面是不是404该不该爬?

ringa_leeringa_lee2740日前1331

全員に返信(3)返信します

  • 阿神

    阿神2017-04-18 10:26:44

    まず、ステータスコード200はネットワークの接続状態なので、200だけを判断するだけで全てのWebサイトを満足できるわけではありません。

    次に、クローラーを作成するときは、これらの Web サイトのルールが何であるかを実際に確認する必要があります。たとえば、Web ページによって返されるコンテンツに何らかの特徴があるかどうかを最初に手動で判断できます。

    返事
    0
  • 黄舟

    黄舟2017-04-18 10:26:44

    ウェブページの内容を判断して、ウェブページにコンテンツがない場合は、直接返します。

    返事
    0
  • 怪我咯

    怪我咯2017-04-18 10:26:44

    ページステータスコードが200であっても、返される404ページには通常のクロール可能なページのHTMLとは異なるHTML要素が含まれているはずです

    特定のHTML要素があるかどうかで404ページであるかどうかを判断することもできます。

    返事
    0
  • キャンセル返事