网页爬虫 - Python爬虫如何正确判断页面是否可以爬取？

Question

用Python27些爬虫，想要爬取一些网站，我需要判断网页是否可以爬取，第一反应是通过状态码来判断，但是写完运行后发现有许多目标网站访问它不存在的页面时会返回一个404错误页面，可他的状态码却是200，结果爬回...

阿神 · Answer

まず、ステータスコード200はネットワークの接続状態なので、200だけを判断するだけで全てのWebサイトを満足できるわけではありません。

次に、クローラーを作成するときは、これらの Web サイトのルールが何であるかを実際に確認する必要があります。たとえば、Web ページによって返されるコンテンツに何らかの特徴があるかどうかを最初に手動で判断できます。

黄舟 · Answer

ウェブページの内容を判断して、ウェブページにコンテンツがない場合は、直接返します。

怪我咯 · Answer

ページステータスコードが200であっても、返される404ページには通常のクロール可能なページのHTMLとは異なるHTML要素が含まれているはずです

特定のHTML要素があるかどうかで404ページであるかどうかを判断することもできます。