用Python27些爬虫,想要爬取一些网站,我需要判断网页是否可以爬取,第一反应是通过状态码来判断,但是写完运行后发现有许多目标网站访问它不存在的页面时会返回一个404错误页面,可他的状态码却是200,结果爬回来好多根本就不存在的页面。这个本来是网站设置的问题,但是现在也不能用状态码来判断了,请问还有什么方法可以正确判断一个页面是不是404该不该爬?
阿神2017-04-18 10:26:44
먼저 상태 코드 200은 네트워크 연결 상태이므로 200으로만 판단하고 모든 웹사이트를 만족시킬 수는 없습니다.
둘째, 크롤러를 작성할 때 실제로 이러한 웹사이트의 규칙이 무엇인지 확인해야 합니다. 먼저 수동으로 판단하고 규칙을 찾아볼 수 있습니다. 예를 들어 웹페이지에서 반환되는 콘텐츠에 어떤 특성이 있는지 확인할 수 있습니다. .
怪我咯2017-04-18 10:26:44
페이지 상태 코드가 200이더라도 반환된 404 페이지에는 일반적인 크롤링 가능한 페이지 html과 다른 html 요소가 있어야 합니다. 또한 특정 html 요소가 있는지 여부에 따라 404 페이지인지 여부를 판단할 수도 있습니다.