>  기사  >  백엔드 개발  >  Python 크롤러가 403 오류 해결 방법을 반환합니다.

Python 크롤러가 403 오류 해결 방법을 반환합니다.

伊谢尔伦
伊谢尔伦원래의
2017-04-29 10:05:506464검색

문제

데이터를 크롤링할 때 일반적으로 디버깅 정보는 다음과 같습니다.

DEBUG: Crawled (200) <GET http://www.php.cn/> (referer: None)

DEBUG: Crawled (403) <GET http://www.php.cn/> (referer: None)

가 나타나면 웹 사이트가 웹 크롤링 방지 기술을 사용한다는 의미입니다( Amazon에서 사용) 사용자 에이전트(User Agent) 정보를 확인하는 방법은 비교적 간단합니다.

해결책

아래 표시된 대로 요청 헤더에 사용자 에이전트를 구성합니다.

def start_requests(self):  
    yield Request("http://www.php.cn/",  
                  headers={&#39;User-Agent&#39;: "your agent string"})


위 내용은 Python 크롤러가 403 오류 해결 방법을 반환합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.