문제
데이터를 크롤링할 때 일반적으로 디버깅 정보는 다음과 같습니다.
DEBUG: Crawled (200) <GET http://www.php.cn/> (referer: None)
DEBUG: Crawled (403) <GET http://www.php.cn/> (referer: None)
가 나타나면 웹 사이트가 웹 크롤링 방지 기술을 사용한다는 의미입니다( Amazon에서 사용) 사용자 에이전트(User Agent) 정보를 확인하는 방법은 비교적 간단합니다.
해결책
아래 표시된 대로 요청 헤더에 사용자 에이전트를 구성합니다.
def start_requests(self): yield Request("http://www.php.cn/", headers={'User-Agent': "your agent string"})
위 내용은 Python 크롤러가 403 오류 해결 방법을 반환합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!