집 >백엔드 개발 >파이썬 튜토리얼 >Python 크롤러가 403 오류 해결 방법을 반환합니다.

Python 크롤러가 403 오류 해결 방법을 반환합니다.

문제

데이터를 크롤링할 때 일반적으로 디버깅 정보는 다음과 같습니다.

DEBUG: Crawled (200) <GET http://www.php.cn/> (referer: None)

DEBUG: Crawled (403) <GET http://www.php.cn/> (referer: None)

가 나타나면 웹 사이트가 웹 크롤링 방지 기술을 사용한다는 의미입니다( Amazon에서 사용) 사용자 에이전트(User Agent) 정보를 확인하는 방법은 비교적 간단합니다.

해결책

아래 표시된 대로 요청 헤더에 사용자 에이전트를 구성합니다.

def start_requests(self):  
    yield Request("http://www.php.cn/",  
                  headers={&#39;User-Agent&#39;: "your agent string"})

위 내용은 Python 크롤러가 403 오류 해결 방법을 반환합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：