>  기사  >  백엔드 개발  >  Python 크롤러에 대한 요청 헤더를 설정하는 방법

Python 크롤러에 대한 요청 헤더를 설정하는 방법

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼원래의
2019-06-20 14:30:382841검색

웹 크롤링을 요청하면 출력 텍스트 정보에 "죄송합니다. 액세스할 수 없습니다"와 같은 단어가 나타납니다. 이는 크롤링이 금지됨을 의미하며 크롤링 방지 메커니즘을 통해 이 문제를 해결해야 합니다.

헤더는 요청 크롤링 방지 문제를 해결하는 방법 중 하나입니다. 이 웹 페이지의 서버 자체에 들어가서 데이터를 크롤링하는 것처럼 가장하는 것입니다.

안티 크롤러 웹 페이지의 경우 일부 헤더 정보를 설정하여 웹 사이트에 액세스하는 브라우저를 시뮬레이션할 수 있습니다.

Python 크롤러에 대한 요청 헤더를 설정하는 방법

headers

Google 또는 Firefox, 웹 페이지 클릭: 마우스 오른쪽 버튼 클릭 – 확인하고 추가 도구-개발자 도구를 클릭하여 직접 F12를 누를 수도 있습니다. 그런 다음 Fn+F5를 눌러 웹 페이지를 새로 고쳐 요소

일부 브라우저 클릭: 마우스 오른쪽 버튼 클릭 -> 요소 보기, 새로 고침

관련 권장 사항: "#🎜🎜 # PythonVideoTutorial

Python 크롤러에 대한 요청 헤더를 설정하는 방법

참고: 헤더에는 많은 콘텐츠가 있으며, 일반적으로 사용되는 주요 콘텐츠는 사용자 에이전트와 호스트입니다. on 키 쌍의 형식이 표시됩니다. 사용자 에이전트가 헤더 내용으로 사전 키 쌍을 사용하는 경우 크롤링 방지에 성공할 수 있으며 그렇지 않으면 헤더 아래에 더 많은 키 쌍이 추가되어야 합니다.

설정

import urllib2
import urllib
values={"username":"xxxx","password":"xxxxx"}
data=urllib.urlencode(values)
url= "https://ssl.gstatic.com/gb/images/v2_730ffe61.png"
user_agent="Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"
referer='http://www.google.com/'
headers={"User-Agent":user_agent,'Referer':referer}
request=urllib2.Request(url,data,headers)
response=urllib2.urlopen(request)
print response.read()

위 내용은 Python 크롤러에 대한 요청 헤더를 설정하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.