집 >백엔드 개발 >파이썬 튜토리얼 >Python 크롤러의 403 액세스 금지 오류에 대한 자세한 설명

Python 크롤러의 403 액세스 금지 오류에 대한 자세한 설명

高洛峰원래의: 2017-03-13 09:44:222039검색

이 글은 파이썬 크롤러의 403 접근 금지 오류에 대한 자세한 설명을 중심으로 관련 정보를 소개하고 있습니다. 필요한 친구들은 참고하시면 됩니다.

파이썬 크롤러는 403 접근 금지 오류를 해결합니다

Python으로 크롤러를 작성할 때 html.getcode()는 403 액세스 금지 문제에 직면하게 됩니다. 이는 웹사이트에서 자동화된 크롤러를 금지하는 문제입니다. 이 문제를 해결하려면 python 모듈 urllib2 모듈을 사용해야 합니다.

urllib2 모듈은 고급 크롤러 크롤링 모듈입니다. 예를 들어 url=http://blog.csdn.NET/qysh123에 연결하면 403 액세스 금지 문제가 발생할 수 있습니다. 이 연결

이 문제를 해결하려면 다음 단계가 필요합니다.

<span style="font-size:18px;">req = urllib2.Request(url) 
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36") 
req.add_header("GET",url) 
req.add_header("Host","blog.csdn.net") 
req.add_header("Referer","http://blog.csdn.net/")</span>

여기서 User-Agent는 브라우저별 속성, 브라우저를 통해 소스코드를 보면

을 볼 수 있고

html=urllib2.urlopen(req)


print html.read()

를 보면 403 문제 없이 모든 웹페이지 코드를 다운로드할 수 있다. 접근 금지.

위 문제의 경우 향후 호출 편의를 위해 함수 로 캡슐화할 수 있습니다. 구체적인 코드는

#-*-coding:utf-8-*- 
 
import urllib2 
import random 
 
url="http://blog.csdn.net/qysh123/article/details/44564943" 
 
my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36", 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36", 
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0" 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14", 
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)" 
   
] 
def get_content(url,headers): 
  &#39;&#39;&#39;&#39;&#39; 
  @获取403禁止访问的网页 
  &#39;&#39;&#39; 
  randdom_header=random.choice(headers) 
 
  req=urllib2.Request(url) 
  req.add_header("User-Agent",randdom_header) 
  req.add_header("Host","blog.csdn.net") 
  req.add_header("Referer","http://blog.csdn.net/") 
  req.add_header("GET",url) 
 
  content=urllib2.urlopen(req).read() 
  return content 
 
print get_content(url,my_headers)

입니다.

랜덤 함수는 작성된 브라우저 유형의 User-Agent 정보를 자동으로 가져오는 데 사용됩니다. 커스텀 함수에는 호스트, 리퍼러, GET 정보를 직접 작성해야 합니다. 등을 이용하여 이러한 문제를 해결하시면 원활하게 접속하실 수 있으며, 403 접속 정보가 더 이상 나타나지 않게 됩니다.

물론 접속 빈도가 너무 빠르면 일부 웹사이트가 필터링될 수 있습니다. 이 문제를 해결하려면 프록시 IP 방식을 사용해야 합니다. . . 직접 해결해 보세요.

읽어주셔서 감사합니다. 모두에게 도움이 되기를 바랍니다. 이 사이트를 지원해 주셔서 감사합니다!

위 내용은 Python 크롤러의 403 액세스 금지 오류에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이전 기사：Python을 사용하여 웹페이지 인코딩 방법 구현 코드 얻기다음 기사：Python을 사용하여 웹페이지 인코딩 방법 구현 코드 얻기