>  기사  >  백엔드 개발  >  Python 크롤러: HTTP 프로토콜, 요청 라이브러리

Python 크롤러: HTTP 프로토콜, 요청 라이브러리

巴扎黑
巴扎黑원래의
2017-06-23 16:25:041401검색

HTTP 프로토콜:

HTTP(하이퍼텍스트 전송 프로토콜): 하이퍼텍스트 전송 프로토콜. URL은 HTTP 프로토콜을 통해 리소스에 액세스하기 위한 인터넷 경로입니다. 하나의 URL은 하나의 데이터 리소스에 해당합니다.

HTTP 프로토콜에 따른 리소스 작동:

Requests 라이브러리는 HTTP의 모든 기본 요청 방법을 제공합니다. 공식 소개:

Requests 라이브러리의 6가지 주요 메서드:

Requests 라이브러리의 예외:

Request(요청)의 두 가지 중요한 개체: Request(요청) , 응답(해당). Request 개체는 여러 요청 방법을 지원합니다. Response 개체에는 요청된 요청 정보뿐만 아니라 서버에서 반환된 모든 정보가 포함되어 있습니다.

응답 객체 속성:

그중 r.encoding은 헤더에 charset이 없으면 인코딩이 ISO-8859-1로 간주되는 것을 의미합니다.

r.raise_for_status()는 r.status_code가 200인지 직접 알 수 있습니다.

HTTP 프로토콜 및 요청 라이브러리 비교:

웹 페이지 크롤링을 위한 공통 코드 프레임워크:

1 try:2     r = requests.get(url,timeout = 30)3     r.raise_for_status()4     # 如果状态不是200,引发HTTPError异常5     r.encoding = r.apparent_encoding6     return r.text7 except:8     return '产生异常'

예를 들어 PMCAFF 홈페이지 정보 가져오기:

레이

Climb 웹 페이지의 일반 코드 프레임워크 가져오기: 운영 환경: Mac, Python 3.6, PyCharm 2016.2

참고: 중국 대학교 MOOC 과정 "Python 웹 크롤러 및 정보 추출"

---- 끝 ---- -

저자: Du Wangdan, 위챗 공개 계정: Du Wangdan, 인터넷 제품 관리자.

위 내용은 Python 크롤러: HTTP 프로토콜, 요청 라이브러리의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.