python 기반 크롤러는 요청에서 응답까지의 과정인 웹사이트에서 데이터를 얻으려고 합니다. 우리는 서버에 요청 요청을 보내도록 브라우저를 위장하고, 서버는 정보를 수락한 후 응답으로 응답합니다.
이전 기사에서 크롤러란 무엇이며 크롤러의 기본에 대해 설명했습니다. 크롤러 프로세스 소개, 오늘 제가 여러분께 소개해드릴 것은 기본 프로세스인 요청(Request)과 응답(Response)이 무엇인지 자세히 소개하는 것입니다.
요청
1.
브라우저는 URL이 있는 서버로 정보를 보냅니다. 이 프로세스를 HTTP 요청이라고 합니다.
2. 요청에는 무엇이 포함되나요?
요청 방식: 주요 요청 방식은 GET, POST 외에 HEAD, PUT, DELETE 등이 있습니다. GET 요청의 요청 매개변수는 URL 링크 뒤에 표시됩니다. 예를 들어 Baidu를 열고 "사진"을 검색하면 요청된 URL 링크가 https://www.baidu.com/s? wd=사진. POST 요청의 요청 매개변수는 요청에 저장되며 URL 링크 뒤에 표시되지 않습니다. 예를 들어 Zhihu에 로그인하고 사용자 이름과 비밀번호를 입력하면 브라우저 개발자 도구의 네트워크 페이지가 표시됩니다. 요청 요청에는 데이터의 키-값 쌍 정보가 저장되어 있으며 이는 계정 정보의 보안을 보호하는 데 도움이 됩니다. 요청 URL: URL의 전체 이름은 웹사이트라고 부르는 것입니다. 주소. 예를 들어, 사진, 음악 파일, 웹 문서 등은 고유한 URL에 의해 결정될 수 있습니다. 여기에 포함된 정보는 파일의 위치와 브라우저가 이를 처리해야 하는 방법을 나타냅니다. 요청 헤더에 다음이 포함되어 있습니다. 사용자 에이전트(브라우저의 요청 헤더 지정), 호스트, 쿠키 및 기타 정보와 같은 요청 헤더 정보: 요청 본문은 로그인에 의해 제출된 로그인 정보 데이터와 같이 요청에 의해 전달되는 추가 데이터입니다. 형태.
응답
#🎜🎜 #1 .반응이란 무엇인가요?
서버는 브라우저가 보낸 정보를 받은 후 브라우저가 보낸 정보의 내용에 따라 적절하게 처리한 다음 메시지를 브라우저로 다시 보낼 수 있습니다. 이 프로세스를 HTTP 응답이라고 합니다.2.응답에는 어떤 내용이 포함되나요?
응답 상태: 성공은 200, 점프 페이지는 301, 페이지를 찾을 수 없음은 404, 서버 오류는 502와 같은 여러 가지 응답 상태가 있습니다. 예: 콘텐츠 유형, 콘텐츠 길이, 서버 정보, 쿠키 설정 등 응답 본문: 웹 페이지 HTML 코드, 이미지 바이너리 데이터 등과 같은 요청된 리소스의 콘텐츠를 포함하는 응답 본문의 가장 중요한 부분입니다. 간단한 데모import requests # 导入requests库,需要安装 # 模拟成浏览器访问的头 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} resp = requests.get('https://www.baidu.com',headers=headers) print(resp.text) # 打印出网页源代码 print(resp.status_code) # 打印出状态码작업이 성공적으로 완료되면 인쇄된 HTML 소스 코드와 200 상태 코드를 볼 수 있습니다. 이는 기본적으로 크롤러의 요청 및 응답 프로세스를 구현합니다.
위 내용은 기본 크롤러 프로세스 요청 및 응답 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!