>  기사  >  백엔드 개발  >  Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?

Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?

尚
원래의
2019-06-28 13:58:077842검색

Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?

검색 엔진 크롤러는 페이지를 크롤링할 때 웹페이지가 리디렉션되는 상황에 직면하게 됩니다. 소위 리디렉션(리디렉션)은 다양한 방법을 통해 이루어집니다(이 기사에서 언급한 유형). 3) 다양한 네트워크 요청을 다른 위치(URL)로 리디렉션합니다. 각 웹사이트의 홈페이지는 웹사이트 리소스의 입구입니다. 해당 웹사이트의 홈페이지에서 리디렉션이 발생할 경우 올바르게 처리되지 않으면 전체 웹사이트의 콘텐츠가 누락될 가능성이 높습니다.

1. 서버 측 리디렉션은 일반적으로 크롤러가 스스로 적응할 수 있으며 응답 코드 301(영구 리디렉션), 302(임시 리디렉션)과 같은 특별한 처리가 필요하지 않습니다. )기다리다. 구체적으로 요청으로 얻은 응답 객체의 url과 status_code 두 가지 속성으로 판단할 수 있습니다. status_code가 301, 302 또는 리디렉션을 나타내는 다른 코드인 경우 원래 요청이 리디렉션되었음을 의미합니다. 응답 개체의 url 속성이 요청을 보낼 때 링크와 일치하지 않으면 원래 요청이 리디렉션되었음을 의미합니다. 자동으로 처리되었습니다.

#请求重定向
#方法一
response.setStatus(302);
response.setHeader("location", "/day06/index.jsp");
        
#方法二
response.sendRedirect("/day06/index.jsp");

scrapy shell 리디렉션 페이지 가져오기

scrapy shell -s ROBOTSTXT_OBEY=False --no-redirect " 
fetch(response.headers['Location'])

2. 메타 새로 고침, 즉 웹 페이지의 e8e496c15ba93d81f6ea4fe5f55a2244 태그는 웹 페이지를 리디렉션하는 링크를 선언합니다. 이러한 종류의 리디렉션은 브라우저에 의해 수행되며 이를 처리하려면 코드를 작성해야 합니다. 예를 들어, 아래 HTML 코드의 세 번째 줄에 있는 주석에 특정 리디렉션이 표시되면 브라우저는 자동으로 점프할 수 있지만 크롤러는 점프하기 전에만 페이지를 가져올 수 있고 자동으로 점프할 수는 없습니다.

<html>
<head>  
  <meta http-equiv="refresh" content="0.1;url=http://www.redirectedtoxxx.com/"><!--本网页会在0.1秒内refresh为url所指的网页-->
</head>
</html>

해결 방법은 점프하기 전에 페이지 소스 코드를 가져오고 리디렉션 URL 정보(위 코드의 세 번째 줄의 url 속성 값)를 추출하는 것입니다. 특정 작업:

①xpath('//meta[@http-equiv="refresh" and @content]/@content')를 사용하여 콘텐츠 값 추출

#🎜 🎜 #②정규식을 사용하여 리디렉션된 URL 값을 추출합니다.

3.js 리디렉션, JavaScript 코드를 통한 리디렉션. 예를 들어, 다음 JavaScript 코드

<script language=javascript>window.location.href=&#39;http://www.redirectedtoxxx.com&#39;</script>

는 웹 페이지에 콘텐츠가 포함되어 있을 때 해결하기 가장 쉽습니다. 일반적으로 말하면 기본적으로 하드 코딩된 정적 웹 페이지의 콘텐츠이거나 동적 웹 페이지는 템플릿을 사용하여 렌더링되고 브라우저에서 얻습니다. HTML의 경우 이미 모든 주요 정보가 포함되어 있으므로 웹 페이지에서 직접 보는 콘텐츠는 특정 HTML을 통해 콘텐츠를 로드하는 자바스크립트 코드를 얻을 수 있습니다. 이러한 상황은 웹페이지가 표시될 때 HTML 태그에 내용이 들어있지만 실제로는 js 코드가 실행되어 태그에 추가되기 때문에 이때는 내용이 js 코드에 있기 때문입니다. , js 실행은 브라우저 측에서 수행되므로 프로그램을 사용하여 웹 페이지 주소를 요청하면 얻은 응답은 웹 페이지 코드와 js 코드이므로 js이므로 내용을 볼 수 있습니다. 파싱 ​​중에 실행되지 않는 경우 지정된 HTML 태그 아래의 내용이 비어 있음을 찾아야 합니다. 이때 해결 방법은 일반적으로 HTML을 파싱하는 대신 js 코드 문자열이 포함된 내용을 찾은 다음 해당 내용을 정규식을 통해 얻는 것입니다. 태그.

더 많은 Python 관련 기술 기사를 보려면

Python Tutorial 열을 방문하여 알아보세요!

위 내용은 Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.