찾다
백엔드 개발파이썬 튜토리얼Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?

Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?

검색 엔진 크롤러는 페이지를 크롤링할 때 웹페이지가 리디렉션되는 상황에 직면하게 됩니다. 소위 리디렉션(리디렉션)은 다양한 방법을 통해 이루어집니다(이 기사에서 언급한 유형). 3) 다양한 네트워크 요청을 다른 위치(URL)로 리디렉션합니다. 각 웹사이트의 홈페이지는 웹사이트 리소스의 입구입니다. 해당 웹사이트의 홈페이지에서 리디렉션이 발생할 경우 올바르게 처리되지 않으면 전체 웹사이트의 콘텐츠가 누락될 가능성이 높습니다.

1. 서버 측 리디렉션은 일반적으로 크롤러가 스스로 적응할 수 있으며 응답 코드 301(영구 리디렉션), 302(임시 리디렉션)과 같은 특별한 처리가 필요하지 않습니다. )기다리다. 구체적으로 요청으로 얻은 응답 객체의 url과 status_code 두 가지 속성으로 판단할 수 있습니다. status_code가 301, 302 또는 리디렉션을 나타내는 다른 코드인 경우 원래 요청이 리디렉션되었음을 의미합니다. 응답 개체의 url 속성이 요청을 보낼 때 링크와 일치하지 않으면 원래 요청이 리디렉션되었음을 의미합니다. 자동으로 처리되었습니다.

#请求重定向
#方法一
response.setStatus(302);
response.setHeader("location", "/day06/index.jsp");
        
#方法二
response.sendRedirect("/day06/index.jsp");

scrapy shell 리디렉션 페이지 가져오기

scrapy shell -s ROBOTSTXT_OBEY=False --no-redirect " 
fetch(response.headers['Location'])

2. 메타 새로 고침, 즉 웹 페이지의 태그는 웹 페이지를 리디렉션하는 링크를 선언합니다. 이러한 종류의 리디렉션은 브라우저에 의해 수행되며 이를 처리하려면 코드를 작성해야 합니다. 예를 들어, 아래 HTML 코드의 세 번째 줄에 있는 주석에 특정 리디렉션이 표시되면 브라우저는 자동으로 점프할 수 있지만 크롤러는 점프하기 전에만 페이지를 가져올 수 있고 자동으로 점프할 수는 없습니다.

<html>
<head>  
  <meta http-equiv="refresh" content="0.1;url=http://www.redirectedtoxxx.com/"><!--本网页会在0.1秒内refresh为url所指的网页-->
</head>
</html>

해결 방법은 점프하기 전에 페이지 소스 코드를 가져오고 리디렉션 URL 정보(위 코드의 세 번째 줄의 url 속성 값)를 추출하는 것입니다. 특정 작업:

①xpath('//meta[@http-equiv="refresh" and @content]/@content')를 사용하여 콘텐츠 값 추출

#🎜 🎜 #②정규식을 사용하여 리디렉션된 URL 값을 추출합니다.

3.js 리디렉션, JavaScript 코드를 통한 리디렉션. 예를 들어, 다음 JavaScript 코드

<script language=javascript>window.location.href=&#39;http://www.redirectedtoxxx.com&#39;</script>

는 웹 페이지에 콘텐츠가 포함되어 있을 때 해결하기 가장 쉽습니다. 일반적으로 말하면 기본적으로 하드 코딩된 정적 웹 페이지의 콘텐츠이거나 동적 웹 페이지는 템플릿을 사용하여 렌더링되고 브라우저에서 얻습니다. HTML의 경우 이미 모든 주요 정보가 포함되어 있으므로 웹 페이지에서 직접 보는 콘텐츠는 특정 HTML을 통해 콘텐츠를 로드하는 자바스크립트 코드를 얻을 수 있습니다. 이러한 상황은 웹페이지가 표시될 때 HTML 태그에 내용이 들어있지만 실제로는 js 코드가 실행되어 태그에 추가되기 때문에 이때는 내용이 js 코드에 있기 때문입니다. , js 실행은 브라우저 측에서 수행되므로 프로그램을 사용하여 웹 페이지 주소를 요청하면 얻은 응답은 웹 페이지 코드와 js 코드이므로 js이므로 내용을 볼 수 있습니다. 파싱 ​​중에 실행되지 않는 경우 지정된 HTML 태그 아래의 내용이 비어 있음을 찾아야 합니다. 이때 해결 방법은 일반적으로 HTML을 파싱하는 대신 js 코드 문자열이 포함된 내용을 찾은 다음 해당 내용을 정규식을 통해 얻는 것입니다. 태그.

더 많은 Python 관련 기술 기사를 보려면

Python Tutorial 열을 방문하여 알아보세요!

위 내용은 Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
Python vs. C : 응용 및 사용 사례가 비교되었습니다Python vs. C : 응용 및 사용 사례가 비교되었습니다Apr 12, 2025 am 12:01 AM

Python은 데이터 과학, 웹 개발 및 자동화 작업에 적합한 반면 C는 시스템 프로그래밍, 게임 개발 및 임베디드 시스템에 적합합니다. Python은 단순성과 강력한 생태계로 유명하며 C는 고성능 및 기본 제어 기능으로 유명합니다.

2 시간의 파이썬 계획 : 현실적인 접근2 시간의 파이썬 계획 : 현실적인 접근Apr 11, 2025 am 12:04 AM

2 시간 이내에 Python의 기본 프로그래밍 개념과 기술을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우기, 2. 마스터 제어 흐름 (조건부 명세서 및 루프), 3. 기능의 정의 및 사용을 이해하십시오. 4. 간단한 예제 및 코드 스 니펫을 통해 Python 프로그래밍을 신속하게 시작하십시오.

파이썬 : 기본 응용 프로그램 탐색파이썬 : 기본 응용 프로그램 탐색Apr 10, 2025 am 09:41 AM

Python은 웹 개발, 데이터 과학, 기계 학습, 자동화 및 스크립팅 분야에서 널리 사용됩니다. 1) 웹 개발에서 Django 및 Flask 프레임 워크는 개발 프로세스를 단순화합니다. 2) 데이터 과학 및 기계 학습 분야에서 Numpy, Pandas, Scikit-Learn 및 Tensorflow 라이브러리는 강력한 지원을 제공합니다. 3) 자동화 및 스크립팅 측면에서 Python은 자동화 된 테스트 및 시스템 관리와 ​​같은 작업에 적합합니다.

2 시간 안에 얼마나 많은 파이썬을 배울 수 있습니까?2 시간 안에 얼마나 많은 파이썬을 배울 수 있습니까?Apr 09, 2025 pm 04:33 PM

2 시간 이내에 파이썬의 기본 사항을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우십시오. 이를 통해 간단한 파이썬 프로그램 작성을 시작하는 데 도움이됩니다.

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법?10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법?Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까?중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까?Apr 02, 2025 am 07:15 AM

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

Python 3.6에 피클 파일을로드 할 때 '__builtin__'모듈을 찾을 수없는 경우 어떻게해야합니까?Python 3.6에 피클 파일을로드 할 때 '__builtin__'모듈을 찾을 수없는 경우 어떻게해야합니까?Apr 02, 2025 am 07:12 AM

Python 3.6에 피클 파일로드 3.6 환경 보고서 오류 : modulenotfounderror : nomodulename ...

경치 좋은 스팟 코멘트 분석에서 Jieba Word 세분화의 정확성을 향상시키는 방법은 무엇입니까?경치 좋은 스팟 코멘트 분석에서 Jieba Word 세분화의 정확성을 향상시키는 방법은 무엇입니까?Apr 02, 2025 am 07:09 AM

경치 좋은 스팟 댓글 분석에서 Jieba Word 세분화 문제를 해결하는 방법은 무엇입니까? 경치가 좋은 스팟 댓글 및 분석을 수행 할 때 종종 Jieba Word 세분화 도구를 사용하여 텍스트를 처리합니다 ...

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.