python2 및 python3을 사용하여 브라우저를 위장하고 웹 콘텐츠를 크롤링합니다.-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

python2 및 python3을 사용하여 브라우저를 위장하고 웹 콘텐츠를 크롤링합니다.

高洛峰

Oct 18, 2016 pm 01:55 PM

python2python3브라우저기다

Python 웹페이지 크롤링 기능은 매우 강력합니다. urllib 또는 urllib2를 사용하면 웹페이지 콘텐츠를 쉽게 크롤링할 수 있습니다. 하지만 많은 웹사이트에는 수집 방지 기능이 있을 수 있으므로 원하는 콘텐츠를 캡처하기가 쉽지 않다는 사실에 주의해야 할 경우가 많습니다.

오늘은 python2, python3 다운로드 시 차단과 크롤링을 건너뛰도록 브라우저를 시뮬레이션하는 방법을 공유하겠습니다.

가장 기본적인 크롤링:

#! /usr/bin/env python
# -*- coding=utf-8 -*-
# @Author pythontab
import urllib.request
url = "http://www.pythontab.com"
html = urllib.request.urlopen(url).read(）
print(html)

하지만... 일부 웹사이트는 크롤링이 불가능하고 수집 방지 설정이 있어서 방법을 바꿔야 합니다

python2 Medium (최신 안정 버전 python2.7)

#! /usr/bin/env python
# -*- coding=utf-8 -*-
# @Author pythontab.com
import urllib2
url="http://pythontab.com"
req_header = {&#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11&#39;,
             &#39;Accept&#39;:&#39;text/html;q=0.9,*/*;q=0.8&#39;,
             &#39;Accept-Charset&#39;:&#39;ISO-8859-1,utf-8;q=0.7,*;q=0.3&#39;,
             &#39;Accept-Encoding&#39;:&#39;gzip&#39;,
             &#39;Connection&#39;:&#39;close&#39;,
             &#39;Referer&#39;:None #注意如果依然不能抓取的话，这里可以设置抓取网站的host
             }
req_timeout = 5
req = urllib2.Request(url,None,req_header)
resp = urllib2.urlopen(req,None,req_timeout)
html = resp.read()
print(html)

python3 Medium (최신 안정 버전 python3.3)

#! /usr/bin/env python
# -*- coding=utf-8 -*-
# @Author pythontab
import urllib.request
  
url = "http://www.pythontab.com"
headers = {&#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11&#39;,
             &#39;Accept&#39;:&#39;text/html;q=0.9,*/*;q=0.8&#39;,
             &#39;Accept-Charset&#39;:&#39;ISO-8859-1,utf-8;q=0.7,*;q=0.3&#39;,
             &#39;Accept-Encoding&#39;:&#39;gzip&#39;,
             &#39;Connection&#39;:&#39;close&#39;,
             &#39;Referer&#39;:None #注意如果依然不能抓取，这里可以设置抓取网站的host
             }
  
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read()
print(data)

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

파이썬 스크립트가 UNIX에서 실행되지 않는 일반적인 이유는 무엇입니까?Apr 28, 2025 am 12:18 AM

Python 스크립트가 UNIX 시스템에서 실행할 수없는 이유는 다음과 같습니다. 1) CHMOD XYOUR_SCRIPT.PY를 사용하여 실행 권한을 부여하는 권한이 불충분합니다. 2) 잘못되거나 누락 된 Shebang 라인은 #!/usr/bin/envpython을 사용해야합니다. 3) 잘못된 환경 변수 설정, os.environ 디버깅을 인쇄 할 수 있습니다. 4) 잘못된 Python 버전을 사용하여 Shebang 행 또는 명령 줄에 버전을 지정할 수 있습니다. 5) 가상 환경을 사용하여 종속성을 분리하는 의존성 문제; 6) 구문 오류, python-mpy_compileyour_script.py를 사용하여 감지하십시오.

파이썬 어레이를 사용하는 것이 목록을 사용하는 것보다 더 적절한 시나리오의 예를 제시하십시오.Apr 28, 2025 am 12:15 AM

파이썬 어레이를 사용하는 것은 목록보다 많은 양의 숫자 데이터를 처리하는 데 더 적합합니다. 1) 배열 더 많은 메모리를 저장, 2) 배열은 숫자 값으로 작동하는 것이 더 빠르며, 3) 배열 힘 유형 일관성, 4) 배열은 C 배열과 호환되지만 목록만큼 유연하고 편리하지 않습니다.

Python에서 목록 대 배열 사용의 성능은 무엇입니까?Apr 28, 2025 am 12:10 AM

더 나은 orfelexibility 및 mixdatatatatytys, 탁월한 정비 계산 모래 데이터 세트.

Numpy는 대형 배열의 메모리 관리를 어떻게 처리합니까?Apr 28, 2025 am 12:07 AM

numpymanagesmemoryforlargearraysefficiedviews, 사본 및 메모리-맵핑 파일

모듈 가져와 목록 또는 배열을 가져와야합니까?Apr 28, 2025 am 12:06 AM

ListSinpythondonoTrequireimportingAmodule, whilearraysfromtheArrayModuledOneedAnimport.1) ListSareBuilt-in, Versatile, andCanholdixedDatatypes.2) arraysarraysaremorememorememeMorememeMorememeMorememeMorememeMorememeMorememeMoremeMoremeTeverTopeTeveTeTeTeTeTeTeTeTeTeTeTeTeTeTeTeTeveTeTeTeTeTeTeTeTete가 필요합니다.

파이썬 어레이에 어떤 데이터 유형을 저장할 수 있습니까?Apr 27, 2025 am 12:11 AM

PythonlistsCanstoreAnyDatAtype, ArrayModuLearRaysStoreOneType 및 NUMPYARRAYSAREFORNUMERICALPUTATION.1) LISTSAREVERSATILEBUTLESSMEMORY-EFFICENT.2) ARRAYMODUERRAYRAYRAYSARRYSARESARESARESARESARESARESAREDOREDORY-UNFICEDONOUNEOUSDATA.3) NumpyArraysUraysOrcepperperperperperperperperperperperperperperperferperferperferferpercient

파이썬 어레이에 잘못된 데이터 유형의 값을 저장하려고하면 어떻게됩니까?Apr 27, 2025 am 12:10 AM

whenyouattempttoreavalueofthewrongdatatypeinapythonaphonarray, thisiSdueTotheArrayModule의 stricttyPeenforcement, theAllElementStobeofthesAmetypecified bythetypecode.forperformancersassion, arraysaremoreficats the thraysaremoreficats thetheperfication the thraysaremorefications는

Python Standard Library의 일부는 무엇입니까? 목록 또는 배열은 무엇입니까?Apr 27, 2025 am 12:03 AM

Pythonlistsarepartoftsandardlardlibrary, whileraysarenot.listsarebuilt-in, 다재다능하고, 수집 할 수있는 반면, arraysarreprovidedByTearRaymoduledlesscommonlyusedDuetolimitedFunctionality.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는