Python 웹페이지 크롤링 기능은 매우 강력합니다. urllib 또는 urllib2를 사용하면 웹페이지 콘텐츠를 쉽게 크롤링할 수 있습니다. 하지만 많은 웹사이트에는 수집 방지 기능이 있을 수 있으므로 원하는 콘텐츠를 캡처하기가 쉽지 않다는 사실에 주의해야 할 경우가 많습니다.
오늘은 python2, python3 다운로드 시 차단과 크롤링을 건너뛰도록 브라우저를 시뮬레이션하는 방법을 공유하겠습니다.
가장 기본적인 크롤링:
#! /usr/bin/env python # -*- coding=utf-8 -*- # @Author pythontab import urllib.request url = "http://www.pythontab.com" html = urllib.request.urlopen(url).read() print(html)
하지만... 일부 웹사이트는 크롤링이 불가능하고 수집 방지 설정이 있어서 방법을 바꿔야 합니다
python2 Medium (최신 안정 버전 python2.7)
#! /usr/bin/env python # -*- coding=utf-8 -*- # @Author pythontab.com import urllib2 url="http://pythontab.com" req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 'Accept':'text/html;q=0.9,*/*;q=0.8', 'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3', 'Accept-Encoding':'gzip', 'Connection':'close', 'Referer':None #注意如果依然不能抓取的话,这里可以设置抓取网站的host } req_timeout = 5 req = urllib2.Request(url,None,req_header) resp = urllib2.urlopen(req,None,req_timeout) html = resp.read() print(html)
python3 Medium (최신 안정 버전 python3.3)
#! /usr/bin/env python # -*- coding=utf-8 -*- # @Author pythontab import urllib.request url = "http://www.pythontab.com" headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 'Accept':'text/html;q=0.9,*/*;q=0.8', 'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3', 'Accept-Encoding':'gzip', 'Connection':'close', 'Referer':None #注意如果依然不能抓取,这里可以设置抓取网站的host } opener = urllib.request.build_opener() opener.addheaders = [headers] data = opener.open(url).read() print(data)

Python 스크립트가 UNIX 시스템에서 실행할 수없는 이유는 다음과 같습니다. 1) CHMOD XYOUR_SCRIPT.PY를 사용하여 실행 권한을 부여하는 권한이 불충분합니다. 2) 잘못되거나 누락 된 Shebang 라인은 #!/usr/bin/envpython을 사용해야합니다. 3) 잘못된 환경 변수 설정, os.environ 디버깅을 인쇄 할 수 있습니다. 4) 잘못된 Python 버전을 사용하여 Shebang 행 또는 명령 줄에 버전을 지정할 수 있습니다. 5) 가상 환경을 사용하여 종속성을 분리하는 의존성 문제; 6) 구문 오류, python-mpy_compileyour_script.py를 사용하여 감지하십시오.

파이썬 어레이를 사용하는 것은 목록보다 많은 양의 숫자 데이터를 처리하는 데 더 적합합니다. 1) 배열 더 많은 메모리를 저장, 2) 배열은 숫자 값으로 작동하는 것이 더 빠르며, 3) 배열 힘 유형 일관성, 4) 배열은 C 배열과 호환되지만 목록만큼 유연하고 편리하지 않습니다.

더 나은 orfelexibility 및 mixdatatatatytys, 탁월한 정비 계산 모래 데이터 세트.

numpymanagesmemoryforlargearraysefficiedviews, 사본 및 메모리-맵핑 파일

ListSinpythondonoTrequireimportingAmodule, whilearraysfromtheArrayModuledOneedAnimport.1) ListSareBuilt-in, Versatile, andCanholdixedDatatypes.2) arraysarraysaremorememorememeMorememeMorememeMorememeMorememeMorememeMorememeMoremeMoremeTeverTopeTeveTeTeTeTeTeTeTeTeTeTeTeTeTeTeTeTeveTeTeTeTeTeTeTeTete가 필요합니다.

PythonlistsCanstoreAnyDatAtype, ArrayModuLearRaysStoreOneType 및 NUMPYARRAYSAREFORNUMERICALPUTATION.1) LISTSAREVERSATILEBUTLESSMEMORY-EFFICENT.2) ARRAYMODUERRAYRAYRAYSARRYSARESARESARESARESARESARESAREDOREDORY-UNFICEDONOUNEOUSDATA.3) NumpyArraysUraysOrcepperperperperperperperperperperperperperperperferperferperferferpercient

whenyouattempttoreavalueofthewrongdatatypeinapythonaphonarray, thisiSdueTotheArrayModule의 stricttyPeenforcement, theAllElementStobeofthesAmetypecified bythetypecode.forperformancersassion, arraysaremoreficats the thraysaremoreficats thetheperfication the thraysaremorefications는

Pythonlistsarepartoftsandardlardlibrary, whileraysarenot.listsarebuilt-in, 다재다능하고, 수집 할 수있는 반면, arraysarreprovidedByTearRaymoduledlesscommonlyusedDuetolimitedFunctionality.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

PhpStorm 맥 버전
최신(2018.2.1) 전문 PHP 통합 개발 도구

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기
