Python 크롤러 도구 Selenium 사용 방법에 대한 자세한 설명-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python 크롤러 도구 Selenium 사용 방법에 대한 자세한 설명

高洛峰

Mar 08, 2017 am 11:25 AM

파이썬 크롤러

소개:

Python을 사용하여 동적 페이지를 크롤링하는 경우 일반 urllib2를 구현할 수 없습니다. 예를 들어 아래 JD 홈페이지는 스크롤 막대에 따라 새 콘텐츠를 로드합니다. , 그리고 urllib2는 이 콘텐츠를 크롤링할 수 없습니다. 이때 오늘의 주인공인 셀레늄이 필요합니다.

Python 크롤러 도구 Selenium 사용 방법에 대한 자세한 설명

Selenium은 웹 애플리케이션 테스트를 위한 도구입니다. Selenium 테스트는 실제 사용자와 마찬가지로 브라우저에서 직접 실행됩니다. 지원되는 브라우저에는 IE, Mozilla Firefox, Mozilla Suite 등이 있습니다. 또한 페이지를 크롤링하는 데 매우 편리합니다. 사용자 작업을 시뮬레이션하기 위한 액세스 단계만 수행하면 됩니다. 쿠키 및 세션 처리에 대해 전혀 걱정할 필요가 없습니다. 비밀번호를 입력한 다음 로그인 버튼을 클릭하세요. 스크롤바 위의 경우 브라우저를 맨 아래로 스크롤하고 페이지를 저장하기만 하면 됩니다. 위의 기능은 일부 크롤러 방지 메커니즘을 처리할 때 매우 유용합니다. 다음으로 설명의 본문을 시작하고 로그인이 필요한 동적 웹페이지를 크롤링하도록 안내합니다.

케이스 구현:

셀늄을 사용하려면 호출 브라우저를 선택하고 해당 드라이버를 다운로드해야 합니다. FireFox 등을 선택할 수 있고, 서버 측에서는 PhantomJS를 사용할 수 있으며, 데스크톱 버전은 브라우저에서 직접 호출하여 변경 사항을 관찰할 수 있으므로 일반적으로 데스크톱 버전을 디버깅한 후 브라우저를 PhantomJS로 변경할 수 있습니다. Chrome 등을 서버에 업로드하여 실행합니다. 여기에서는 데모용으로 PhantomJS를 직접 사용합니다.

먼저 모듈을 가져옵니다.

 from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
 from selenium import webdriver

Connect 아래로 내려갈 때 브라우저를 초기화합니다. 매개변수에서 로드된 웹 페이지의 일부 속성을 지정할 수 있습니다:

cap = webdriver.DesiredCapabilities.PHANTOMJS
cap["phantomjs.page.settings.resourceTimeout"] = 180
cap["phantomjs.page.settings.loadImages"] = False

driver = webdriver.PhantomJS(executable_path="/home/gaorong/phantomjs-2.1.1-linux-x86_64/bin/phantomjs", desired_capabilities=cap)

위의 내용은 PhantomJS를 초기화하고 브라우저의 경로를 설정합니다. loading 속성은 리소스 로딩 시간 제한을 선택하고 이미지를 로드하지 않습니다(웹 페이지 텍스트만 고려함). 여기에서 다른 설정을 선택할 수도 있습니다.

속성 설정 및 웹페이지 다운로드

driver.set_page_load_timeout(180)     
driver.get(&#39;http://www.php.cn/&#39;)
time.sleep(5)
driver.save_screenshot(&#39;./login.png&#39;)   #为便于调试，保存网页的截图

서버측에서 실행시 오류는 불가피하므로, save_screenshot을 이용하여 현재 웹페이지를 저장하여 디버깅이 용이하도록 할 수 있습니다.

다음 단계는 향후 요청을 위해 웹사이트의 쿠키를 얻기 위해 로그인할 계정과 비밀번호를 입력하는 것입니다.

#输入username和password 
driver.find_element_by_xpath("/html/body/div[1]/div[1]/login/div[2]/div/form/input[1]").send_keys(&#39;*****&#39;)   
time.sleep(1)
print &#39;input user success!!!&#39;

driver.find_element_by_xpath("/html/body/div[1]/div[1]/login/div[2]/div/form/input[2]").send_keys(&#39;****&#39;)
time.sleep(1)
print &#39;input password success!!!&#39;

driver.find_element_by_xpath("/html/body/div[1]/div[1]/login/div[2]/div/form/button").click()
time.sleep(5)

위 코드는 find_element_by_xpath를 이용해 입력창의 위치를 알아내고 계정과 비밀번호를 입력한 후 로그인 버튼을 누르면 매우 편리하다는 것을 알 수 있습니다. 그러면 자동으로 다음 페이지로 넘어갑니다. 몇 초 동안 잠자기 상태로 기다리기만 하면 됩니다.

크롤링해야 하는 웹페이지 정보는 특정 요소에 있으므로 이 요소가 나타나는지 확인해야 합니다.

try:
     element = WebDriverWait(driver, 10).until(
         EC.presence_of_element_located((By.CLASS_NAME, &#39;pulses&#39;))
     )
     print &#39;find element!!!&#39;        
 except:
     print &#39;not find element!!!&#39;
     print traceback.format_exc()
     driver.quit()

위에서는 'pulse' 클래스가 있는 요소가 나타나는지 여부를 결정합니다. 10초 동안 기다린 후에도 나타나지 않으면 selenum은 TimeoutError를 발생시킵니다.

위에서 기본 초기화를 수행한 후 동적 콘텐츠를 처리해야 합니다. 이 웹 페이지는 JD.com과 마찬가지로 드롭다운이 있는 콘텐츠가 자동으로 표시되므로 드롭다운 스크롤 막대를 구현해야 합니다.

print &#39;begin scroll to get info page...&#39;
t1 = time.time()
n = 60   #这里可以控制网页滚动距离
for i in range(1,n+1):
    s = "window.scrollTo(0,document.body.scrollHeight/{0}*{1});".format(n,i)
    #输出滚动位置，网页大小，和时间
    print s, len(driver.page_source),time.time()-t1
    driver.execute_script(s)
    time.sleep(2)

여기서 드라이버.페이지_소스는 웹페이지 텍스트를 가져옵니다. 스크롤이 완료되면 이를 호출하여 파일에 쓸 수 있습니다. 이것으로 프로그램 논리가 완성됩니다.

고급:

selenim을 사용하면 일반적인 크롤러 방지 전략을 처리할 수 있습니다. 이는 사람이 웹을 탐색하는 것과 동일하지만 인증 코드를 위해서는 추가 처리가 필요하기 때문입니다. , 또 다른 점은 액세스 속도가 너무 빨라서는 안 된다는 점입니다. 결국 브라우저를 호출해야 합니다. 너무 느리면 필요하지 않을 경우 요청 라이브러리를 사용하여 작업할 수 있습니다. .

다음은 참고할 수 있는 두 개의 블로그입니다. Python Crawler Tool Five: Selenium Usage and Common Functions

위 내용은 Python 크롤러 도구 Selenium 사용 방법에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Linux 터미널에서 Python 버전을 볼 때 발생하는 권한 문제를 해결하는 방법은 무엇입니까?Apr 01, 2025 pm 05:09 PM

Linux 터미널에서 Python 버전을 보려고 할 때 Linux 터미널에서 Python 버전을 볼 때 권한 문제에 대한 솔루션 ... Python을 입력하십시오 ...

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?Mar 10, 2025 pm 06:54 PM

이 기사에서는 HTML을 구문 분석하기 위해 파이썬 라이브러리 인 아름다운 수프를 사용하는 방법을 설명합니다. 데이터 추출, 다양한 HTML 구조 및 오류 처리 및 대안 (SEL과 같은 Find (), find_all (), select () 및 get_text ()와 같은 일반적인 방법을 자세히 설명합니다.

파이썬의 수학 모듈 : 통계Mar 09, 2025 am 11:40 AM

Python의 통계 모듈은 강력한 데이터 통계 분석 기능을 제공하여 생물 통계 및 비즈니스 분석과 같은 데이터의 전반적인 특성을 빠르게 이해할 수 있도록 도와줍니다. 데이터 포인트를 하나씩 보는 대신 평균 또는 분산과 같은 통계를보고 무시할 수있는 원래 데이터에서 트렌드와 기능을 발견하고 대형 데이터 세트를보다 쉽고 효과적으로 비교하십시오. 이 튜토리얼은 평균을 계산하고 데이터 세트의 분산 정도를 측정하는 방법을 설명합니다. 달리 명시되지 않는 한,이 모듈의 모든 함수는 단순히 평균을 합산하는 대신 평균 () 함수의 계산을 지원합니다. 부동 소수점 번호도 사용할 수 있습니다. 무작위로 가져옵니다 수입 통계 Fracti에서

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?Mar 10, 2025 pm 06:52 PM

이 기사는 딥 러닝을 위해 텐서 플로와 Pytorch를 비교합니다. 데이터 준비, 모델 구축, 교육, 평가 및 배포와 관련된 단계에 대해 자세히 설명합니다. 프레임 워크, 특히 계산 포도와 관련하여 주요 차이점

이 기사는 Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask 및 요청과 같은 인기있는 Python 라이브러리에 대해 설명하고 과학 컴퓨팅, 데이터 분석, 시각화, 기계 학습, 웹 개발 및 H에서의 사용에 대해 자세히 설명합니다.

Python으로 명령 줄 인터페이스 (CLI)를 만드는 방법은 무엇입니까?Mar 10, 2025 pm 06:48 PM

이 기사는 Python 개발자가 CLIS (Command-Line Interfaces) 구축을 안내합니다. Typer, Click 및 Argparse와 같은 라이브러리를 사용하여 입력/출력 처리를 강조하고 CLI 유용성을 향상시키기 위해 사용자 친화적 인 디자인 패턴을 홍보하는 세부 정보.

한 데이터 프레임의 전체 열을 Python의 다른 구조를 가진 다른 데이터 프레임에 효율적으로 복사하는 방법은 무엇입니까?Apr 01, 2025 pm 11:15 PM

Python의 Pandas 라이브러리를 사용할 때는 구조가 다른 두 데이터 프레임 사이에서 전체 열을 복사하는 방법이 일반적인 문제입니다. 두 개의 dats가 있다고 가정 해

파이썬에서 가상 환경의 목적을 설명하십시오.Mar 19, 2025 pm 02:27 PM

이 기사는 프로젝트 종속성 관리 및 충돌을 피하는 데 중점을 둔 Python에서 가상 환경의 역할에 대해 설명합니다. 프로젝트 관리 개선 및 종속성 문제를 줄이는 데있어 생성, 활성화 및 이점을 자세히 설명합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.