Python에서 동적 페이지(JavaScript)를 스크레이핑하는 방법
웹 스크래핑을 처리할 때 정적 HTML 페이지는 처리하기가 상대적으로 간단합니다. 그러나 대상 페이지의 콘텐츠가 JavaScript에 의해 동적으로 생성될 때 문제가 발생합니다.
Python에서 페이지 콘텐츠에 대해 urllib2.urlopen(request)을 사용하면 HTML에 표시된 내용만 읽을 수 있으며 여기에는 JavaScript가 포함되지 않을 수 있습니다. -생성된 요소. 이 동적 콘텐츠에 액세스하려면 Python 코드 내에서 브라우저 환경을 시뮬레이션해야 합니다.
PhantomJS와 함께 Selenium 사용
Selenium은 웹 브라우저와 상호 작용할 수 있는 Python 라이브러리입니다. . PhantomJS는 그래픽 사용자 인터페이스 없이 실행되는 헤드리스 브라우저입니다. 함께 동적 콘텐츠를 스크래핑하는 데 적합한 방법을 제공합니다.
import requests from selenium import webdriver # Ensure PhantomJS is installed and in the current path print(webdriver.PhantomJS().version) # Print version for confirmation url = 'my_url' # Create a PhantomJS webdriver driver = webdriver.PhantomJS() driver.get(url) # Retrieve the element with id "intro-text" p_element = driver.find_element_by_id('intro-text') # Print the text content of the element print(p_element.text)
Dryscape 사용
Dryscape는 헤드리스 JavaScript 스크래핑을 위해 특별히 설계된 또 다른 Python 라이브러리입니다.
import dryscrape from bs4 import BeautifulSoup url = 'my_url' # Create a Dryscrape session session = dryscrape.Session() session.visit(url) # Get the page body response = session.body() soup = BeautifulSoup(response) # Find the element with id "intro-text" soup.find(id='intro-text')
위 내용은 Python을 사용하여 JavaScript로 동적 웹 페이지를 긁는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!