>백엔드 개발 >파이썬 튜토리얼 >Python을 사용하여 JavaScript로 동적 웹 페이지를 긁는 방법은 무엇입니까?

Python을 사용하여 JavaScript로 동적 웹 페이지를 긁는 방법은 무엇입니까?

Linda Hamilton
Linda Hamilton원래의
2024-12-26 18:07:09368검색

How to Scrape Dynamic Web Pages with JavaScript using Python?

Python에서 동적 페이지(JavaScript)를 스크레이핑하는 방법

웹 스크래핑을 처리할 때 정적 HTML 페이지는 처리하기가 상대적으로 간단합니다. 그러나 대상 페이지의 콘텐츠가 JavaScript에 의해 동적으로 생성될 때 문제가 발생합니다.

Python에서 페이지 콘텐츠에 대해 urllib2.urlopen(request)을 사용하면 HTML에 표시된 내용만 읽을 수 있으며 여기에는 JavaScript가 포함되지 않을 수 있습니다. -생성된 요소. 이 동적 콘텐츠에 액세스하려면 Python 코드 내에서 브라우저 환경을 시뮬레이션해야 합니다.

PhantomJS와 함께 Selenium 사용

Selenium은 웹 브라우저와 상호 작용할 수 있는 Python 라이브러리입니다. . PhantomJS는 그래픽 사용자 인터페이스 없이 실행되는 헤드리스 브라우저입니다. 함께 동적 콘텐츠를 스크래핑하는 데 적합한 방법을 제공합니다.

import requests
from selenium import webdriver

# Ensure PhantomJS is installed and in the current path
print(webdriver.PhantomJS().version)  # Print version for confirmation

url = 'my_url'

# Create a PhantomJS webdriver
driver = webdriver.PhantomJS()
driver.get(url)

# Retrieve the element with id "intro-text"
p_element = driver.find_element_by_id('intro-text')

# Print the text content of the element
print(p_element.text)

Dryscape 사용

Dryscape는 헤드리스 JavaScript 스크래핑을 위해 특별히 설계된 또 다른 Python 라이브러리입니다.

import dryscrape
from bs4 import BeautifulSoup

url = 'my_url'

# Create a Dryscrape session
session = dryscrape.Session()
session.visit(url)

# Get the page body
response = session.body()
soup = BeautifulSoup(response)

# Find the element with id "intro-text"
soup.find(id='intro-text')

위 내용은 Python을 사용하여 JavaScript로 동적 웹 페이지를 긁는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.