Heim  >  Artikel  >  Backend-Entwicklung  >  Wie scrape ich eine Javascript-Website mit Python?

Wie scrape ich eine Javascript-Website mit Python?

WBOY
WBOYnach vorne
2024-02-10 15:40:041127Durchsuche

如何用 Python 抓取 javascript 网站?

Frageninhalt

Ich versuche, eine Website zu crawlen. Ich habe versucht, beide Methoden zu verwenden, aber keine von beiden liefert mir den vollständigen Website-Quellcode, den ich suche. Ich versuche, Schlagzeilen aus der unten angegebenen Website-URL herauszusuchen.

Website: „https://www.todayonline.com/“

Hier sind zwei Methoden, die ich ausprobiert habe und fehlgeschlagen bin.

Methode 1: Schöne Suppe

tdy_url = "https://www.todayonline.com/"
page = requests.get(tdy_url).text
soup = beautifulsoup(page)
soup  # returns me a html with javascript text
soup.find_all('h3')

### returns me empty list []

Methode 2: Selen + beautifulsoup

tdy_url = "https://www.todayonline.com/"

options = Options()
options.headless = True

driver = webdriver.Chrome("chromedriver",options=options)

driver.get(tdy_url)
time.sleep(10)
html = driver.page_source

soup = BeautifulSoup(html)
soup.find_all('h3')

### Returns me only less than 1/4 of the 'h3' tags found in the original page source

Bitte helfen Sie. Ich habe versucht, andere Nachrichtenseiten zu crawlen, und das ist viel einfacher. Danke.


Richtige Antwort


Sie können über die API auf die Daten zugreifen (siehe Registerkarte „Netzwerk“):

Zum Beispiel

import requests
url = "https://www.todayonline.com/api/v3/news_feed/7"
data = requests.get(url).json()

Das obige ist der detaillierte Inhalt vonWie scrape ich eine Javascript-Website mit Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:stackoverflow.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen