Heim >Backend-Entwicklung >Python-Tutorial >Wie scrape ich eine Javascript-Website mit Python?
Ich versuche, eine Website zu crawlen. Ich habe versucht, beide Methoden zu verwenden, aber keine von beiden liefert mir den vollständigen Website-Quellcode, den ich suche. Ich versuche, Schlagzeilen aus der unten angegebenen Website-URL herauszusuchen.
Website: „https://www.todayonline.com/“
Hier sind zwei Methoden, die ich ausprobiert habe und fehlgeschlagen bin.
tdy_url = "https://www.todayonline.com/" page = requests.get(tdy_url).text soup = beautifulsoup(page) soup # returns me a html with javascript text soup.find_all('h3') ### returns me empty list []
tdy_url = "https://www.todayonline.com/" options = Options() options.headless = True driver = webdriver.Chrome("chromedriver",options=options) driver.get(tdy_url) time.sleep(10) html = driver.page_source soup = BeautifulSoup(html) soup.find_all('h3') ### Returns me only less than 1/4 of the 'h3' tags found in the original page source
Bitte helfen Sie. Ich habe versucht, andere Nachrichtenseiten zu crawlen, und das ist viel einfacher. Danke.
Sie können über die API auf die Daten zugreifen (siehe Registerkarte „Netzwerk“):
Zum Beispiel
import requests url = "https://www.todayonline.com/api/v3/news_feed/7" data = requests.get(url).json()
Das obige ist der detaillierte Inhalt vonWie scrape ich eine Javascript-Website mit Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!