首頁 >後端開發 >Python教學 >如何用 Python 抓取 javascript 網站?

如何用 Python 抓取 javascript 網站?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB轉載
2024-02-10 15:40:041240瀏覽

如何用 Python 抓取 javascript 网站?

問題內容

我正在嘗試抓取一個網站。我嘗試過使用兩種方法,但兩種方法都沒有為我提供我正在尋找的完整網站原始碼。我正在嘗試從下面提供的網站 url 中抓取新聞標題。

網址:「https://www.todayonline.com/」

這是我嘗試過但失敗的兩種方法。

方法一:美湯

tdy_url = "https://www.todayonline.com/"
page = requests.get(tdy_url).text
soup = beautifulsoup(page)
soup  # returns me a html with javascript text
soup.find_all('h3')

### returns me empty list []

方法2:selenium beautifulsoup

tdy_url = "https://www.todayonline.com/"

options = Options()
options.headless = True

driver = webdriver.Chrome("chromedriver",options=options)

driver.get(tdy_url)
time.sleep(10)
html = driver.page_source

soup = BeautifulSoup(html)
soup.find_all('h3')

### Returns me only less than 1/4 of the 'h3' tags found in the original page source

請幫忙。我嘗試過抓取其他新聞網站,這要容易得多。謝謝。


正確答案


您可以透過 api 存取資料(查看「網路」標籤):

例如,

import requests
url = "https://www.todayonline.com/api/v3/news_feed/7"
data = requests.get(url).json()

以上是如何用 Python 抓取 javascript 網站?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:stackoverflow.com。如有侵權,請聯絡admin@php.cn刪除