首頁  >  文章  >  後端開發  >  如何使用 Python 中的請求從嚴重依賴 JavaScript 的網站中抓取內容?

如何使用 Python 中的請求從嚴重依賴 JavaScript 的網站中抓取內容?

Barbara Streisand
Barbara Streisand原創
2024-11-04 18:22:02363瀏覽

How can I scrape content from websites heavily reliant on JavaScript using Requests in Python?

啟用Javascript 的頁面的請求

Requests 是一個強大的Python HTTP 庫,但它很難從嚴重依賴的網站中提取內容在JavaScript 上。這是因為 JavaScript 通常在客戶端運行,在初始頁面載入後動態生成內容。

解決方案:Requests-HTML

幸運的是,Requests 社群已經開發了解決方案:requests-html。此模組為Requests新增了JavaScript渲染功能,讓您與使用JavaScript的頁面進行互動。

用法:

使用Requests-HTML:

  1. 使用pip 安裝:pip install requests-html
  2. 使用pip 安裝:pip install requests-html
  3. 建立HTMLSession 物件:session = HTMLSession()
  4. Fetch URL: r = session.get('http://www.yourjspage.com')

渲染JavaScript:

  1. 執行頁面上的JavaScript:r.html.render()

訪問內容:

渲染JavaScript 後,您可以像使用一樣存取內容常規HTML。例如:
<code class="python">r.html.find('#myElementID').text</code>

這將傳回 ID 為「myElementID」的 HTML 元素的內容。

其他功能:

請求-HTML 封裝了BeautifulSoup,讓您執行其他操作,例如:
  • 存取權>
  • 使用CSS 選擇器解析內容
  • 提取屬性和標籤

透過使用Requests-HTML,您可以輕鬆地從支援JavaScript 的網站檢索數據,而不會犧牲Requests 的簡單性和強大功能。

以上是如何使用 Python 中的請求從嚴重依賴 JavaScript 的網站中抓取內容?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn