使用 Python 進行動態內容抓取
從靜態 HTML 取得純文字很簡單,但動態內容則不同。 JavaScript 嵌入的內容無法立即被 Python 的 HTTP 請求庫(如 urllib2)存取。
存取動態內容
要存取動態內容,Python 可以利用模擬 Web 的外部工具瀏覽器。這些工具執行 JavaScript 並傳回渲染的頁面內容。
1. Selenium 與 PhantomJS:
2. dryscape(僅限 Python 2):
範例
考慮使用動態JavaScript 的範例HTML 頁面:
考慮使用動態JavaScript 的範例HTML 頁面:考慮使用動態JavaScript >
沒有JS支援:輸出:
有JS支援(硒):
輸出:
以上是Python 如何抓取動態網站內容?的詳細內容。更多資訊請關注PHP中文網其他相關文章!