首頁 >後端開發 >Python教學 >網頁抓取 com selenium

網頁抓取 com selenium

Susan Sarandon
Susan Sarandon原創
2025-01-23 18:11:17559瀏覽

本文已經組織良好,並以正確的葡萄牙語書寫。 唯一的建議是提高某些要點的清晰度,並為不熟悉網頁抓取和 IBGE 網站的讀者添加更多背景資訊。 修訂版如下:

Web scraping com selenium


使用 Selenium 和 Python 自動收集 IBGE 通貨膨脹資料

本教學示範如何使用 Python 中的 Selenium 函式庫自動從 IBGE(巴西地理與統計研究所)收集通貨膨脹資料。 目的是從 SIDRA 網站(IBGE 自動恢復系統)提取 IPCA(全國消費者物價指數)百分比變化的數據。


資料收集步驟

開始之前,請確保您的系統上安裝了 Python 以及套件管理器pip


1。環境準備

1.1 建立項目:

為您的專案建立一個新資料夾。在其中建立一個 Jupyter Notebook 檔案 (.ipynb) 或一個 Python 檔案 (.py)。 Jupyter Notebook 可以輕鬆一步一步檢視和執行程式碼。

1.2 安裝庫:

開啟終端機或命令提示符,導覽至專案資料夾並執行以下命令來安裝必要的庫:

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>

建立一個虛擬環境(建議)來隔離本項目的依賴:

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>

啟動虛擬環境後,再次執行庫安裝指令。 若要將依賴項保存在 requirements.txt 檔案中,請使用:

<code class="language-bash">pip freeze > requirements.txt</code>

這讓您可以輕鬆地在另一台電腦上重現環境。

1.3 ChromeDriver 下載:

下載與您的 Google Chrome 版本相容的 ChromeDriver 版本。 您可以在ChromeDriver官網搜尋您的Chrome版本對應的版本找到下載連結(前往chrome://settings/help查看您的版本)。 下載後,解壓縮檔案並記住它的保存位置。


2。 Chrome 驅動程式設定

2.1 新增到路徑(Windows):

為了更輕鬆地使用 ChromeDriver,請將 ChromeDriver 安裝資料夾的路徑新增至 PATH 環境變數。 請依照以下步驟操作:

  1. 在開始功能表中搜尋「環境變數」。
  2. 點選「編輯系統環境變數」。
  3. 在「系統變數」部分中,選擇「路徑」並點選「編輯」。
  4. 點選「新建」並新增ChromeDriver所在資料夾的完整路徑(例如:C:caminhoparachromedriver)。
  5. 儲存變更並重新啟動終端機或命令提示字元。

2.2 驗證:

要檢查 ChromeDriver 是否配置正確,請開啟終端機並輸入:

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>

應顯示 ChromeDriver 版本。


3。用於自動化的 Python 腳本

下面的Python程式碼使用Selenium存取SIDRA頁面,選擇資料並擷取IPCA百分比變化資訊。 請記得將 'C:\caminho\para\chromedriver.exe' 替換為您的 ChromeDriver 的正確路徑。

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>

4。執行與結果

運行 Python 腳本。 如果一切配置正確,腳本將:

  1. 造訪 SIDRA 頁面。
  2. 選擇所有數據。
  3. 提取百分比變化值。
  4. 將數值列印到控制台。
  5. 將頁面的 HTML 保存在文件中 pagina_carregada.html(對於調試很有用)。

擷取的資料可以進一步處理,例如建立圖表或報表。


最終考慮因素

本教學提供了自動化 IBGE 資料收集的基礎。 請記住,網站結構可能會發生變化,從而需要調整 XPath 程式碼。 監視站點的變更並根據需要更新腳本非常重要。 此外,收集資料時請尊重 IBGE 網站的使用條款。

此版本提高了清晰度,添加了有關環境配置的重要信息,並為網頁抓取經驗較少的用戶提供了更完整的介紹。 結構也經過了輕微的重組,以獲得更好的流動性。

以上是網頁抓取 com selenium的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn