首頁 >後端開發 >Python教學 >網頁抓取 com selenium

網頁抓取 com selenium

Susan Sarandon原創: 2025-01-23 18:11:17602瀏覽

本文已經組織良好，並以正確的葡萄牙語書寫。唯一的建議是提高某些要點的清晰度，並為不熟悉網頁抓取和 IBGE 網站的讀者添加更多背景資訊。修訂版如下：

Web scraping com selenium

使用 Selenium 和 Python 自動收集 IBGE 通貨膨脹資料

本教學示範如何使用 Python 中的 Selenium 函式庫自動從 IBGE（巴西地理與統計研究所）收集通貨膨脹資料。目的是從 SIDRA 網站（IBGE 自動恢復系統）提取 IPCA（全國消費者物價指數）百分比變化的數據。

資料收集步驟

開始之前，請確保您的系統上安裝了 Python 以及套件管理器pip。

1。環境準備

1.1 建立項目：

為您的專案建立一個新資料夾。在其中建立一個 Jupyter Notebook 檔案 (.ipynb) 或一個 Python 檔案 (.py)。 Jupyter Notebook 可以輕鬆一步一步檢視和執行程式碼。

1.2 安裝庫：

開啟終端機或命令提示符，導覽至專案資料夾並執行以下命令來安裝必要的庫：

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>

建立一個虛擬環境（建議）來隔離本項目的依賴：

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>

啟動虛擬環境後，再次執行庫安裝指令。若要將依賴項保存在 requirements.txt 檔案中，請使用：

<code class="language-bash">pip freeze > requirements.txt</code>

這讓您可以輕鬆地在另一台電腦上重現環境。

1.3 ChromeDriver 下載：

下載與您的 Google Chrome 版本相容的 ChromeDriver 版本。您可以在ChromeDriver官網搜尋您的Chrome版本對應的版本找到下載連結（前往chrome://settings/help查看您的版本）。下載後，解壓縮檔案並記住它的保存位置。

2。 Chrome 驅動程式設定

2.1 新增到路徑（Windows）：

為了更輕鬆地使用 ChromeDriver，請將 ChromeDriver 安裝資料夾的路徑新增至 PATH 環境變數。請依照以下步驟操作：

在開始功能表中搜尋「環境變數」。
點選「編輯系統環境變數」。
在「系統變數」部分中，選擇「路徑」並點選「編輯」。
點選「新建」並新增ChromeDriver所在資料夾的完整路徑（例如：C:caminhoparachromedriver）。
儲存變更並重新啟動終端機或命令提示字元。

2.2 驗證：

要檢查 ChromeDriver 是否配置正確，請開啟終端機並輸入：

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>

應顯示 ChromeDriver 版本。

3。用於自動化的 Python 腳本

下面的Python程式碼使用Selenium存取SIDRA頁面，選擇資料並擷取IPCA百分比變化資訊。 請記得將 'C:\caminho\para\chromedriver.exe' 替換為您的 ChromeDriver 的正確路徑。

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>

4。執行與結果

運行 Python 腳本。如果一切配置正確，腳本將：

造訪 SIDRA 頁面。
選擇所有數據。
提取百分比變化值。
將數值列印到控制台。
將頁面的 HTML 保存在文件中 pagina_carregada.html（對於調試很有用）。

擷取的資料可以進一步處理，例如建立圖表或報表。

最終考慮因素

本教學提供了自動化 IBGE 資料收集的基礎。請記住，網站結構可能會發生變化，從而需要調整 XPath 程式碼。監視站點的變更並根據需要更新腳本非常重要。此外，收集資料時請尊重 IBGE 網站的使用條款。

此版本提高了清晰度，添加了有關環境配置的重要信息，並為網頁抓取經驗較少的用戶提供了更完整的介紹。結構也經過了輕微的重組，以獲得更好的流動性。

以上是網頁抓取 com selenium的詳細內容。更多資訊請關注PHP中文網其他相關文章！

Python chrome html pip console windows jupyter ar prompt Web Scraping Prompt

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：不要再這樣寫 Python 函數了！下一篇：不要再這樣寫 Python 函數了！

看更多