本文已經組織良好,並以正確的葡萄牙語書寫。 唯一的建議是提高某些要點的清晰度,並為不熟悉網頁抓取和 IBGE 網站的讀者添加更多背景資訊。 修訂版如下:
本教學示範如何使用 Python 中的 Selenium 函式庫自動從 IBGE(巴西地理與統計研究所)收集通貨膨脹資料。 目的是從 SIDRA 網站(IBGE 自動恢復系統)提取 IPCA(全國消費者物價指數)百分比變化的數據。
開始之前,請確保您的系統上安裝了 Python 以及套件管理器pip
。
為您的專案建立一個新資料夾。在其中建立一個 Jupyter Notebook 檔案 (.ipynb
) 或一個 Python 檔案 (.py
)。 Jupyter Notebook 可以輕鬆一步一步檢視和執行程式碼。
開啟終端機或命令提示符,導覽至專案資料夾並執行以下命令來安裝必要的庫:
<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
建立一個虛擬環境(建議)來隔離本項目的依賴:
<code class="language-bash">python -m venv venv # Cria o ambiente virtual venv\Scripts\activate # Ativa o ambiente virtual (Windows) source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
啟動虛擬環境後,再次執行庫安裝指令。 若要將依賴項保存在 requirements.txt
檔案中,請使用:
<code class="language-bash">pip freeze > requirements.txt</code>
這讓您可以輕鬆地在另一台電腦上重現環境。
下載與您的 Google Chrome 版本相容的 ChromeDriver 版本。 您可以在ChromeDriver官網搜尋您的Chrome版本對應的版本找到下載連結(前往chrome://settings/help
查看您的版本)。 下載後,解壓縮檔案並記住它的保存位置。
為了更輕鬆地使用 ChromeDriver,請將 ChromeDriver 安裝資料夾的路徑新增至 PATH 環境變數。 請依照以下步驟操作:
C:caminhoparachromedriver
)。 要檢查 ChromeDriver 是否配置正確,請開啟終端機並輸入:
<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
應顯示 ChromeDriver 版本。
下面的Python程式碼使用Selenium存取SIDRA頁面,選擇資料並擷取IPCA百分比變化資訊。 請記得將 'C:\caminho\para\chromedriver.exe'
替換為您的 ChromeDriver 的正確路徑。
<code class="language-bash">python -m venv venv # Cria o ambiente virtual venv\Scripts\activate # Ativa o ambiente virtual (Windows) source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
運行 Python 腳本。 如果一切配置正確,腳本將:
pagina_carregada.html
(對於調試很有用)。 擷取的資料可以進一步處理,例如建立圖表或報表。
本教學提供了自動化 IBGE 資料收集的基礎。 請記住,網站結構可能會發生變化,從而需要調整 XPath 程式碼。 監視站點的變更並根據需要更新腳本非常重要。 此外,收集資料時請尊重 IBGE 網站的使用條款。
此版本提高了清晰度,添加了有關環境配置的重要信息,並為網頁抓取經驗較少的用戶提供了更完整的介紹。 結構也經過了輕微的重組,以獲得更好的流動性。
以上是網頁抓取 com selenium的詳細內容。更多資訊請關注PHP中文網其他相關文章!