您好,今天我們將為數據領域的初學者創建第一個項目,以便能夠開始創建一個很酷的作品集並使用所有必要的工具來使用數據!
這個專案表明,即使你是Python的初學者,你總能找到庫來執行你還不知道如何從頭開始做的更複雜的任務(有些事情甚至不值得從頭開始做)任何一個) 。首先,您必須具備 Python 和 SQL 的初步知識,以及對建立儀表板的 Tableau 的一點了解。您不必成為專家,但是了解這些工具的基礎知識將幫助您更輕鬆地跟踪該項目,但是您可以閱讀整篇文章並嘗試重現它,因為我將嘗試在最簡單的方法,現在您就可以開始建立您的第一個儀表板了!
我們開始吧?
第一步是在您的機器上配置開發環境,該專案的要求是:
我正在 Windows 11 環境中開發這個項目,因此有些事情可能會根據您的作業系統或 Windows 版本而有所不同,但與我將在這裡介紹的內容不會有太大偏差。
讓我們從 Python 開始。請造訪 https://www.python.org/downloads/ 並下載最新版本的安裝程式。安裝後,重新啟動電腦以避免錯誤(就像我身上發生的那樣哈哈)並能夠在命令列上毫無問題地使用該語言。
然後,對於 MySQL,請造訪網站 https://dev.mysql.com/downloads/mysql/ 並下載 MySQL Community Server 安裝程式。只要按照標準安裝,一切都會很順利。
現在,使用 Tableau Public,前往 https://www.tableau.com/pt-br/products/public/download 並建立您的帳戶以開始下載。建立帳戶對於發布您的第一個儀表板也是必要的,並且對於您的作品集也非常重要!
另一個不是必需的但非常好的工具是 git 和 github 帳戶。我將所有帶有提交和註釋的程式碼放在這裡,使用 github 作為程式碼組合非常棒,但如果您不了解 git,也沒關係,您的專案也會以同樣的方式工作。
配置完所有內容後,請前往要放置應用程式的目錄,然後讓我們進行更多配置。您將需要在專案中使用一些 Python 庫,我將解釋每個庫的作用以及如何安裝它們。
我們將使用的第一個函式庫是 BeautifulSoup。這個專案所需的數據位於互聯網上,我們必須執行一個稱為「網頁抓取」的過程來收集這些數據,BeautifulSoup 將透過為我們提供促進此收集的工具來幫助我們完成此過程。
要安裝它,只需轉到終端並輸入
pip install beautifulsoup4
然後...就是這樣!在Python中安裝依賴項非常簡單!
我們將使用的第二個函式庫是 requests。如果我們要使用網頁,我們需要一些東西來幫助我們使用 API 執行 CRUD 操作,所以這將是我們的選擇。再次,只需在終端機中使用
安裝
pip install requests
我們也將實施良好的實踐並使用環境變數(這樣就沒有人發現我們的密碼、使用者名稱和程式碼中的其他敏感資訊),因此我們需要 os 和 dotenv。 os 必須已經在 python 中預設安裝,而 dotenv 沒有,所以這是通常的過程
pip install dotenv
最後但並非最不重要的一點是,我們需要一個函式庫來連接到我們的 MySQL 資料庫,所以讓我們使用 mysql.connector
pip install mysql-connector-python
配置好開發環境後,就可以進入過程中最有趣的部分,程式設計! !
我們將建立一個項目,該項目將分為兩個部分(就程式碼而言):網頁抓取和資料庫操作,因此我們將從建立網頁抓取檔案開始,這也是主要程式碼所在的位置留下來,然後我們將建立一個檔案來放置我們的資料庫操作函數。這不僅有助於我們維護程式碼,還有助於其重複使用。
在應用程式目錄中建立一個名為 web_scrapper.py 的檔案。
接下來,我們將導入先前安裝的依賴項。
from bs4 import BeautifulSoup import requests import db_manager import os from dotenv import load_dotenv
從 dotenv 中,我們只需要 load_dotenv 函數,因此我們只導入它。
首先,讓我們考慮一下程式碼的結構,並逐步編寫我們希望每件事做什麼,這樣就更有組織性。我們希望我們的程式碼執行以下操作:
讓我們分部分進行,我們要創建和測試的第一部分是創建網頁抓取工具,所以最好的方法就是從這裡開始!
我們將使用專門為此類事情製作的網站,https://www.scrapethissite.com/,在那裡您會找到幾種類型的頁面來練習網頁抓取。我們對初學者模型特別感興趣,所以讓我們請求該頁面:
pip install beautifulsoup4
這裡我們使用requests get方法,相當於CRUD的讀取,它返回網頁並將其完整存儲在我們創建的page_countries_area_population變數中。
然後,我們需要BeautifulSoup來解析頁面的HTML,以便它可以找到我們需要的資訊。為此,我們將創建一個名為 soup 的變數並呼叫 BeaultifulSoup 並將我們創建的變數的文字傳遞給它
pip install requests
這將返回頁面,並在我們創建的變數中連結到它的 parse 和 BeautifulSoup 方法,從而使我們的工作更輕鬆。
現在我們需要識別要從頁面中刪除的信息,為此,我們需要檢查網頁並識別 html 文件中的元素及其模式。在本例中,我們看到國家/地區名稱位於 h3 標籤內並具有國家/地區名稱類,因此讓我們使用它來獲取國家/地區名稱
pip install dotenv
這裡我們呼叫先前建立的 soup 並呼叫 findAll 函數,該函數將為我們取得所有國家/地區名稱實例。第一個參數是我們正在尋找的html 元素,第二個參數是它的屬性,因為它們可能有其他我們不希望它選擇的h3 標籤,在這種情況下,我們傳遞國家/地區名稱類別來標識元素我們想要。
我們對每個國家的居民數量和麵積重複這個過程
pip install mysql-connector-python
在將此資料傳遞到資料庫之前,我們將對其進行清理並保留其格式,以防止不需要的內容隨之進入。為此,我將建立一個元組列表來儲存數據,然後再將其傳遞到資料庫,因為這將使該過程更容易。然而,在新增它們之前,我們還需要刪除國家/地區名稱中的空格。
from bs4 import BeautifulSoup import requests import db_manager import os from dotenv import load_dotenv
這樣我們就已經有了我們需要的數據了!我們可以把第一個任務從我們的清單上劃掉了!
在本文的第二部分中,我將教您如何使用 Python 操作資料庫並完成我們的專案?
以上是如何建立資料分析初學者項目的詳細內容。更多資訊請關注PHP中文網其他相關文章!