NumPy 代表數值 Python。 NumPy 最強大的功能是 n 維數組。該函式庫還包含基本的線性代數函數、傅立葉變換、高級隨機數功能以及用於與 Fortran、C 和 C 等其他低階語言整合的工具
SciPy 代表科學 Python。 SciPy 建構於 NumPy 之上。它是各種高級科學和工程模組(如離散傅立葉變換、線性代數、優化和稀疏矩陣)最有用的庫之一。
Matplotlib 用來繪製各種圖形,從直方圖到線圖再到熱圖。您可以使用 ipython 筆記本中的 Pylab 功能(ipython 筆記本 –pylab = 內嵌)來內嵌使用這些繪圖功能。如果忽略 inline 選項,那麼 pylab 會將 ipython 環境轉換為與 Matlab 非常相似的環境。您也可以使用 Latex 命令將數學新增到繪圖中。
用於結構化資料操作和操作的 Pandas。它廣泛用於數據處理和準備。 Pandas 是最近才添加到 Python 中的,對於提高 Python 在資料科學家社群中的使用發揮了重要作用。
用於機器學習的 Scikit Learn。該庫基於 NumPy、SciPy 和 matplotlib 構建,包含許多用於機器學習和統計建模的有效工具,包括分類、回歸、聚類和降維。
用於統計建模的Statsmodels。 Statsmodels 是一個 Python 模組,讓使用者可以探索資料、估計統計模型並執行統計測試。描述性統計、統計檢定、繪圖函數和結果統計的廣泛清單可用於不同類型的資料和每個估計器。
Seaborn 用於統計資料視覺化。 Seaborn 是一個用 Python 製作有吸引力且資訊豐富的統計圖形的函式庫。它基於 matplotlib。 Seaborn 旨在使視覺化成為探索和理解資料的核心部分。
Bokeh,用於在現代網頁瀏覽器上建立互動式繪圖、儀表板和資料應用程式。 它使用戶能夠產生 D3.js 風格的優雅簡潔的圖形。此外,它還具有對非常大的資料集或串流資料集進行高效能互動的能力。
Blaze 將 Numpy 和 Pandas 的功能擴展到分散式和流資料集。 它可用於存取來自多種來源的數據,包括 Bcolz、MongoDB、SQLAlchemy、Apache Spark、PyTables 等。與 Bokeh 一起,Blaze 可以充當非常強大的工具,用於在大量資料上建立有效的視覺化和儀表板。
Scrapy 用於網頁抓取。它是獲取特定資料模式的非常有用的框架。它能夠從網站主頁 URL 開始,然後挖掘網站內的網頁來收集資訊。
SymPy 用於符號計算。它具有從基本符號算術到微積分、代數、離散數學和量子物理學的廣泛功能。另一個有用的功能是將計算結果格式化為 LaTeX 程式碼的能力。
存取網路的請求。它的工作原理與標準 python 庫 urllib2 類似,但更容易編碼。你會發現與 urllib2 的細微差別,但對於初學者來說,Requests 可能更方便。
其他函式庫,您可能需要:
os 用於作業系統和檔案操作
networkx 和 igraph 用於基於圖形的資料操作
用於在文字資料中尋找模式的正規表示式
BeautifulSoup 用來抓取網頁。它不如 Scrapy,因為它只能在運行中從單一網頁中提取資訊。
資料科學資源:https://t.me/DataScienceResourcesTP
以上是適用於數據科學的有用 PYTHON 庫的詳細內容。更多資訊請關注PHP中文網其他相關文章!