數據摘要是任何數據分析工作流程中必不可少的第一步。儘管Pandas的Drescrip()函數一直是許多人的首選工具,但其功能僅限於數字數據,僅提供基本統計信息。輸入Skimpy,這是一個python庫,旨在為所有列類型提供詳細,視覺吸引力和全面的數據摘要。
在本文中,我們將探討為什麼輕彈是Pandas描述的值得替代的()。您將學習如何安裝和使用輕薄的功能,探索其功能,並通過示例將其輸出與Decording()進行比較。到最後,您將完全了解微薄的增強探索性數據分析(EDA)。
PANDAS中的Drescrive()函數被廣泛用於快速總結數據。儘管它是探索性數據分析(EDA)的強大工具,但其效用在幾個方面受到限制。這是其缺點以及用戶經常尋求諸如Skimpy之類的替代方案的詳細細分:
默認情況下,descript()僅在數字列上工作,除非另有明確配置。
例子:
導入大熊貓作為pd 數據= { “名稱”:[“愛麗絲”,“鮑勃”,“ Charlie”,“ David”], “年齡”:[25,30,35,40], “城市”:[“紐約”,“洛杉磯”,“芝加哥”,“休斯頓”], “薪金”:[70000,80000,120000,90000], } df = pd.dataframe(數據) 打印(df.describe())
輸出:
年齡薪水 計數4.000000 4.000000 平均32.500000 90000.000000 STD 6.454972 20000.000000 最小25.000000 70000.000000 25%28.750000 77500.000000 50%32.500000 85000.000000 75%36.250000 97500.000000 最大40.000000 120000.000000
關鍵問題:
除非您明確調用描述(包括='all'),否則非數字列(名稱和城市)將被忽略。即使那樣,對於非數字列的輸出範圍仍然有限。
當使用非數字列使用include ='all'時,摘要是最小的。它僅顯示:
例子:
打印(df.describe(include =“ all”))
輸出:
名稱城市工資 計數4 4.0 4 4.000000 獨特的4 nan 4 nan 頂級愛麗絲寧紐約南 弗雷克1 nan 1 nan 平均NAN 32.5 NAN 90000.000000 STD NAN 6.5 NAN 20000.000000 Min Nan 25.0 Nan 70000.000000 25%NAN 28.8 NAN 77500.000000 50%NAN 32.5 NAN 85000.000000 75%NAN 36.2 NAN 97500.000000 MAX NAN 40.0 NAN 120000.000000
關鍵問題:
熊貓的描述()並未明確顯示每列缺少數據的百分比。識別丟失的數據需要單獨的命令:
打印(df.isnull()。sum())
describ()提供的默認指標是基本的。對於數字數據,它顯示:
但是,它缺乏高級統計細節,例如:
Defict()輸出純文本摘要,雖然功能性,但在某些情況下並不具有視覺吸引力或易於解釋。可視化趨勢或分佈需要其他圖書館,例如matplotlib或seaborn。
示例:直方圖或箱形圖可以更好地表示分佈,但是Deforce()不提供此類視覺功能。
Skimpy是一個python庫,旨在簡化和增強探索性數據分析(EDA)。它提供了數據的詳細和簡潔摘要,有效地處理數字和非數字列。與熊貓的描述()不同,輕薄的包括高級指標,缺少的數據見解以及更清潔,更直觀的輸出。這使其成為快速了解數據集,識別數據質量問題以及為更深入分析做準備的絕佳工具。
使用PIP安裝輕薄的:
在終端或命令提示符中運行以下命令:
PIP安裝輕薄
驗證安裝:
安裝後,您可以通過將其導入Python腳本或Jupyter筆記本來驗證該輕薄安裝:
來自輕薄的進口略 打印(“成功安裝了輕薄!”)
現在讓我們詳細探討為什麼使用輕薄的原因更好:
輕薄的將所有數據類型都具有相同的重視對待,從而為單個統一表中的數字和非數字列提供了豐富的摘要。
例子:
來自輕薄的進口略 導入大熊貓作為pd 數據= { “名稱”:[“愛麗絲”,“鮑勃”,“ Charlie”,“ David”], “年齡”:[25,30,35,40], “城市”:[“紐約”,“洛杉磯”,“芝加哥”,“休斯頓”], “薪金”:[70000,80000,120000,90000], } df = pd.dataframe(數據) 略(DF)
輸出:
輕薄生成了一個簡潔,結構良好的表,其中包含以下信息:
輕薄的自動在其摘要中自動突出顯示丟失數據,顯示每列的缺失值的百分比和計數。這消除了對df.isnull()。sum()等其他命令的需求。
為什麼這很重要:
輕薄的範圍超出了基本描述性統計數據,包括提供更深入見解的其他指標:
對於諸如字符串之類的非數字數據,輕薄提供了Pandas描述()無法匹配的詳細摘要:
文本列的示例輸出:
柱子 | 獨特的值 | 最常見的價值 | 模式計數 | 平均長度 |
---|---|---|---|---|
姓名 | 4 | 愛麗絲 | 1 | 5.25 |
城市 | 4 | 紐約 | 1 | 7.50 |
輕薄的使用顏色編碼和表格輸出易於解釋,尤其是對於大型數據集。這些視覺效果突出顯示:
這種視覺吸引力使Skimpy的摘要準備就緒,這對於向利益相關者報告發現特別有用。
微薄為Pandas的描述()沒有的分類數據提供了特定的指標,例如:
這使得對涉及人口,地理或其他分類變量的數據集特別有價值。
在下面,我們探索如何有效使用微薄的數據摘要。
要使用輕薄的,您首先需要將其與數據集一起導入。輕薄與Pandas DataFrames無縫集成。
示例數據集:
讓我們使用一個包含數字,分類和文本數據的簡單數據集。
導入大熊貓作為pd 來自輕薄的進口略 #示例數據集 數據= { “名稱”:[“愛麗絲”,“鮑勃”,“ Charlie”,“ David”], “年齡”:[25,30,35,40], “城市”:[“紐約”,“洛杉磯”,“芝加哥”,“休斯頓”], “薪金”:[70000,80000,120000,90000], “評分”:[4.5,無,4.7,4.8], } df = pd.dataframe(數據)
小巧的核心功能是Skim()。當應用於數據框時,它提供了所有列的詳細摘要。
用法:
略(DF)
讓我們分解一下輕薄的輸出的含義:
柱子 | 數據類型 | 丟失的 (%) | 意思是 | 中位數 | 最小 | 最大限度 | 獨特的 | 最常見的價值 | 模式計數 |
---|---|---|---|---|---|---|---|---|---|
姓名 | 文字 | 0.0% | - | - | - | - | 4 | 愛麗絲 | 1 |
年齡 | 數字 | 0.0% | 32.5 | 32.5 | 25 | 40 | - | - | - |
城市 | 文字 | 0.0% | - | - | - | - | 4 | 紐約 | 1 |
薪水 | 數字 | 0.0% | 90000 | 85000 | 70000 | 120000 | - | - | - |
等級 | 數字 | 25.0% | 4.67 | 4.7 | 4.5 | 4.8 | - | - | - |
輕薄對識別特別有用:
輕薄允許一些靈活性根據您的需求調整其輸出:
脫脂(DF [[“年齡”,“薪金”]])
Skim(df).loc [:,[“列”,“丟失(%)”]]
小巧通過向所有類型的數據集提供詳細的,可讀的見解來簡化數據摘要。與熊貓的描述()不同,它不僅限於數字數據,並提供了更豐富的摘要體驗。無論您是清潔數據,探索趨勢還是準備報告,輕薄的功能都使其成為數據專業人員必不可少的工具。
答:這是一個python庫,旨在全面的數據摘要,為熊貓描述以外的見解()提供了見解。
Q2。可以輕薄替換描述()嗎?答:是的,它提供了增強的功能,並可以有效地替換描述()。
Q3。輕薄的支持大數據集嗎?答:是的,它經過優化,可有效處理大型數據集。
Q4。如何安裝輕薄的?答:使用PIP安裝:PIP安裝輕薄。
Q5。是什麼使輕薄的比描述更好()?答:它總結了所有數據類型,包括缺少的價值見解,並以更易於用戶友好的格式提供輸出。
以上是輕薄:pandas替代數據摘要()的詳細內容。更多資訊請關注PHP中文網其他相關文章!