首頁 >科技週邊 >人工智慧 >輕薄:pandas替代數據摘要()

輕薄:pandas替代數據摘要()

William Shakespeare
William Shakespeare原創
2025-03-17 10:18:14155瀏覽

數據摘要是任何數據分析工作流程中必不可少的第一步。儘管Pandas的Drescrip()函數一直是許多人的首選工具,但其功能僅限於數字數據,僅提供基本統計信息。輸入Skimpy,這是一個python庫,旨在為所有列類型提供詳細,視覺吸引力和全面的數據摘要。

在本文中,我們將探討為什麼輕彈是Pandas描述的值得替代的()。您將學習如何安裝和使用輕薄的功能,探索其功能,並通過示例將其輸出與Decording()進行比較。到最後,您將完全了解微薄的增強探索性數據分析(EDA)。

學習成果

  • 了解熊貓的描述函數的局限性。
  • 了解如何在Python中安裝和實現輕薄的。
  • 通過示例探索輕薄的詳細輸出和見解。
  • 比較Skimpy和Pandas的輸出()。
  • 了解如何將輕薄的數據集成到您的數據分析工作流程中。

目錄

  • 為什麼熊貓描述()還不夠?
  • 輕薄開始
  • 為什麼輕彈更好?
  • 使用輕薄的數據摘要
  • 使用輕薄的優點
  • 結論
  • 常見問題

為什麼熊貓描述()還不夠?

PANDAS中的Drescrive()函數被廣泛用於快速總結數據。儘管它是探索性數據分析(EDA)的強大工具,但其效用在幾個方面受到限制。這是其缺點以及用戶經常尋求諸如Skimpy之類的替代方案的詳細細分:

默認關注數字數據

默認情況下,descript()僅在數字列上工作,除非另有明確配置。

例子:

導入大熊貓作為pd  

數據= {  
    “名稱”:[“愛麗絲”,“鮑勃”,“ Charlie”,“ David”],  
    “年齡”:[25,30,35,40],  
    “城市”:[“紐約”,“洛杉磯”,“芝加哥”,“休斯頓”],  
    “薪金”:[70000,80000,120000,90000],  
}  

df = pd.dataframe(數據)  
打印(df.describe())

輸出:

 年齡薪水  
計數4.000000 4.000000  
平均32.500000 90000.000000  
STD 6.454972 20000.000000  
最小25.000000 70000.000000  
25%28.750000 77500.000000  
50%32.500000 85000.000000  
75%36.250000 97500.000000  
最大40.000000 120000.000000

關鍵問題:

除非您明確調用描述(包括='all'),否則非數字列(名稱和城市)將被忽略。即使那樣,對於非數字列的輸出範圍仍然有限。

非數字數據的摘要有限

當使用非數字列使用include ='all'時,摘要是最小的。它僅顯示:

  • 計數:非錯失值的數量。
  • 唯一:唯一價值的計數。
  • 頂部:最常見的值。
  • FREQ:最高值的頻率。

例子:

打印(df.describe(include =“ all”))

輸出:

 名稱城市工資  
計數4 4.0 4 4.000000  
獨特的4 nan 4 nan  
頂級愛麗絲寧紐約南  
弗雷克1 nan 1 nan  
平均NAN 32.5 NAN 90000.000000  
STD NAN 6.5 NAN 20000.000000  
Min Nan 25.0 Nan 70000.000000  
25%NAN 28.8 NAN 77500.000000  
50%NAN 32.5 NAN 85000.000000  
75%NAN 36.2 NAN 97500.000000  
MAX NAN 40.0 NAN 120000.000000

關鍵問題:

  • 使用過於基本的指標(例如,TOP,FREQ)總結了字符串列(名稱和城市)。
  • 對字符串長度,模式或缺少數據比例沒有見解。

沒有有關丟失數據的信息

熊貓的描述()並未明確顯示每列缺少數據的百分比。識別丟失的數據需要單獨的命令:

打印(df.isnull()。sum())

缺乏高級指標

describ()提供的默認指標是基本的。對於數字數據,它顯示:

  • 計數,平均值和標準偏差。
  • 最小,最大和四分位數(25%,50%和75%)。

但是,它缺乏高級統計細節,例如:

  • 峰度和偏度:數據分佈的指標。
  • 異常檢測:沒有典型範圍以外的極值的指示。
  • 自定義聚合:應用用戶定義的功能的靈活性有限。

數據可視化不佳

Defict()輸出純文本摘要,雖然功能性,但在某些情況下並不具有視覺吸引力或易於解釋。可視化趨勢或分佈需要其他圖書館,例如matplotlib或seaborn。

示例:直方圖或箱形圖可以更好地表示分佈,但是Deforce()不提供此類視覺功能。

輕薄開始

Skimpy是一個python庫,旨在簡化和增強探索性數據分析(EDA)。它提供了數據的詳細和簡潔摘要,有效地處理數字和非數字列。與熊貓的描述()不同,輕薄的包括高級指標,缺少的數據見解以及更清潔,更直觀的輸出。這使其成為快速了解數據集,識別數據質量問題以及為更深入分析做準備的絕佳工具。

使用PIP安裝輕薄的:
在終端或命令提示符中運行以下命令:

 PIP安裝輕薄

驗證安裝:
安裝後,您可以通過將其導入Python腳本或Jupyter筆記本來驗證該輕薄安裝:

來自輕薄的進口略  
打印(“成功安裝了輕薄!”)

為什麼輕彈更好?

現在讓我們詳細探討為什麼使用輕薄的原因更好:

所有數據類型的統一摘要

輕薄的將所有數據類型都具有相同的重視對待,從而為單個統一表中的數字和非數字列提供了豐富的摘要。

例子:

來自輕薄的進口略  
導入大熊貓作為pd  

數據= {  
    “名稱”:[“愛麗絲”,“鮑勃”,“ Charlie”,“ David”],  
    “年齡”:[25,30,35,40],  
    “城市”:[“紐約”,“洛杉磯”,“芝加哥”,“休斯頓”],  
    “薪金”:[70000,80000,120000,90000],  
}  

df = pd.dataframe(數據)  
略(DF)

輸出:

輕薄生成了一個簡潔,結構良好的表,其中包含以下信息:

  • 數字數據:計數,平均值,中值,標準偏差,最小,最大和四分位數。
  • 非數字數據:唯一值,最頻繁的值(模式),缺失值和字符計數分佈。

輕薄:pandas替代數據摘要()

內置處理丟失的數據

輕薄的自動在其摘要中自動突出顯示丟失數據,顯示每列的缺失值的百分比和計數。這消除了對df.isnull()。sum()等其他命令的需求。

為什麼這很重要:

  • 幫助用戶預先確定數據質量問題。
  • 鼓勵快速決定歸因或刪除丟失的數據。

高級統計見解

輕薄的範圍超出了基本描述性統計數據,包括提供更深入見解的其他指標:

  • 峰度:表示分佈的“尾巴”。
  • 偏度:數據分佈中的不對稱性。
  • 離群標誌:突出顯示具有潛在異常值的列。

文本列的豐富摘要

對於諸如字符串之類的非數字數據,輕薄提供了Pandas描述()無法匹配的詳細摘要:

  • 字符串長度分佈:提供有關最小,最大和平均字符串長度的見解。
  • 模式和變化:標識文本數據中的常見模式。
  • 獨特的價值和模式:更清晰地描繪了文本多樣性。

文本列的示例輸出:

柱子 獨特的值 最常見的價值 模式計數 平均長度
姓名 4 愛麗絲 1 5.25
城市 4 紐約 1 7.50

緊湊和直觀的視覺效果

輕薄的使用顏色編碼和表格輸出易於解釋,尤其是對於大型數據集。這些視覺效果突出顯示:

  • 缺少值。
  • 分佈。
  • 摘要統計數據,全部一眼。

這種視覺吸引力使Skimpy的摘要準備就緒,這對於向利益相關者報告發現特別有用。

對分類變量的內置支持

微薄為Pandas的描述()沒有的分類數據提供了特定的指標,例如:

  • 類別的分佈。
  • 每個類別的頻率和比例。

這使得對涉及人口,地理或其他分類變量的數據集特別有價值。

使用輕薄的數據摘要

在下面,我們探索如何有效使用微薄的數據摘要。

步驟1:簡易導入並準備數據集

要使用輕薄的,您首先需要將其與數據集一起導入。輕薄與Pandas DataFrames無縫集成。

示例數據集:
讓我們使用一個包含數字,分類和文本數據的簡單數據集。

導入大熊貓作為pd
來自輕薄的進口略

#示例數據集
數據= {
    “名稱”:[“愛麗絲”,“鮑勃”,“ Charlie”,“ David”],
    “年齡”:[25,30,35,40],
    “城市”:[“紐約”,“洛杉磯”,“芝加哥”,“休斯頓”],
    “薪金”:[70000,80000,120000,90000],
    “評分”:[4.5,無,4.7,4.8],
}

df = pd.dataframe(數據)

步驟2:應用Skim()函數

小巧的核心功能是Skim()。當應用於數據框時,它提供了所有列的詳細摘要。

用法:

略(DF)

輕薄:pandas替代數據摘要()

步驟3:解釋簡易的摘要

讓我們分解一下輕薄的輸出的含義:

柱子 數據類型 丟失的 (%) 意思是 中位數 最小 最大限度 獨特的 最常見的價值 模式計數
姓名 文字 0.0% - - - - 4 愛麗絲 1
年齡 數字 0.0% 32.5 32.5 25 40 - - -
城市 文字 0.0% - - - - 4 紐約 1
薪水 數字 0.0% 90000 85000 70000 120000 - - -
等級 數字 25.0% 4.67 4.7 4.5 4.8 - - -
  • 缺失值: “評分”列有25%的缺失值,表明潛在的數據質量問題。
  • 數字列: “薪水”的平均值和中位數是接近的,表明大致對稱分佈,而“年齡”均勻分佈在其範圍內。
  • 文本列: “城市”列有4個獨特的值,“紐約”最常見。

步驟4:專注於關鍵見解

輕薄對識別特別有用:

  • 數據質量問題:
    • 諸如“評分”之類的列中的缺少值。
    • 通過Min,Max和四分位數等指標進行異常值。
  • 分類數據中的模式:
    • 諸如“城市”之類的專欄中最常見的類別。
  • 字符串長度見解:
    • 對於文本繁重的數據集,Skimpy提供了平均的字符串長度,有助於預處理任務,例如令牌化。

步驟5:自定義簡易輸出

輕薄允許一些靈活性根據您的需求調整其輸出:

  • 子集列:僅通過將特定列作為數據框的子集傳遞來分析特定列:
脫脂(DF [[“年齡”,“薪金”]])
  • 專注於丟失的數據:快速確定丟失的數據百分比:
 Skim(df).loc [:,[“列”,“丟失(%)”]]

使用輕薄的優點

  • 多合一摘要:輕薄將數字和非數字見解鞏固到單個表中。
  • 節省時間:無需編寫多行代碼以探索不同的數據類型。
  • 提高的可讀性:乾淨,視覺上吸引人的摘要使識別趨勢和異常值變得更加容易。
  • 大型數據集的有效效率:輕薄的,可以優化用於處理許多列的數據集,而不會壓倒用戶。

結論

小巧通過向所有類型的數據集提供詳細的,可讀的見解來簡化數據摘要。與熊貓的描述()不同,它不僅限於數字數據,並提供了更豐富的摘要體驗。無論您是清潔數據,探索趨勢還是準備報告,輕薄的功能都使其成為數據專業人員必不可少的工具。

關鍵要點

  • 輕薄的數字和非數字列無縫處理。
  • 它提供了其他見解,例如缺失值和獨特的計數。
  • 與熊貓描述()相比,輸出格式更直觀和視覺吸引力。

常見問題

Q1。什麼是輕薄的?

答:這是一個python庫,旨在全面的數據摘要,為熊貓描述以外的見解()提供了見解。

Q2。可以輕薄替換描述()嗎?

答:是的,它提供了增強的功能,並可以有效地替換描述()。

Q3。輕薄的支持大數據集嗎?

答:是的,它經過優化,可有效處理大型數據集。

Q4。如何安裝輕薄的?

答:使用PIP安裝:PIP安裝輕薄。

Q5。是什麼使輕薄的比描述更好()?

答:它總結了所有數據類型,包括缺少的價值見解,並以更易於用戶友好的格式提供輸出。

以上是輕薄:pandas替代數據摘要()的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn