搜尋
首頁科技週邊人工智慧輕薄:pandas替代數據摘要()

數據摘要是任何數據分析工作流程中必不可少的第一步。儘管Pandas的Drescrip()函數一直是許多人的首選工具,但其功能僅限於數字數據,僅提供基本統計信息。輸入Skimpy,這是一個python庫,旨在為所有列類型提供詳細,視覺吸引力和全面的數據摘要。

在本文中,我們將探討為什麼輕彈是Pandas描述的值得替代的()。您將學習如何安裝和使用輕薄的功能,探索其功能,並通過示例將其輸出與Decording()進行比較。到最後,您將完全了解微薄的增強探索性數據分析(EDA)。

學習成果

  • 了解熊貓的描述函數的局限性。
  • 了解如何在Python中安裝和實現輕薄的。
  • 通過示例探索輕薄的詳細輸出和見解。
  • 比較Skimpy和Pandas的輸出()。
  • 了解如何將輕薄的數據集成到您的數據分析工作流程中。

目錄

  • 為什麼熊貓描述()還不夠?
  • 輕薄開始
  • 為什麼輕彈更好?
  • 使用輕薄的數據摘要
  • 使用輕薄的優點
  • 結論
  • 常見問題

為什麼熊貓描述()還不夠?

PANDAS中的Drescrive()函數被廣泛用於快速總結數據。儘管它是探索性數據分析(EDA)的強大工具,但其效用在幾個方面受到限制。這是其缺點以及用戶經常尋求諸如Skimpy之類的替代方案的詳細細分:

默認關注數字數據

默認情況下,descript()僅在數字列上工作,除非另有明確配置。

例子:

導入大熊貓作為pd  

數據= {  
    “名稱”:[“愛麗絲”,“鮑勃”,“ Charlie”,“ David”],  
    “年齡”:[25,30,35,40],  
    “城市”:[“紐約”,“洛杉磯”,“芝加哥”,“休斯頓”],  
    “薪金”:[70000,80000,120000,90000],  
}  

df = pd.dataframe(數據)  
打印(df.describe())

輸出:

 年齡薪水  
計數4.000000 4.000000  
平均32.500000 90000.000000  
STD 6.454972 20000.000000  
最小25.000000 70000.000000  
25%28.750000 77500.000000  
50%32.500000 85000.000000  
75%36.250000 97500.000000  
最大40.000000 120000.000000

關鍵問題:

除非您明確調用描述(包括='all'),否則非數字列(名稱和城市)將被忽略。即使那樣,對於非數字列的輸出範圍仍然有限。

非數字數據的摘要有限

當使用非數字列使用include ='all'時,摘要是最小的。它僅顯示:

  • 計數:非錯失值的數量。
  • 唯一:唯一價值的計數。
  • 頂部:最常見的值。
  • FREQ:最高值的頻率。

例子:

打印(df.describe(include =“ all”))

輸出:

 名稱城市工資  
計數4 4.0 4 4.000000  
獨特的4 nan 4 nan  
頂級愛麗絲寧紐約南  
弗雷克1 nan 1 nan  
平均NAN 32.5 NAN 90000.000000  
STD NAN 6.5 NAN 20000.000000  
Min Nan 25.0 Nan 70000.000000  
25%NAN 28.8 NAN 77500.000000  
50%NAN 32.5 NAN 85000.000000  
75%NAN 36.2 NAN 97500.000000  
MAX NAN 40.0 NAN 120000.000000

關鍵問題:

  • 使用過於基本的指標(例如,TOP,FREQ)總結了字符串列(名稱和城市)。
  • 對字符串長度,模式或缺少數據比例沒有見解。

沒有有關丟失數據的信息

熊貓的描述()並未明確顯示每列缺少數據的百分比。識別丟失的數據需要單獨的命令:

打印(df.isnull()。sum())

缺乏高級指標

describ()提供的默認指標是基本的。對於數字數據,它顯示:

  • 計數,平均值和標準偏差。
  • 最小,最大和四分位數(25%,50%和75%)。

但是,它缺乏高級統計細節,例如:

  • 峰度和偏度:數據分佈的指標。
  • 異常檢測:沒有典型範圍以外的極值的指示。
  • 自定義聚合:應用用戶定義的功能的靈活性有限。

數據可視化不佳

Defict()輸出純文本摘要,雖然功能性,但在某些情況下並不具有視覺吸引力或易於解釋。可視化趨勢或分佈需要其他圖書館,例如matplotlib或seaborn。

示例:直方圖或箱形圖可以更好地表示分佈,但是Deforce()不提供此類視覺功能。

輕薄開始

Skimpy是一個python庫,旨在簡化和增強探索性數據分析(EDA)。它提供了數據的詳細和簡潔摘要,有效地處理數字和非數字列。與熊貓的描述()不同,輕薄的包括高級指標,缺少的數據見解以及更清潔,更直觀的輸出。這使其成為快速了解數據集,識別數據質量問題以及為更深入分析做準備的絕佳工具。

使用PIP安裝輕薄的:
在終端或命令提示符中運行以下命令:

 PIP安裝輕薄

驗證安裝:
安裝後,您可以通過將其導入Python腳本或Jupyter筆記本來驗證該輕薄安裝:

來自輕薄的進口略  
打印(“成功安裝了輕薄!”)

為什麼輕彈更好?

現在讓我們詳細探討為什麼使用輕薄的原因更好:

所有數據類型的統一摘要

輕薄的將所有數據類型都具有相同的重視對待,從而為單個統一表中的數字和非數字列提供了豐富的摘要。

例子:

來自輕薄的進口略  
導入大熊貓作為pd  

數據= {  
    “名稱”:[“愛麗絲”,“鮑勃”,“ Charlie”,“ David”],  
    “年齡”:[25,30,35,40],  
    “城市”:[“紐約”,“洛杉磯”,“芝加哥”,“休斯頓”],  
    “薪金”:[70000,80000,120000,90000],  
}  

df = pd.dataframe(數據)  
略(DF)

輸出:

輕薄生成了一個簡潔,結構良好的表,其中包含以下信息:

  • 數字數據:計數,平均值,中值,標準偏差,最小,最大和四分位數。
  • 非數字數據:唯一值,最頻繁的值(模式),缺失值和字符計數分佈。

輕薄:pandas替代數據摘要()

內置處理丟失的數據

輕薄的自動在其摘要中自動突出顯示丟失數據,顯示每列的缺失值的百分比和計數。這消除了對df.isnull()。sum()等其他命令的需求。

為什麼這很重要:

  • 幫助用戶預先確定數據質量問題。
  • 鼓勵快速決定歸因或刪除丟失的數據。

高級統計見解

輕薄的範圍超出了基本描述性統計數據,包括提供更深入見解的其他指標:

  • 峰度:表示分佈的“尾巴”。
  • 偏度:數據分佈中的不對稱性。
  • 離群標誌:突出顯示具有潛在異常值的列。

文本列的豐富摘要

對於諸如字符串之類的非數字數據,輕薄提供了Pandas描述()無法匹配的詳細摘要:

  • 字符串長度分佈:提供有關最小,最大和平均字符串長度的見解。
  • 模式和變化:標識文本數據中的常見模式。
  • 獨特的價值和模式:更清晰地描繪了文本多樣性。

文本列的示例輸出:

柱子 獨特的值 最常見的價值 模式計數 平均長度
姓名 4 愛麗絲 1 5.25
城市 4 紐約 1 7.50

緊湊和直觀的視覺效果

輕薄的使用顏色編碼和表格輸出易於解釋,尤其是對於大型數據集。這些視覺效果突出顯示:

  • 缺少值。
  • 分佈。
  • 摘要統計數據,全部一眼。

這種視覺吸引力使Skimpy的摘要準備就緒,這對於向利益相關者報告發現特別有用。

對分類變量的內置支持

微薄為Pandas的描述()沒有的分類數據提供了特定的指標,例如:

  • 類別的分佈。
  • 每個類別的頻率和比例。

這使得對涉及人口,地理或其他分類變量的數據集特別有價值。

使用輕薄的數據摘要

在下面,我們探索如何有效使用微薄的數據摘要。

步驟1:簡易導入並準備數據集

要使用輕薄的,您首先需要將其與數據集一起導入。輕薄與Pandas DataFrames無縫集成。

示例數據集:
讓我們使用一個包含數字,分類和文本數據的簡單數據集。

導入大熊貓作為pd
來自輕薄的進口略

#示例數據集
數據= {
    “名稱”:[“愛麗絲”,“鮑勃”,“ Charlie”,“ David”],
    “年齡”:[25,30,35,40],
    “城市”:[“紐約”,“洛杉磯”,“芝加哥”,“休斯頓”],
    “薪金”:[70000,80000,120000,90000],
    “評分”:[4.5,無,4.7,4.8],
}

df = pd.dataframe(數據)

步驟2:應用Skim()函數

小巧的核心功能是Skim()。當應用於數據框時,它提供了所有列的詳細摘要。

用法:

略(DF)

輕薄:pandas替代數據摘要()

步驟3:解釋簡易的摘要

讓我們分解一下輕薄的輸出的含義:

柱子 數據類型 丟失的 (%) 意思是 中位數 最小 最大限度 獨特的 最常見的價值 模式計數
姓名 文字 0.0% - - - - 4 愛麗絲 1
年齡 數字 0.0% 32.5 32.5 25 40 - - -
城市 文字 0.0% - - - - 4 紐約 1
薪水 數字 0.0% 90000 85000 70000 120000 - - -
等級 數字 25.0% 4.67 4.7 4.5 4.8 - - -
  • 缺失值: “評分”列有25%的缺失值,表明潛在的數據質量問題。
  • 數字列: “薪水”的平均值和中位數是接近的,表明大致對稱分佈,而“年齡”均勻分佈在其範圍內。
  • 文本列: “城市”列有4個獨特的值,“紐約”最常見。

步驟4:專注於關鍵見解

輕薄對識別特別有用:

  • 數據質量問題:
    • 諸如“評分”之類的列中的缺少值。
    • 通過Min,Max和四分位數等指標進行異常值。
  • 分類數據中的模式:
    • 諸如“城市”之類的專欄中最常見的類別。
  • 字符串長度見解:
    • 對於文本繁重的數據集,Skimpy提供了平均的字符串長度,有助於預處理任務,例如令牌化。

步驟5:自定義簡易輸出

輕薄允許一些靈活性根據您的需求調整其輸出:

  • 子集列:僅通過將特定列作為數據框的子集傳遞來分析特定列:
脫脂(DF [[“年齡”,“薪金”]])
  • 專注於丟失的數據:快速確定丟失的數據百分比:
 Skim(df).loc [:,[“列”,“丟失(%)”]]

使用輕薄的優點

  • 多合一摘要:輕薄將數字和非數字見解鞏固到單個表中。
  • 節省時間:無需編寫多行代碼以探索不同的數據類型。
  • 提高的可讀性:乾淨,視覺上吸引人的摘要使識別趨勢和異常值變得更加容易。
  • 大型數據集的有效效率:輕薄的,可以優化用於處理許多列的數據集,而不會壓倒用戶。

結論

小巧通過向所有類型的數據集提供詳細的,可讀的見解來簡化數據摘要。與熊貓的描述()不同,它不僅限於數字數據,並提供了更豐富的摘要體驗。無論您是清潔數據,探索趨勢還是準備報告,輕薄的功能都使其成為數據專業人員必不可少的工具。

關鍵要點

  • 輕薄的數字和非數字列無縫處理。
  • 它提供了其他見解,例如缺失值和獨特的計數。
  • 與熊貓描述()相比,輸出格式更直觀和視覺吸引力。

常見問題

Q1。什麼是輕薄的?

答:這是一個python庫,旨在全面的數據摘要,為熊貓描述以外的見解()提供了見解。

Q2。可以輕薄替換描述()嗎?

答:是的,它提供了增強的功能,並可以有效地替換描述()。

Q3。輕薄的支持大數據集嗎?

答:是的,它經過優化,可有效處理大型數據集。

Q4。如何安裝輕薄的?

答:使用PIP安裝:PIP安裝輕薄。

Q5。是什麼使輕薄的比描述更好()?

答:它總結了所有數據類型,包括缺少的價值見解,並以更易於用戶友好的格式提供輸出。

以上是輕薄:pandas替代數據摘要()的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
加利福尼亞攻擊AI到快速賽道野火恢復許可證加利福尼亞攻擊AI到快速賽道野火恢復許可證May 04, 2025 am 11:10 AM

AI簡化了野火恢復允許 澳大利亞科技公司Archistar的AI軟件,利用機器學習和計算機視覺,可以自動評估建築計劃以符合當地法規。這種驗證前具有重要意義

美國可以從愛沙尼亞AI驅動的數字政府中學到什麼美國可以從愛沙尼亞AI驅動的數字政府中學到什麼May 04, 2025 am 11:09 AM

愛沙尼亞的數字政府:美國的典範? 美國在官僚主義的效率低下方面掙扎,但愛沙尼亞提供了令人信服的選擇。 這個小國擁有由AI支持的近100%數字化的,以公民為中心的政府。 這不是

通過生成AI的婚禮計劃通過生成AI的婚禮計劃May 04, 2025 am 11:08 AM

計劃婚禮是一項艱鉅的任務,即使是最有條理的夫婦,也常常壓倒了婚禮。 本文是關於AI影響的持續福布斯系列的一部分(請參閱此處的鏈接),探討了生成AI如何徹底改變婚禮計劃。 婚禮上

什麼是數字防禦AI代理?什麼是數字防禦AI代理?May 04, 2025 am 11:07 AM

企業越來越多地利用AI代理商進行銷售,而政府則將其用於各種既定任務。 但是,消費者倡導強調個人需要擁有自己的AI代理人作為對經常定位的辯護的必要性

商業領袖生成引擎優化指南(GEO)商業領袖生成引擎優化指南(GEO)May 03, 2025 am 11:14 AM

Google正在領導這一轉變。它的“ AI概述”功能已經為10億用戶提供服務,在任何人單擊鏈接之前提供完整的答案。 [^2] 其他球員也正在迅速獲得地面。 Chatgpt,Microsoft Copilot和PE

該初創公司正在使用AI代理來與惡意廣告和模仿帳戶進行戰鬥該初創公司正在使用AI代理來與惡意廣告和模仿帳戶進行戰鬥May 03, 2025 am 11:13 AM

2022年,他創立了社會工程防禦初創公司Doppel,以此做到這一點。隨著網絡犯罪分子越來越高級的AI模型來渦輪增壓,Doppel的AI系統幫助企業對其進行了大規模的對抗 - 更快,更快,

世界模型如何從根本上重塑生成AI和LLM的未來世界模型如何從根本上重塑生成AI和LLM的未來May 03, 2025 am 11:12 AM

瞧,通過與合適的世界模型進行交互,可以實質上提高生成的AI和LLM。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括

2050年五月:我們要慶祝什麼?2050年五月:我們要慶祝什麼?May 03, 2025 am 11:11 AM

勞動節2050年。全國范圍內的公園充滿了享受傳統燒烤的家庭,而懷舊遊行則穿過城市街道。然而,慶祝活動現在具有像博物館般的品質 - 歷史重演而不是紀念C

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中