首页 >科技周边 >人工智能 >轻薄:pandas替代数据摘要()

轻薄:pandas替代数据摘要()

William Shakespeare
William Shakespeare原创
2025-03-17 10:18:14146浏览

数据摘要是任何数据分析工作流程中必不可少的第一步。尽管Pandas的Drescrip()函数一直是许多人的首选工具,但其功能仅限于数字数据,仅提供基本统计信息。输入Skimpy,这是一个python库,旨在为所有列类型提供详细,视觉吸引力和全面的数据摘要。

在本文中,我们将探讨为什么轻弹是Pandas描述的值得替代的()。您将学习如何安装和使用轻薄的功能,探索其功能,并通过示例将其输出与Decording()进行比较。到最后,您将完全了解微薄的增强探索性数据分析(EDA)。

学习成果

  • 了解熊猫的描述函数的局限性。
  • 了解如何在Python中安装和实现轻薄的。
  • 通过示例探索轻薄的详细输出和见解。
  • 比较Skimpy和Pandas的输出()。
  • 了解如何将轻薄的数据集成到您的数据分析工作流程中。

目录

  • 为什么熊猫描述()还不够?
  • 轻薄开始
  • 为什么轻弹更好?
  • 使用轻薄的数据摘要
  • 使用轻薄的优点
  • 结论
  • 常见问题

为什么熊猫描述()还不够?

PANDAS中的Drescrive()函数被广泛用于快速总结数据。尽管它是探索性数据分析(EDA)的强大工具,但其效用在几个方面受到限制。这是其缺点以及用户经常寻求诸如Skimpy之类的替代方案的详细细分:

默认关注数字数据

默认情况下,descript()仅在数字列上工作,除非另有明确配置。

例子:

导入大熊猫作为pd  

数据= {  
    “名称”:[“爱丽丝”,“鲍勃”,“ Charlie”,“ David”],  
    “年龄”:[25,30,35,40],  
    “城市”:[“纽约”,“洛杉矶”,“芝加哥”,“休斯顿”],  
    “薪金”:[70000,80000,120000,90000],  
}  

df = pd.dataframe(数据)  
打印(df.describe())

输出:

 年龄薪水  
计数4.000000 4.000000  
平均32.500000 90000.000000  
STD 6.454972 20000.000000  
最小25.000000 70000.000000  
25%28.750000 77500.000000  
50%32.500000 85000.000000  
75%36.250000 97500.000000  
最大40.000000 120000.000000

关键问题:

除非您明确调用描述(包括='all'),否则非数字列(名称和城市)将被忽略。即使那样,对于非数字列的输出范围仍然有限。

非数字数据的摘要有限

当使用非数字列使用include ='all'时,摘要是最小的。它仅显示:

  • 计数:非错失值的数量。
  • 唯一:唯一价值的计数。
  • 顶部:最常见的值。
  • FREQ:最高值的频率。

例子:

打印(df.describe(include =“ all”))

输出:

 名称城市工资  
计数4 4.0 4 4.000000  
独特的4 nan 4 nan  
顶级爱丽丝宁纽约南  
弗雷克1 nan 1 nan  
平均NAN 32.5 NAN 90000.000000  
STD NAN 6.5 NAN 20000.000000  
Min Nan 25.0 Nan 70000.000000  
25%NAN 28.8 NAN 77500.000000  
50%NAN 32.5 NAN 85000.000000  
75%NAN 36.2 NAN 97500.000000  
MAX NAN 40.0 NAN 120000.000000

关键问题:

  • 使用过于基本的指标(例如,TOP,FREQ)总结了字符串列(名称和城市)。
  • 对字符串长度,模式或缺少数据比例没有见解。

没有有关丢失数据的信息

熊猫的描述()并未明确显示每列缺少数据的百分比。识别丢失的数据需要单独的命令:

打印(df.isnull()。sum())

缺乏高级指标

describ()提供的默认指标是基本的。对于数字数据,它显示:

  • 计数,平均值和标准偏差。
  • 最小,最大和四分位数(25%,50%和75%)。

但是,它缺乏高级统计细节,例如:

  • 峰度和偏度:数据分布的指标。
  • 异常检测:没有典型范围以外的极值的指示。
  • 自定义聚合:应用用户定义的功能的灵活性有限。

数据可视化不佳

Defict()输出纯文本摘要,虽然功能性,但在某些情况下并不具有视觉吸引力或易于解释。可视化趋势或分布需要其他图书馆,例如matplotlib或seaborn。

示例:直方图或箱形图可以更好地表示分布,但是Deforce()不提供此类视觉功能。

轻薄开始

Skimpy是一个python库,旨在简化和增强探索性数据分析(EDA)。它提供了数据的详细和简洁摘要,有效地处理数字和非数字列。与熊猫的描述()不同,轻薄的包括高级指标,缺少的数据见解以及更清洁,更直观的输出。这使其成为快速了解数据集,识别数据质量问题以及为更深入分析做准备的绝佳工具。

使用PIP安装轻薄的:
在终端或命令提示符中运行以下命令:

 PIP安装轻薄

验证安装:
安装后,您可以通过将其导入Python脚本或Jupyter笔记本来验证该轻薄安装:

来自轻薄的进口略  
打印(“成功安装了轻薄!”)

为什么轻弹更好?

现在让我们详细探讨为什么使用轻薄的原因更好:

所有数据类型的统一摘要

轻薄的将所有数据类型都具有相同的重视对待,从而为单个统一表中的数字和非数字列提供了丰富的摘要。

例子:

来自轻薄的进口略  
导入大熊猫作为pd  

数据= {  
    “名称”:[“爱丽丝”,“鲍勃”,“ Charlie”,“ David”],  
    “年龄”:[25,30,35,40],  
    “城市”:[“纽约”,“洛杉矶”,“芝加哥”,“休斯顿”],  
    “薪金”:[70000,80000,120000,90000],  
}  

df = pd.dataframe(数据)  
略(DF)

输出:

轻薄生成了一个简洁,结构良好的表,其中包含以下信息:

  • 数字数据:计数,平均值,中值,标准偏差,最小,最大和四分位数。
  • 非数字数据:唯一值,最频繁的值(模式),缺失值和字符计数分布。

轻薄:pandas替代数据摘要()

内置处理丢失的数据

轻薄的自动在其摘要中自动突出显示丢失数据,显示每列的缺失值的百分比和计数。这消除了对df.isnull()。sum()等其他命令的需求。

为什么这很重要:

  • 帮助用户预先确定数据质量问题。
  • 鼓励快速决定归因或删除丢失的数据。

高级统计见解

轻薄的范围超出了基本描述性统计数据,包括提供更深入见解的其他指标:

  • 峰度:表示分布的“尾巴”。
  • 偏度:数据分布中的不对称性。
  • 离群标志:突出显示具有潜在异常值的列。

文本列的丰富摘要

对于诸如字符串之类的非数字数据,轻薄提供了Pandas描述()无法匹配的详细摘要:

  • 字符串长度分布:提供有关最小,最大和平均字符串长度的见解。
  • 模式和变化:标识文本数据中的常见模式。
  • 独特的价值和模式:更清晰地描绘了文本多样性。

文本列的示例输出:

柱子 独特的值 最常见的价值 模式计数 平均长度
姓名 4 爱丽丝 1 5.25
城市 4 纽约 1 7.50

紧凑和直观的视觉效果

轻薄的使用颜色编码和表格输出易于解释,尤其是对于大型数据集。这些视觉效果突出显示:

  • 缺少值。
  • 分布。
  • 摘要统计数据,全部一眼。

这种视觉吸引力使Skimpy的摘要准备就绪,这对于向利益相关者报告发现特别有用。

对分类变量的内置支持

微薄为Pandas的描述()没有的分类数据提供了特定的指标,例如:

  • 类别的分布。
  • 每个类别的频率和比例。

这使得对涉及人口,地理或其他分类变量的数据集特别有价值。

使用轻薄的数据摘要

在下面,我们探索如何有效使用微薄的数据摘要。

步骤1:简易导入并准备数据集

要使用轻薄的,您首先需要将其与数据集一起导入。轻薄与Pandas DataFrames无缝集成。

示例数据集:
让我们使用一个包含数字,分类和文本数据的简单数据集。

导入大熊猫作为pd
来自轻薄的进口略

#示例数据集
数据= {
    “名称”:[“爱丽丝”,“鲍勃”,“ Charlie”,“ David”],
    “年龄”:[25,30,35,40],
    “城市”:[“纽约”,“洛杉矶”,“芝加哥”,“休斯顿”],
    “薪金”:[70000,80000,120000,90000],
    “评分”:[4.5,无,4.7,4.8],
}

df = pd.dataframe(数据)

步骤2:应用Skim()函数

小巧的核心功能是Skim()。当应用于数据框时,它提供了所有列的详细摘要。

用法:

略(DF)

轻薄:pandas替代数据摘要()

步骤3:解释简易的摘要

让我们分解一下轻薄的输出的含义:

柱子 数据类型 丢失的 (%) 意思是 中位数 最小 最大限度 独特的 最常见的价值 模式计数
姓名 文本 0.0% - - - - 4 爱丽丝 1
年龄 数字 0.0% 32.5 32.5 25 40 - - -
城市 文本 0.0% - - - - 4 纽约 1
薪水 数字 0.0% 90000 85000 70000 120000 - - -
等级 数字 25.0% 4.67 4.7 4.5 4.8 - - -
  • 缺失值: “评分”列有25%的缺失值,表明潜在的数据质量问题。
  • 数字列: “薪水”的平均值和中位数是接近的,表明大致对称分布,而“年龄”均匀分布在其范围内。
  • 文本列: “城市”列有4个独特的值,“纽约”最常见。

步骤4:专注于关键见解

轻薄对识别特别有用:

  • 数据质量问题:
    • 诸如“评分”之类的列中的缺少值。
    • 通过Min,Max和四分位数等指标进行异常值。
  • 分类数据中的模式:
    • 诸如“城市”之类的专栏中最常见的类别。
  • 字符串长度见解:
    • 对于文本繁重的数据集,Skimpy提供了平均的字符串长度,有助于预处理任务,例如令牌化。

步骤5:自定义简易输出

轻薄允许一些灵活性根据您的需求调整其输出:

  • 子集列:仅通过将特定列作为数据框的子集传递来分析特定列:
脱脂(DF [[“年龄”,“薪金”]])
  • 专注于丢失的数据:快速确定丢失的数据百分比:
 Skim(df).loc [:,[“列”,“丢失(%)”]]

使用轻薄的优点

  • 多合一摘要:轻薄将数字和非数字见解巩固到单个表中。
  • 节省时间:无需编写多行代码以探索不同的数据类型。
  • 提高的可读性:干净,视觉上吸引人的摘要使识别趋势和异常值变得更加容易。
  • 大型数据集的有效效率:轻薄的,可以优化用于处理许多列的数据集,而不会压倒用户。

结论

小巧通过向所有类型的数据集提供详细的,可读的见解来简化数据摘要。与熊猫的描述()不同,它不仅限于数字数据,并提供了更丰富的摘要体验。无论您是清洁数据,探索趋势还是准备报告,轻薄的功能都使其成为数据专业人员必不可少的工具。

关键要点

  • 轻薄的数字和非数字列无缝处理。
  • 它提供了其他见解,例如缺失值和独特的计数。
  • 与熊猫描述()相比,输出格式更直观和视觉吸引力。

常见问题

Q1。什么是轻薄的?

答:这是一个python库,旨在全面的数据摘要,为熊猫描述以外的见解()提供了见解。

Q2。可以轻薄替换描述()吗?

答:是的,它提供了增强的功能,并可以有效地替换描述()。

Q3。轻薄的支持大数据集吗?

答:是的,它经过优化,可有效处理大型数据集。

Q4。如何安装轻薄的?

答:使用PIP安装:PIP安装轻薄。

Q5。是什么使轻薄的比描述更好()?

答:它总结了所有数据类型,包括缺少的价值见解,并以更易于用户友好的格式提供输出。

以上是轻薄:pandas替代数据摘要()的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn