数据摘要是任何数据分析工作流程中必不可少的第一步。尽管Pandas的Drescrip()函数一直是许多人的首选工具,但其功能仅限于数字数据,仅提供基本统计信息。输入Skimpy,这是一个python库,旨在为所有列类型提供详细,视觉吸引力和全面的数据摘要。
在本文中,我们将探讨为什么轻弹是Pandas描述的值得替代的()。您将学习如何安装和使用轻薄的功能,探索其功能,并通过示例将其输出与Decording()进行比较。到最后,您将完全了解微薄的增强探索性数据分析(EDA)。
PANDAS中的Drescrive()函数被广泛用于快速总结数据。尽管它是探索性数据分析(EDA)的强大工具,但其效用在几个方面受到限制。这是其缺点以及用户经常寻求诸如Skimpy之类的替代方案的详细细分:
默认情况下,descript()仅在数字列上工作,除非另有明确配置。
例子:
导入大熊猫作为pd 数据= { “名称”:[“爱丽丝”,“鲍勃”,“ Charlie”,“ David”], “年龄”:[25,30,35,40], “城市”:[“纽约”,“洛杉矶”,“芝加哥”,“休斯顿”], “薪金”:[70000,80000,120000,90000], } df = pd.dataframe(数据) 打印(df.describe())
输出:
年龄薪水 计数4.000000 4.000000 平均32.500000 90000.000000 STD 6.454972 20000.000000 最小25.000000 70000.000000 25%28.750000 77500.000000 50%32.500000 85000.000000 75%36.250000 97500.000000 最大40.000000 120000.000000
关键问题:
除非您明确调用描述(包括='all'),否则非数字列(名称和城市)将被忽略。即使那样,对于非数字列的输出范围仍然有限。
当使用非数字列使用include ='all'时,摘要是最小的。它仅显示:
例子:
打印(df.describe(include =“ all”))
输出:
名称城市工资 计数4 4.0 4 4.000000 独特的4 nan 4 nan 顶级爱丽丝宁纽约南 弗雷克1 nan 1 nan 平均NAN 32.5 NAN 90000.000000 STD NAN 6.5 NAN 20000.000000 Min Nan 25.0 Nan 70000.000000 25%NAN 28.8 NAN 77500.000000 50%NAN 32.5 NAN 85000.000000 75%NAN 36.2 NAN 97500.000000 MAX NAN 40.0 NAN 120000.000000
关键问题:
熊猫的描述()并未明确显示每列缺少数据的百分比。识别丢失的数据需要单独的命令:
打印(df.isnull()。sum())
describ()提供的默认指标是基本的。对于数字数据,它显示:
但是,它缺乏高级统计细节,例如:
Defict()输出纯文本摘要,虽然功能性,但在某些情况下并不具有视觉吸引力或易于解释。可视化趋势或分布需要其他图书馆,例如matplotlib或seaborn。
示例:直方图或箱形图可以更好地表示分布,但是Deforce()不提供此类视觉功能。
Skimpy是一个python库,旨在简化和增强探索性数据分析(EDA)。它提供了数据的详细和简洁摘要,有效地处理数字和非数字列。与熊猫的描述()不同,轻薄的包括高级指标,缺少的数据见解以及更清洁,更直观的输出。这使其成为快速了解数据集,识别数据质量问题以及为更深入分析做准备的绝佳工具。
使用PIP安装轻薄的:
在终端或命令提示符中运行以下命令:
PIP安装轻薄
验证安装:
安装后,您可以通过将其导入Python脚本或Jupyter笔记本来验证该轻薄安装:
来自轻薄的进口略 打印(“成功安装了轻薄!”)
现在让我们详细探讨为什么使用轻薄的原因更好:
轻薄的将所有数据类型都具有相同的重视对待,从而为单个统一表中的数字和非数字列提供了丰富的摘要。
例子:
来自轻薄的进口略 导入大熊猫作为pd 数据= { “名称”:[“爱丽丝”,“鲍勃”,“ Charlie”,“ David”], “年龄”:[25,30,35,40], “城市”:[“纽约”,“洛杉矶”,“芝加哥”,“休斯顿”], “薪金”:[70000,80000,120000,90000], } df = pd.dataframe(数据) 略(DF)
输出:
轻薄生成了一个简洁,结构良好的表,其中包含以下信息:
轻薄的自动在其摘要中自动突出显示丢失数据,显示每列的缺失值的百分比和计数。这消除了对df.isnull()。sum()等其他命令的需求。
为什么这很重要:
轻薄的范围超出了基本描述性统计数据,包括提供更深入见解的其他指标:
对于诸如字符串之类的非数字数据,轻薄提供了Pandas描述()无法匹配的详细摘要:
文本列的示例输出:
柱子 | 独特的值 | 最常见的价值 | 模式计数 | 平均长度 |
---|---|---|---|---|
姓名 | 4 | 爱丽丝 | 1 | 5.25 |
城市 | 4 | 纽约 | 1 | 7.50 |
轻薄的使用颜色编码和表格输出易于解释,尤其是对于大型数据集。这些视觉效果突出显示:
这种视觉吸引力使Skimpy的摘要准备就绪,这对于向利益相关者报告发现特别有用。
微薄为Pandas的描述()没有的分类数据提供了特定的指标,例如:
这使得对涉及人口,地理或其他分类变量的数据集特别有价值。
在下面,我们探索如何有效使用微薄的数据摘要。
要使用轻薄的,您首先需要将其与数据集一起导入。轻薄与Pandas DataFrames无缝集成。
示例数据集:
让我们使用一个包含数字,分类和文本数据的简单数据集。
导入大熊猫作为pd 来自轻薄的进口略 #示例数据集 数据= { “名称”:[“爱丽丝”,“鲍勃”,“ Charlie”,“ David”], “年龄”:[25,30,35,40], “城市”:[“纽约”,“洛杉矶”,“芝加哥”,“休斯顿”], “薪金”:[70000,80000,120000,90000], “评分”:[4.5,无,4.7,4.8], } df = pd.dataframe(数据)
小巧的核心功能是Skim()。当应用于数据框时,它提供了所有列的详细摘要。
用法:
略(DF)
让我们分解一下轻薄的输出的含义:
柱子 | 数据类型 | 丢失的 (%) | 意思是 | 中位数 | 最小 | 最大限度 | 独特的 | 最常见的价值 | 模式计数 |
---|---|---|---|---|---|---|---|---|---|
姓名 | 文本 | 0.0% | - | - | - | - | 4 | 爱丽丝 | 1 |
年龄 | 数字 | 0.0% | 32.5 | 32.5 | 25 | 40 | - | - | - |
城市 | 文本 | 0.0% | - | - | - | - | 4 | 纽约 | 1 |
薪水 | 数字 | 0.0% | 90000 | 85000 | 70000 | 120000 | - | - | - |
等级 | 数字 | 25.0% | 4.67 | 4.7 | 4.5 | 4.8 | - | - | - |
轻薄对识别特别有用:
轻薄允许一些灵活性根据您的需求调整其输出:
脱脂(DF [[“年龄”,“薪金”]])
Skim(df).loc [:,[“列”,“丢失(%)”]]
小巧通过向所有类型的数据集提供详细的,可读的见解来简化数据摘要。与熊猫的描述()不同,它不仅限于数字数据,并提供了更丰富的摘要体验。无论您是清洁数据,探索趋势还是准备报告,轻薄的功能都使其成为数据专业人员必不可少的工具。
答:这是一个python库,旨在全面的数据摘要,为熊猫描述以外的见解()提供了见解。
Q2。可以轻薄替换描述()吗?答:是的,它提供了增强的功能,并可以有效地替换描述()。
Q3。轻薄的支持大数据集吗?答:是的,它经过优化,可有效处理大型数据集。
Q4。如何安装轻薄的?答:使用PIP安装:PIP安装轻薄。
Q5。是什么使轻薄的比描述更好()?答:它总结了所有数据类型,包括缺少的价值见解,并以更易于用户友好的格式提供输出。
以上是轻薄:pandas替代数据摘要()的详细内容。更多信息请关注PHP中文网其他相关文章!