首页  >  文章  >  后端开发  >  了解您的数据:探索性数据分析 (EDA) 的要点。

了解您的数据:探索性数据分析 (EDA) 的要点。

WBOY
WBOY原创
2024-08-18 06:12:32744浏览

Understanding your data: The Essentials of Exploratory Data Analysis (EDA).

收集并存储数据后,需要对其进行分析以获得对其有意义的理解。正是由于这个原因,探索性数据分析(EDA)发挥了作用。顾名思义,我们正在“探索”数据,即获得数据的总体概述。

收集的数据可以是文本、视频或图像,通常以非结构化方式存储。您很少会找到 100% 干净的数据,即没有任何异常情况。此外,数据可能采用各种格式,例如 Excel、CSV(逗号分隔值)、Json、Parquet 等

在数据世界中,EDA 也可能被称为数据操作数据清理。行业从业者强调清理数据以删除“垃圾”的重要性,因为这可能会对结果和预测产生负面影响。结构化数据通常采用表格格式,可以使用多种技术和工具(如 Excel、Power BI、SQL)进行分析,但在本例中我们将重点关注 Python。

使用 Python 进行 EDA
Python 编程语言是 EDA 中最广泛的工具之一,因为它具有多功能性,可以跨多个行业使用,包括金融、教育、医疗保健、采矿、酒店等。
内置库,即 Pandas 和 NumPy 在这方面非常有效,并且可以跨领域工作(无论是使用 Anaconda/Jupyter Notebook、Google Collab 还是 Visual Studio 等 IDE)

以下是执行 EDA 时可执行的常见步骤和代码行:

首先,您将导入操作/分析所需的 python 库:

将 pandas 导入为 pd
将 numpy 导入为 np

其次,加载数据集
df = pd.read_excel('文件路径')

注意:df 是将表格数据转换为数据框的标准函数。

加载后,您可以使用以下代码预览数据:
df.head()

这将显示数据集的前 5 行
或者,您可以简单地运行 df ,它将显示整个数据集的选定几行(顶部和底部)以及其中的所有列。

第三,使用以下方式了解所有数据类型:
df.info()

注意:数据类型包括整数(整数)、浮点数(小数)或对象(定性数据/描述性文字)。

在此步骤中,建议使用以下方式获取数据的汇总统计信息:
df.describe()

这将为您提供平均值、众数、标准差、最大值/最小值和四分位数等统计数据

第四,使用以下方法识别数据集中是否存在空值:
df.isnull()

然后可以检查重复项(重复条目)
df.duplicated()

EDA 的其他关键方面是检查数据集中的各个变量如何相互关联(相关性)及其分布
相关性可以是正的,也可以是负的,范围是-1到1。其代码是:

df.corr()

注:相关性数值接近1表示强正相关,接近-1表示强负相关

分布检查对称不对称数据的情况,以及数据的偏度,它可以是正态、二项式、伯努利或泊松。

总之,探索性数据分析是更好地理解数据的重要过程。它可以实现更好的可视化和模型构建。

以上是了解您的数据:探索性数据分析 (EDA) 的要点。的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn