收集并存储数据后,需要对其进行分析以获得对其有意义的理解。正是由于这个原因,探索性数据分析(EDA)发挥了作用。顾名思义,我们正在“探索”数据,即获得数据的总体概述。
收集的数据可以是文本、视频或图像,通常以非结构化方式存储。您很少会找到 100% 干净的数据,即没有任何异常情况。此外,数据可能采用各种格式,例如 Excel、CSV(逗号分隔值)、Json、Parquet 等
在数据世界中,EDA 也可能被称为数据操作 或数据清理。行业从业者强调清理数据以删除“垃圾”的重要性,因为这可能会对结果和预测产生负面影响。结构化数据通常采用表格格式,可以使用多种技术和工具(如 Excel、Power BI、SQL)进行分析,但在本例中我们将重点关注 Python。
使用 Python 进行 EDA
Python 编程语言是 EDA 中最广泛的工具之一,因为它具有多功能性,可以跨多个行业使用,包括金融、教育、医疗保健、采矿、酒店等。
内置库,即 Pandas 和 NumPy 在这方面非常有效,并且可以跨领域工作(无论是使用 Anaconda/Jupyter Notebook、Google Collab 还是 Visual Studio 等 IDE)
以下是执行 EDA 时可执行的常见步骤和代码行:
首先,您将导入操作/分析所需的 python 库:
将 pandas 导入为 pd
将 numpy 导入为 np
其次,加载数据集
df = pd.read_excel('文件路径')
注意:df 是将表格数据转换为数据框的标准函数。
加载后,您可以使用以下代码预览数据:
df.head()
这将显示数据集的前 5 行
或者,您可以简单地运行 df ,它将显示整个数据集的选定几行(顶部和底部)以及其中的所有列。
第三,使用以下方式了解所有数据类型:
df.info()
注意:数据类型包括整数(整数)、浮点数(小数)或对象(定性数据/描述性文字)。
在此步骤中,建议使用以下方式获取数据的汇总统计信息:
df.describe()
这将为您提供平均值、众数、标准差、最大值/最小值和四分位数等统计数据。
第四,使用以下方法识别数据集中是否存在空值:
df.isnull()
然后可以检查重复项(重复条目)
df.duplicated()
EDA 的其他关键方面是检查数据集中的各个变量如何相互关联(相关性)及其分布。
相关性可以是正的,也可以是负的,范围是-1到1。其代码是:
df.corr()
注:相关性数值接近1表示强正相关,接近-1表示强负相关。
分布检查对称或不对称数据的情况,以及数据的偏度,它可以是正态、二项式、伯努利或泊松。
总之,探索性数据分析是更好地理解数据的重要过程。它可以实现更好的可视化和模型构建。
以上是了解您的数据:探索性数据分析 (EDA) 的要点。的详细内容。更多信息请关注PHP中文网其他相关文章!