首页  >  文章  >  后端开发  >  了解您的数据:探索性数据分析的要点

了解您的数据:探索性数据分析的要点

WBOY
WBOY原创
2024-08-10 07:03:02568浏览

探索性数据分析是一种流行的分析数据集并直观地呈现您的发现的方法。它有助于最大限度地洞察数据集和结构。这将探索性数据分析视为一种理解数据各个方面的技术。
为了更好地理解数据,必须确保数据干净,没有冗余,没有缺失值,甚至没有 NULL 值。

探索性数据分析的类型

主要分为三种:
单变量:这是您在任何单一时间查看一个变量(列)的地方。它有助于人们更多地了解变量的性质,被称为最简单的 EDA 类型。

双变量:这是一起查看两个变量的地方。它有助于人们理解变量 A 和 B 之间的关系,无论它们是独立的还是相关的。

多变量:这涉及一次查看三个或更多变量。它被识别为“高级”二元变量。

方法

图形:这涉及通过图形和图表等视觉表示来探索数据。常见的可视化包括箱线图、条形图、散点图和热图。

非图形:这是通过统计技术完成的。使用的指标包括平均值、中位数、众数、标准差和百分位数。

探索性数据分析工具

一些最常用的 EDA 工具包括
Python:一种面向对象的编程语言,用于连接现有组件并识别缺失值

R:一种用于统计计算的开源编程语言

步骤

  1. 了解数据 - 查看您正在使用的数据类型;列数、行数和数据类型。
  2. 清理数据 – 这涉及处理缺失值、缺失行和 NULL 值等不规则行为。
  3. 分析 – 分析变量之间的关系。

使用 Python 的 EDA 示例

本示例使用的数据集是 Iris 数据集 - 此处提供

  1. 使用 pandas 库加载数据。
df = pd.read_csv(io.BytesIO(uploaded['Iris.csv']))
df.head()

Understanding Your Data: The Essentials of Exploratory Data Analysis

  1. 识别数据类型 df.info()

Understanding Your Data: The Essentials of Exploratory Data Analysis

  1. 干净的数据,例如检查 NULL 值 df.isnull().sum()

Understanding Your Data: The Essentials of Exploratory Data Analysis

  1. 数据的非图形分析以提供变量信息 df.describe()

Understanding Your Data: The Essentials of Exploratory Data Analysis

  1. 图形分析显示变量相关性或独立性
df.plot(kind='scatter', x='SepalLengthCm', y='SepalWidthCm') ;
plt.show()

Understanding Your Data: The Essentials of Exploratory Data Analysis

以上是了解您的数据:探索性数据分析的要点的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn