探索性数据分析是一种流行的分析数据集并直观地呈现您的发现的方法。它有助于最大限度地洞察数据集和结构。这将探索性数据分析视为一种理解数据各个方面的技术。
为了更好地理解数据,必须确保数据干净,没有冗余,没有缺失值,甚至没有 NULL 值。
主要分为三种:
单变量:这是您在任何单一时间查看一个变量(列)的地方。它有助于人们更多地了解变量的性质,被称为最简单的 EDA 类型。
双变量:这是一起查看两个变量的地方。它有助于人们理解变量 A 和 B 之间的关系,无论它们是独立的还是相关的。
多变量:这涉及一次查看三个或更多变量。它被识别为“高级”二元变量。
图形:这涉及通过图形和图表等视觉表示来探索数据。常见的可视化包括箱线图、条形图、散点图和热图。
非图形:这是通过统计技术完成的。使用的指标包括平均值、中位数、众数、标准差和百分位数。
一些最常用的 EDA 工具包括
Python:一种面向对象的编程语言,用于连接现有组件并识别缺失值
R:一种用于统计计算的开源编程语言
本示例使用的数据集是 Iris 数据集 - 此处提供
df = pd.read_csv(io.BytesIO(uploaded['Iris.csv'])) df.head()
df.plot(kind='scatter', x='SepalLengthCm', y='SepalWidthCm') ; plt.show()
以上是了解您的数据:探索性数据分析的要点的详细内容。更多信息请关注PHP中文网其他相关文章!