ホームページ  >  記事  >  バックエンド開発  >  Python でデータの視覚化と探索を行う方法

Python でデータの視覚化と探索を行う方法

WBOY
WBOYオリジナル
2023-10-21 08:58:461074ブラウズ

Python でデータの視覚化と探索を行う方法

Python でデータの視覚化と探索を実行する方法

データの視覚化と探索は、データ分析の重要な側面の 1 つです。Python では、さまざまな強力な機能の助けを借りて、ライブラリとツールを使用すると、データを簡単に視覚化して探索できます。この記事では、Python で一般的に使用されるデータ視覚化ライブラリとテクニックを紹介し、具体的なコード例を示します。

  1. はじめに
    データビジュアライゼーションとは、抽象的なデータを直感的かつ分かりやすく表示する手法です。視覚化により、データの分布、関係、特性をより深く理解できるようになります。 Matplotlib、Seaborn、Plotly など、Python でのデータ視覚化のためのライブラリやツールが多数あります。
  2. データの準備
    データの視覚化を実行する前に、まず分析するデータを準備する必要があります。この記事では、アヤメ データ セットを例に挙げます。アヤメ データ セットは、UCI 機械学習ライブラリの古典的なデータ セットです。これには、3 種類のアヤメの花 (セトーサ、バーシカラー、バージニカ) の 150 個のサンプルが含まれています。各サンプルには、4 つのアヤメの花が含まれています特徴(がく片の長さ、がく片の幅、花弁の長さ、花弁の幅)が含まれています。

まず、データ処理と分析のために pandas ライブラリをインストールする必要があります。次に、次のコードを使用して Iris データ セットを読み取り、簡単なデータ視覚化の準備をします。

import pandas as pd

Iris データ セットを読み取ります

iris_data = pd。 read_csv ('iris.csv')

データセットの最初の数行を表示

print(iris_data.head())

データの基本情報を表示set

print(iris_data.info())

  1. 単一変数データの視覚化
    単一変数データの視覚化とは、単一変数の分布を視覚化することを指します。一般的に使用される方法には、ヒストグラム、ヒストグラム、箱ひげ図などがあります。

がく片の長さ (がくの長さ) を例として、Matplotlib ライブラリを使用してヒストグラムを描画するコード例は次のとおりです。

import matplotlib.pyplot as plt

列を描画する Figure

plt.bar(iris_data['Species'], iris_data['Sepal length'])
plt.xlabel('Species') # X 軸を設定するlabel
plt.ylabel(' セパルの長さ') # y 軸のラベルを設定します
plt.title('セパルの長さの分布') # グラフのタイトルを設定します
plt.show()

さらに、Seaborn ライブラリを使用して、ヒストグラムの図や箱ひげ図を描画することもできます。以下は、ヒストグラムを描画するコード例です。

import seaborn as sns

ヒストグラムの描画

sns.histplot(data=iris_data, x='Sepal length' , kde =True)
plt.xlabel('Sepal length') # x 軸のラベルを設定します
plt.ylabel('Count') # y 軸のラベルを設定します
plt.title('セパルの長さの分布') #Set chart title
plt.show()

  1. 二重変数データの視覚化
    二重変数データの視覚化とは、2 つの変数間の関係を視覚化することを指します。一般的に使用される方法には、散布図やヒート マップなどがあります。

萼片の長さと花弁の長さを例として、Matplotlib ライブラリを使用して散布図を描画するコード例は次のとおりです。

散布図を描画する

plt.scatter( iris_data['がく片の長さ'], iris_data['花びらの長さ'])
plt.xlabel('がく片の長さ') # x 軸のラベルを設定します
plt.ylabel('花びらlength') # y 軸のラベルを設定します
plt.title('セパルの長さと花弁の長さの関係') # グラフのタイトルを設定します
plt.show()

さらに、 Seaborn ライブラリを使用してヒート マップを描画し、変数間の相関関係を示すこともできます。以下は、ヒート マップを描画するコード例です。

変数間の相関係数行列を計算します

correlation_matrix = iris_data[['がく片の長さ', 'がく片の幅', '花弁の長さ' , ' 花びらの幅']].corr()

ヒート マップを描画します

sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title( 'Correlation Matrix ')
plt.show()

  1. 多変数データの視覚化
    多変数データの視覚化とは、複数の変数間の関係を視覚化することを指します。一般的に使用される方法には、散布行列と平行座標プロットが含まれます。

アイリス データ セットの 4 つの特徴を例として、Seaborn ライブラリを使用して散布行列を描画するコード例は次のとおりです。

散布図を描画するmath

sns.pairplot(iris_data, hue='Species')
plt.show()

さらに、Plotly ライブラリを使用して平行座標プロットを描画することもできます。以下は、平行座標プロットを描画するためのコード例です。

import plotly.express as px

平行座標グラフを描画

fig = px.Parallel_coodys(iris_data, color=') Species')
fig.show()

まとめ
この記事では、Python でのデータの視覚化と探索の方法を紹介し、具体的なコード例を示します。データの視覚化と探索を通じて、データの分布、関係、特性をより深く理解できるようになり、その後のデータ分析とモデリングのための基盤と指針が提供されます。実際のアプリケーションでは、データの価値をさらに探求するために、特定のニーズとデータ特性に基づいて適切な視覚化方法とテクノロジーを選択することもできます。

以上がPython でデータの視覚化と探索を行う方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。