Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana untuk melakukan visualisasi dan penerokaan data dalam Python

Bagaimana untuk melakukan visualisasi dan penerokaan data dalam Python

WBOY
WBOYasal
2023-10-21 08:58:461087semak imbas

Bagaimana untuk melakukan visualisasi dan penerokaan data dalam Python

Cara melakukan visualisasi dan penerokaan data dalam Python

Visualisasi dan penerokaan data ialah salah satu aspek penting dalam analisis data Dengan bantuan pelbagai perpustakaan dan alatan yang berkuasa dalam Python, kami boleh melakukan visualisasi dan penerokaan data dengan mudah. Artikel ini akan memperkenalkan perpustakaan dan teknik visualisasi data yang biasa digunakan dalam Python, dan memberikan contoh kod khusus.

  1. Pengenalan
    Visualisasi data ialah kaedah memaparkan data abstrak dengan cara yang intuitif dan mudah difahami. Melalui visualisasi, kita boleh lebih memahami taburan, perhubungan dan ciri-ciri data. Terdapat banyak perpustakaan dan alat untuk visualisasi data dalam Python, seperti Matplotlib, Seaborn, Plotly, dll.
  2. Penyediaan data
    Sebelum melakukan visualisasi data, anda perlu terlebih dahulu menyediakan data untuk dianalisis. Artikel ini mengambil set data Iris sebagai contoh Set data Iris ialah set data klasik dalam perpustakaan pembelajaran mesin UCI Ia mengandungi 150 sampel tiga jenis bunga iris (Setosa, Versicolor, dan Virginica). ciri-ciri (Panjang Sepal, Lebar Sepal, Panjang Petal, Lebar Petal) disertakan.

Pertama, anda perlu memasang perpustakaan panda untuk pemprosesan dan analisis data. Kemudian, gunakan kod berikut untuk membaca set data Iris dan bersedia untuk visualisasi data mudah:

import panda sebagai pd

Baca set data Iris

iris_data = pd.read_csv('iris.csv')

Lihat set data Beberapa baris pertama

print(iris_data.head())

Lihat maklumat asas set data

print(iris_data.info())

  1. Penggambaran data univariate
    Penggambaran data univariate merujuk kepada pengedaran daripada Visualisasi pembolehubah tunggal. Kaedah yang biasa digunakan termasuk histogram, histogram dan plot kotak.

Mengambil panjang Sepal sebagai contoh, contoh kod untuk menggunakan perpustakaan Matplotlib untuk melukis histogram adalah seperti berikut:

import matplotlib.pyplot sebagai plt

Lukis histogram

plt.bar(iris_data' ], iris_data['Sepal length'])
plt.xlabel('Spesies') # Tetapkan label paksi-x
plt.ylabel('Sepal length') # Tetapkan label paksi-y
plt.title('Distribution panjang Sepal') # Tetapkan tajuk carta
plt.show()

Selain itu, anda juga boleh menggunakan perpustakaan Seaborn untuk melukis histogram dan plot kotak. Berikut ialah contoh kod untuk melukis histogram:

import seaborn sebagai sns

Plot histogram

sns.histplot(data=iris_data, x='Sepal length', kde=True)
plt.xlabel('Sepal length' ) # Tetapkan label paksi-x
plt.ylabel('Count') # Tetapkan label paksi-y
plt.title('Taburan panjang Sepal') # Tetapkan tajuk carta
plt.show()

  1. Penggambaran data pembolehubah dwi
    Penggambaran data bivariat merujuk kepada menggambarkan hubungan antara dua pembolehubah. Kaedah yang biasa digunakan termasuk plot serakan dan peta haba.

Mengambil panjang Sepal dan panjang Petal sebagai contoh, contoh kod untuk menggunakan perpustakaan Matplotlib untuk melukis plot serakan adalah seperti berikut:

Lukis plot serakan

plt.scatter(iris_data['Sepal length'], iris_data['Petal length' ])
plt.xlabel('Sepal length') # Tetapkan label paksi-x
plt.ylabel('Petal length') # Tetapkan label paksi-y
plt.title('Hubungan antara Panjang sepal dan panjang Petal') # Tetapkan Tajuk carta
plt.show()

Selain itu, anda juga boleh menggunakan perpustakaan Seaborn untuk melukis peta haba untuk menunjukkan korelasi antara pembolehubah. Berikut ialah contoh kod untuk melukis peta haba:

Kira matriks pekali korelasi antara pembolehubah

matriks_korelasi = iris_data[['Sepal length', 'Sepal width', 'Petal length', 'Petal width']]. corr( )

Lukis peta haba

sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()

  1. multivariable visualvariable
  2. Visualisasi data merujuk kepada menggambarkan hubungan antara pelbagai pembolehubah. Kaedah yang biasa digunakan termasuk matriks serakan dan plot koordinat selari.

Mengambil empat ciri set data Iris sebagai contoh, contoh kod penggunaan perpustakaan Seaborn untuk melukis matriks serakan adalah seperti berikut:

Lukis matriks serakan


sns.pairplot(iris_data, hue ='Species')

plt.show ()

Selain itu, anda juga boleh menggunakan pustaka Plotly untuk melukis plot koordinat selari Berikut ialah contoh kod untuk melukis plot koordinat selari:

import plotly.express sebagai px

.

Lukis plot koordinat selari


rajah = px.parallel_coordinates(iris_data, color='Species')

rajah.show()


Ringkasan

Artikel ini memperkenalkan kaedah visualisasi data dan penerokaan dalam Python dan memberikan contoh kod khusus. Melalui visualisasi dan penerokaan data, kami dapat memahami dengan lebih baik pengedaran, perhubungan dan ciri data, dengan itu menyediakan asas dan panduan untuk analisis dan pemodelan data seterusnya. Dalam aplikasi praktikal, kaedah dan teknologi visualisasi yang sesuai juga boleh dipilih berdasarkan keperluan khusus dan ciri data untuk meneroka lebih lanjut nilai data. 🎜

Atas ialah kandungan terperinci Bagaimana untuk melakukan visualisasi dan penerokaan data dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn