Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Cara menggunakan Panda untuk analisis data dalam Python

Cara menggunakan Panda untuk analisis data dalam Python

WBOY
WBOYke hadapan
2023-05-16 18:29:26921semak imbas

Pertama, pastikan anda memasang pustaka Pandas. Jika tidak, sila gunakan arahan berikut untuk memasangnya:

pip install pandas

1. Import pustaka Pandas

import pandas as pd

2. Baca data

Menggunakan Panda, anda boleh membaca dengan mudah pelbagai Format data, termasuk CSV, Excel, JSON dan HTML, dsb. Berikut ialah contoh membaca fail CSV:

data = pd.read_csv('data.csv')

Kaedah membaca format data lain adalah serupa, seperti membaca fail Excel:

data = pd.read_excel('data.xlsx')

3. Lihat data

boleh digunakan fungsi head() untuk melihat beberapa baris pertama data (lalai ialah 5 baris):

print(data.head())

Anda juga boleh menggunakan fungsi tail() untuk melihat beberapa baris terakhir data, dan fungsi info() dan describe() untuk melihat data Maklumat statistik:

rreee

4. Pilih data

Terdapat banyak cara untuk memilih data Berikut adalah beberapa kaedah biasa:

  • Pilih lajur: data['column_name']

  • Pilih berbilang lajur: data[['column1', 'column2']]

  • Pilih baris : data.loc[row_index]

  • Pilih nilai: data.loc[row_index, 'column_name']

  • Pilih mengikut syarat: data[data['column_name'] > value]

5. Pembersihan Data

Sebelum analisis data, data biasanya perlu dibersihkan. Berikut ialah beberapa kaedah pembersihan data yang biasa digunakan:

  • Alih keluar nilai nol: data.dropna()

  • Ganti nilai nol: data.fillna(value)

  • Namakan semula nama lajur: data.rename(columns={'old_name': 'new_name'})

  • Penukaran jenis data: data['column_name'].astype(new_type)

  • Alih keluar pendua Nilai: data.drop_duplicates()

6. Analisis data

Panda menyediakan fungsi analisis data yang kaya Berikut adalah beberapa kaedah biasa:

  • Kira min: data['column_name'].mean()

  • Hitung median: data['column_name'].median()

  • Kira mod: data['column_name'].mode()

  • Kira sisihan piawai: data['column_name'].std()

  • Kira korelasi: data.corr()

  • Pengumpulan data: data.groupby('column_name')

7. Visualisasi data

Panda boleh mengubah data menjadi carta visual dengan mudah. Mula-mula, anda perlu memasang pustaka Matplotlib:

print(data.tail())
print(data.info())
print(data.describe())

Kemudian, gunakan kod berikut untuk mencipta carta:

pip install matplotlib

Jenis carta visualisasi lain termasuk carta garis, carta pai, histogram, dsb. :

import matplotlib.pyplot as plt

data['column_name'].plot(kind='bar')
plt.show()

8 Eksport data

Panda boleh mengeksport data ke pelbagai format, seperti CSV, Excel, JSON, HTML, dll. Berikut ialah contoh mengeksport data ke fail CSV:

data['column_name'].plot(kind='line')
data['column_name'].plot(kind='pie')
data['column_name'].plot(kind='hist')
plt.show()

Kaedah eksport untuk format data lain adalah serupa, seperti mengeksport ke fail Excel:

data.to_csv('output.csv', index=False)

9 🎜>

Kami Andaikan anda sudah mempunyai data jualan (data_jualan.csv), matlamat seterusnya adalah untuk menganalisis data. Pertama, kita perlu membaca data:

data.to_excel('output.xlsx', index=False)

Kemudian, kita boleh membersihkan dan menganalisis data. Sebagai contoh, kita boleh mengira jualan setiap produk:

import pandas as pd

data = pd.read_csv('sales_data.csv')

Seterusnya, kita boleh menganalisis produk mana yang mempunyai jualan tertinggi:

data['sales_amount'] = data['quantity'] * data['price']

Akhir sekali, kita boleh mengeksport hasil sebagai fail CSV:

rreeee

Atas ialah kandungan terperinci Cara menggunakan Panda untuk analisis data dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:yisu.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam