Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Cara menggunakan panda untuk memproses set data yang besar

Cara menggunakan panda untuk memproses set data yang besar

WBOY
WBOYasal
2023-08-05 20:06:131268semak imbas

Cara menggunakan panda untuk memproses set data yang besar

Dengan kemunculan era data besar, saiz dan kerumitan set data juga semakin meningkat. Cara mengendalikan set data yang besar dengan cekap ialah isu penting untuk penganalisis data dan saintis data. Sebagai perpustakaan analisis data Python, panda menyediakan alatan pemprosesan data yang fleksibel dan cekap yang boleh membantu kami memproses set data yang besar dengan cepat. Artikel ini akan memperkenalkan cara menggunakan panda untuk memproses set data yang besar dan memberikan beberapa contoh kod.

  1. Pasang dan import perpustakaan panda

Pertama, kita perlu memasang perpustakaan panda. Anda boleh menggunakan arahan pip untuk memasang:

pip install pandas

Selepas pemasangan selesai, kita perlu mengimport perpustakaan panda dalam skrip Python:

import pandas as pd
  1. Memuatkan set data besar

Sebelum memproses set data yang besar, kita perlu memuatkan data ke dalam panda dalam struktur data. Pandas menyediakan pelbagai struktur data, yang paling biasa digunakan ialah DataFrame. DataFrame adalah serupa dengan jadual pangkalan data atau jadual data Excel, dan boleh menyusun data dalam baris dan lajur.

Berikut ialah contoh kod untuk memuatkan fail CSV:

df = pd.read_csv('data.csv')

Di sini kami menganggap set data kami ialah fail CSV bernama data.csv. Fail CSV boleh dimuatkan ke dalam DataFrame menggunakan fungsi read_csv().

  1. Lihat maklumat set data

Sebelum mula memproses data, kita boleh menyemak dahulu beberapa maklumat asas set data, seperti dimensi, nama lajur, jenis data, dsb. data. Anda boleh menggunakan kod berikut untuk melihat maklumat DataFrame:

# 查看数据维度
print(df.shape)

# 查看列名
print(df.columns)

# 查看数据类型
print(df.dtypes)

# 查看前几行数据
print(df.head())
  1. Pembersihan Data

Set data besar selalunya mengandungi nilai yang tiada, nilai pendua, outlier dan isu lain, dan kami perlu membersihkan dan memproses data terlebih dahulu. panda menyediakan satu siri fungsi dan kaedah untuk menangani masalah ini. . panda menyediakan pelbagai fungsi dan kaedah untuk menyokong analisis dan operasi data.

5.1 Penapisan data

# 检查每列的缺失值数量
print(df.isnull().sum())

# 删除包含缺失值的行
df = df.dropna()

# 填充缺失值
df = df.fillna(value=0)

5.2 Pengisihan data

# 检查是否有重复值
print(df.duplicated().sum())

# 删除重复值
df = df.drop_duplicates()

5.3 Pengagregatan data

# 检查是否有异常值
print(df.describe())

# 处理异常值
df = df[df['age'] > 0]
  1. Penggambaran data

Akhir sekali, kita boleh menggunakan panda dengan alat visualisasi data yang lain.

# 筛选出age大于30的数据
df_filtered = df[df['age'] > 30]

# 使用多个条件筛选数据
df_filtered = df[(df['age'] > 30) & (df['gender'] == '男')]

Di atas adalah pengenalan kepada cara menggunakan panda untuk memproses set data yang besar. Dengan menggunakan fungsi dan kaedah panda secara rasional, kami boleh memproses dan menganalisis set data yang besar dengan cekap. Sudah tentu, ini hanyalah penggunaan asas panda juga menyediakan fungsi pemprosesan dan analisis data yang lebih maju, yang boleh dipelajari dan digunakan mengikut keperluan tertentu.

Atas ialah kandungan terperinci Cara menggunakan panda untuk memproses set data yang besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn