Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Cara menggunakan modul panda untuk analisis data dalam Python 3.x

Cara menggunakan modul panda untuk analisis data dalam Python 3.x

PHPz
PHPzasal
2023-07-30 18:27:401488semak imbas

Cara menggunakan modul panda untuk analisis data dalam Python 3.x

Pengenalan:
Dalam bidang analisis data, pembacaan data, pembersihan, pemprosesan dan analisis adalah tugas yang sangat diperlukan. Menggunakan panda, pustaka analisis data yang berkuasa, boleh memudahkan tugas-tugas ini. Artikel ini akan memperkenalkan cara menggunakan modul panda untuk operasi asas analisis data dalam Python 3.x, dan memberikan contoh kod yang berkaitan.

  1. Pasang modul panda
    Pertama, kita perlu memasang modul panda. Ia boleh dipasang di terminal melalui arahan berikut:

    pip install pandas

    Selepas pemasangan selesai, kita boleh memperkenalkan modul panda ke dalam kod Python.

  2. Import modul panda
    Dalam kod Python, gunakan kata kunci import untuk mengimport modul panda. Secara umumnya, kami menggunakan kaedah berikut untuk mengimport modul panda dan menyingkatkannya sebagai pd: import 关键字可以导入 pandas 模块。一般情况下,我们使用以下方式导入 pandas 模块并简写为 pd

    import pandas as pd
  3. 读取数据
    使用 pandas 模块,我们可以读取各种常见的数据文件,比如 CSV 文件、Excel 文件等。以读取 CSV 文件为例,我们可以使用 read_csv() 函数来读取。

    data = pd.read_csv('data.csv')

    这里假设当前目录下存在名为 data.csv 的 CSV 文件,通过以上代码,我们将数据读取到 data 变量中。

  4. 数据清洗与处理
    在进行数据分析之前,我们经常需要对数据进行清洗与处理。pandas 提供了丰富的功能来进行这些操作。

4.1. 查看数据
使用 head() 函数可以查看数据的前几行,默认显示前 5 行。

data.head()

4.2. 去除重复数据
使用 drop_duplicates() 函数可以去除数据中的重复行。

data = data.drop_duplicates()

4.3. 缺失值处理
使用 dropna() 函数可以删除包含缺失值的行。

data = data.dropna()
  1. 数据分析
    在数据清洗与处理完成后,我们可以开始进行数据分析工作了。pandas 提供了强大的数据操作和分析功能。

5.1. 基本统计信息
使用 describe() 函数可以给出数据集的基本统计信息,包括均值、方差、最小值、最大值等。

data.describe()

5.2. 数据排序
使用 sort_values() 函数可以对特定列的数据进行排序。

data = data.sort_values(by='column_name')

5.3. 数据筛选
使用条件语句可以对数据进行筛选操作。

filtered_data = data[data['column_name'] > 10]

5.4. 数据分组
使用 groupby()

grouped_data = data.groupby('column_name')

Baca data

Menggunakan modul panda, kita boleh membaca pelbagai fail data biasa, seperti fail CSV , fail Excel, dsb. Mengambil membaca fail CSV sebagai contoh, kita boleh menggunakan fungsi read_csv() untuk membaca.

import pandas as pd

# 读取数据
data = pd.read_csv('data.csv')

# 数据清洗与处理
data = data.drop_duplicates()
data = data.dropna()

# 查看数据
data.head()

# 基本统计信息
data.describe()

# 数据排序
data = data.sort_values(by='column_name')

# 数据筛选
filtered_data = data[data['column_name'] > 10]

# 数据分组
grouped_data = data.groupby('column_name')

Diandaikan di sini bahawa terdapat fail CSV bernama data.csv dalam direktori semasa Melalui kod di atas, kami membaca data ke dalam pembolehubah data.

Pembersihan dan pemprosesan data

Sebelum menjalankan analisis data, kita selalunya perlu membersihkan dan memproses data. panda menyediakan fungsi yang kaya untuk melaksanakan operasi ini. 🎜🎜4.1. Lihat data🎜Gunakan fungsi head() untuk melihat beberapa baris data pertama 5 baris pertama dipaparkan secara lalai. 🎜rrreee🎜4.2 Alih keluar data pendua🎜Gunakan fungsi drop_duplicates() untuk mengalih keluar baris pendua dalam data. 🎜rrreee🎜4.3. Pemprosesan nilai tiada🎜Gunakan fungsi dropna() untuk memadamkan baris yang mengandungi nilai yang tiada. 🎜rrreee
    🎜Analisis data🎜Selepas pembersihan dan pemprosesan data selesai, kita boleh memulakan kerja analisis data. panda menyediakan manipulasi data dan fungsi analisis yang berkuasa. 🎜
🎜5.1. Maklumat statistik asas🎜Gunakan fungsi describe() untuk memberikan maklumat statistik asas bagi set data, termasuk min, varians, nilai minimum, nilai maksimum, dsb. 🎜rrreee🎜5.2. Pengisihan data🎜Gunakan fungsi sort_values() untuk mengisih data lajur tertentu. 🎜rrreee🎜5.3 Penapisan data🎜Gunakan pernyataan bersyarat untuk menapis data. 🎜rrreee🎜5.4 Pengumpulan data🎜Gunakan fungsi groupby() untuk mengumpulkan data mengikut nilai lajur tertentu untuk mencapai analisis yang lebih terperinci. 🎜rrreee🎜Di atas hanyalah beberapa fungsi asas yang disediakan oleh panda. Terdapat banyak operasi pemprosesan dan analisis data lanjutan yang boleh diterokai dengan lebih lanjut. 🎜🎜Kesimpulan:🎜Artikel ini memperkenalkan cara menggunakan modul panda untuk analisis data dalam Python 3.x. Melalui langkah asas seperti memasang modul panda, mengimport modul, membaca fail data, pembersihan dan pemprosesan data, dan analisis data, kami boleh melaksanakan kerja analisis data dengan cepat dan berkesan. Dalam aplikasi praktikal, kita boleh menggunakan lebih banyak fungsi yang disediakan oleh modul panda untuk pemprosesan dan analisis data yang lebih mendalam mengikut keperluan kita sendiri. 🎜🎜Akhirnya, contoh kod lengkap operasi di atas dilampirkan:🎜rrreee🎜Saya harap artikel ini dapat membantu pemula untuk meneroka lebih lanjut fungsi modul panda dan meningkatkan kecekapan analisis data. 🎜

Atas ialah kandungan terperinci Cara menggunakan modul panda untuk analisis data dalam Python 3.x. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn