Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Panduan permulaan cepat untuk membaca fail txt dengan panda

Panduan permulaan cepat untuk membaca fail txt dengan panda

WBOY
WBOYasal
2024-01-19 08:46:141327semak imbas

Panduan permulaan cepat untuk membaca fail txt dengan panda

Pandas ialah perpustakaan pemprosesan data yang boleh digunakan untuk membaca, memanipulasi dan menganalisis data. Dalam artikel ini, kami akan memperkenalkan cara membaca fail txt menggunakan Pandas. Artikel ini ditujukan untuk pemula yang ingin belajar Panda.

  1. Import perpustakaan Pandas

Mula-mula, import perpustakaan Pandas dalam Python.

import pandas as pd
  1. Baca fail txt

Sebelum membaca fail txt, kita perlu memahami beberapa parameter biasa fail txt:

  • pembatas: pembatas
  • pengepala: sama ada terdapat pengepala
  • nama: nama jadual anda boleh menentukan nama lajur secara manual
  • index_col: Tetapkan lajur tertentu sebagai lajur indeks, bukan ditetapkan secara lalai
  • skiprows: Langkau bilangan baris sebelumnya
  • sep: Tentukan pemisah
Contoh: Katakan kita mempunyai fail bernama "data.txt". Pertama, kita perlu membaca fail txt menggunakan fungsi read_table(). read_table() menyediakan cara yang sangat fleksibel untuk membaca data teks.

data = pd.read_table('data.txt', delimiter=',', header=0)

    Lihat data yang dibaca
Anda boleh menggunakan fungsi

untuk melihat beberapa baris pertama data yang dibaca. 5 baris pertama data dipaparkan secara lalai. .head()

print(data.head())

    Pembersihan Data
Selepas membaca data, kita perlu melakukan pembersihan dan transformasi yang diperlukan padanya. Ini biasanya termasuk mengalih keluar lajur yang tidak berguna, mengalih keluar nilai yang hilang, menamakan semula nama lajur, menukar jenis data, dsb. Berikut ialah beberapa kaedah pembersihan data biasa.

    Alih keluar lajur yang tidak berguna:
  • data = data.drop(columns=['ID'])
    Alih keluar nilai yang hilang:
  • data.dropna(inplace=True)
    Namakan semula nama lajur:
  • data = data.rename(columns={'OldName': 'NewName'})
  • data['ColumnName'] = data['ColumnName'].astype(str)
    data['ColumnName'] = data['ColumnName'].astype(int)
    Selepas pembersihan data, kita boleh mulakan analisis data. Pandas menyediakan kaedah yang kaya untuk memproses data.
  1. Sebagai contoh, untuk mengira jumlah lajur:
total = data['ColumnName'].sum()
print(total)

Dalam Panda, anda boleh mengumpulkan data anda menggunakan fungsi groupby(). Sebagai contoh, katakan kita ingin mengumpulkan data mengikut nama dan mengira purata selepas mengumpulkan:

grouped_data = data.groupby(['Name']).mean()
print(grouped_data.head())

Visualisasi Data

    Akhir sekali, melalui visualisasi data, kita dapat memahami arah aliran dan corak dalam data dengan lebih jelas.
  1. import matplotlib.pyplot as plt
    
    plt.bar(data['ColumnName'], data['Count'])
    plt.xlabel('ColumnName')
    plt.ylabel('Count')
    plt.title('ColumnName vs Count')
    plt.show()
  2. Ringkasnya, Pandas menyediakan cara yang mudah dan pantas untuk membaca, membersihkan dan menganalisis data. Melalui artikel ini, pembaca boleh mempelajari cara menggunakan Panda untuk membaca fail txt dan cara melakukan pembersihan data, analisis dan visualisasi.

Atas ialah kandungan terperinci Panduan permulaan cepat untuk membaca fail txt dengan panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn