Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Kaedah analisis data panda berorientasikan contoh: pertempuran praktikal pemuatan data dan kejuruteraan ciri

Kaedah analisis data panda berorientasikan contoh: pertempuran praktikal pemuatan data dan kejuruteraan ciri

WBOY
WBOYasal
2024-01-13 10:26:05687semak imbas

Kaedah analisis data panda berorientasikan contoh: pertempuran praktikal pemuatan data dan kejuruteraan ciri

kaedah analisis data panda dalam amalan: daripada pemuatan data hingga kejuruteraan ciri, contoh kod khusus diperlukan

Pengenalan:
Pandas ialah perpustakaan analisis data yang digunakan secara meluas dalam Python, menyediakan pelbagai alatan pemprosesan dan analisis data. Artikel ini akan memperkenalkan kaedah khusus daripada pemuatan data kepada kejuruteraan ciri dan memberikan contoh kod yang berkaitan.

1. Pemuatan data
Pemuatan data ialah langkah pertama analisis data. Dalam Pandas, anda boleh menggunakan pelbagai kaedah untuk memuatkan data, termasuk membaca fail tempatan, membaca data rangkaian, membaca pangkalan data, dsb.

  1. Baca fail tempatan
    Gunakan fungsi read_csv() Pandas untuk membaca fail CSV tempatan dengan mudah. Berikut adalah contoh:
import pandas as pd

data = pd.read_csv("data.csv")
  1. Baca data rangkaian
    Panda juga menyediakan fungsi membaca data rangkaian. Anda boleh menggunakan fungsi read_csv() dan hantar alamat rangkaian sebagai parameter Contoh adalah seperti berikut:
import pandas as pd

url = "https://www.example.com/data.csv"
data = pd.read_csv(url)
  1. Membaca pangkalan data
    Jika data disimpan dalam pangkalan data, anda boleh menggunakan fungsi read_sql(). disediakan oleh Panda untuk membacanya. Mula-mula, anda perlu menggunakan perpustakaan SQLAlchemy Python untuk menyambung ke pangkalan data, dan kemudian gunakan fungsi read_sql() Pandas untuk membaca data. Berikut ialah contoh:
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('sqlite:///database.db')
data = pd.read_sql("SELECT * FROM table", engine)

2 Pratonton dan pemprosesan data
Selepas memuatkan data, anda boleh menggunakan kaedah yang disediakan oleh Pandas untuk pratonton dan proses awal data.

  1. Pratonton Data
    Anda boleh menggunakan kaedah kepala() dan ekor() untuk pratonton beberapa baris pertama dan terakhir data. Contohnya:
data.head()  # 预览前5行
data.tail(10)  # 预览后10行
  1. Pembersihan Data
    Pembersihan data adalah salah satu langkah penting dalam analisis data. Pandas menyediakan satu siri kaedah untuk menangani nilai yang hilang, nilai pendua dan outlier.
  • Mengendalikan nilai yang hilang
    Anda boleh menggunakan fungsi isnull() untuk menentukan sama ada data adalah nilai yang tiada, dan kemudian gunakan kaedah fillna() untuk mengisi nilai yang tiada. Berikut ialah contoh:
data.isnull()  # 判断缺失值
data.fillna(0)  # 填充缺失值为0
  • Mengendalikan nilai pendua
    Gunakan kaedah pendua() untuk menentukan sama ada data ialah nilai pendua, dan kemudian gunakan kaedah drop_duplicates() untuk mengalih keluar nilai pendua. Kod sampel adalah seperti berikut:
data.duplicated()  # 判断重复值
data.drop_duplicates()  # 去除重复值
  • Mengendalikan outlier
    Untuk outlier, anda boleh menggunakan pertimbangan bersyarat dan operasi indeks untuk memprosesnya. Berikut ialah contoh:
data[data['column'] > 100] = 100  # 将大于100的值设为100

3. Kejuruteraan Ciri
Kejuruteraan ciri ialah langkah utama dalam analisis data Dengan mengubah data mentah kepada ciri yang lebih sesuai untuk pemodelan, prestasi model boleh dipertingkatkan. Pandas menyediakan pelbagai kaedah untuk kejuruteraan ciri.

  1. Pemilihan ciri
    Anda boleh menggunakan operasi lajur Pandas dan pertimbangan bersyarat untuk memilih ciri tertentu. Berikut ialah contoh:
selected_features = data[['feature1', 'feature2']]
  1. Pengekodan Ciri
    Sebelum pemodelan, ciri perlu diubah menjadi bentuk yang boleh diproses oleh algoritma pembelajaran mesin. Pandas menyediakan kaedah get_dummies() untuk pengekodan satu panas. Berikut ialah contoh:
encoded_data = pd.get_dummies(data)
  1. Penskalaan Ciri
    Untuk ciri berangka, anda boleh menggunakan kaedah MinMaxScaler() atau StandardScaler() Pandas untuk penskalaan ciri. Kod sampel adalah seperti berikut:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(data)
  1. Pembinaan ciri
    Ciri baharu boleh dibina dengan melakukan operasi asas dan gabungan pada ciri asal. Kod sampel adalah seperti berikut:
data['new_feature'] = data['feature1'] + data['feature2']

Kesimpulan:
Artikel ini memperkenalkan kaedah daripada pemuatan data kepada kejuruteraan ciri dalam analisis data Pandas dan menunjukkan operasi berkaitan melalui contoh kod tertentu. Dengan pemprosesan data dan fungsi analisis Pandas yang berkuasa, kami boleh menjalankan analisis data dan perlombongan dengan lebih cekap. Dalam aplikasi praktikal, operasi dan kaedah yang berbeza boleh dipilih mengikut keperluan khusus untuk meningkatkan ketepatan dan kesan analisis data.

Atas ialah kandungan terperinci Kaedah analisis data panda berorientasikan contoh: pertempuran praktikal pemuatan data dan kejuruteraan ciri. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn