Rumah > Artikel > pembangunan bahagian belakang > Contoh analisis komponen utama dalam Python
Contoh Analisis Komponen Utama dalam Python
Analisis Komponen Utama (PCA) ialah kaedah yang biasa digunakan untuk pengurangan dimensi data Ia boleh mengurangkan dimensi data berdimensi tinggi kepada berdimensi rendah sambil mengekalkan seberapa banyak data mungkin lebih banyak maklumat variasi data. Python menyediakan banyak perpustakaan dan alatan untuk melaksanakan PCA Artikel ini menggunakan contoh untuk memperkenalkan cara menggunakan perpustakaan sklearn dalam Python untuk melaksanakan PCA.
Pertama, kita perlu menyediakan set data. Artikel ini akan menggunakan set data Iris, yang mengandungi 150 data sampel Setiap sampel mempunyai 4 nilai ciri (panjang dan lebar kelopak, panjang dan lebar kelopak), dan label (jenis. bunga iris). Matlamat kami adalah untuk mengurangkan dimensi empat ciri ini dan mencari komponen utama yang paling penting.
Pertama, kita perlu mengimport pustaka dan set data yang diperlukan.
from sklearn.datasets import load_iris from sklearn.decomposition import PCA import matplotlib.pyplot as plt iris = load_iris() X = iris.data y = iris.target
Kini kita boleh mencipta objek PCA dan menerapkannya.
pca = PCA(n_components=2) X_pca = pca.fit_transform(X)
Objek PCA di sini menetapkan n_components=2, yang bermaksud bahawa kami hanya mahu memaparkan data kami yang diproses pada satah dua dimensi. Kami menggunakan fit_transform pada data asal X dan mendapatkan set data yang diproses X_pca.
Kini kita boleh merancang hasilnya.
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y) plt.xlabel('Component 1') plt.ylabel('Component 2') plt.show()
Dalam rajah ini, kita dapat melihat taburan set data Iris dalam ruang dua dimensi yang dikurangkan. Setiap titik mewakili sampel bunga iris, dan warna mewakili jenis bunga iris.
Sekarang mari kita lihat komponen utama yang sepatutnya.
print(pca.components_)
Ini akan mengeluarkan dua vektor, dipanggil "Komponen 1" dan "Komponen 2".
[[ 0.36158968 -0.08226889 0.85657211 0.35884393]
[-0.65653988 -0.72971237 0.1757674] Setiap satu
Kita juga boleh melihat jumlah varians dalam data yang dijelaskan oleh setiap komponen.
print(pca.explained_variance_ratio_)
Output ini akan menunjukkan perkadaran varians dalam data yang dijelaskan oleh setiap komponen.
[0.92461621 0.05301557]
Kita dapat lihat bahawa kedua-dua komponen ini menerangkan sejumlah 94% varians dalam data. Ini bermakna kita boleh menangkap ciri-ciri data dengan sangat tepat.
Satu perkara yang perlu diambil perhatian ialah PCA akan mengalih keluar semua ciri daripada data asal. Oleh itu, jika kita perlu mengekalkan ciri tertentu, kita perlu mengalih keluarnya secara manual sebelum menggunakan PCA.
Ini ialah contoh cara melaksanakan PCA menggunakan perpustakaan sklearn dalam Python. PCA boleh digunakan pada semua jenis data dan membantu kami menemui komponen paling penting daripada data berdimensi tinggi. Jika anda boleh memahami kod dalam artikel ini, anda juga akan dapat menggunakan PCA pada set data anda sendiri.
Atas ialah kandungan terperinci Contoh analisis komponen utama dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!