Rumah > Artikel > pembangunan bahagian belakang > Memahami data anda: The Essentials of Exploratory Data Analysis (EDA).
Apabila data telah dikumpul dan disimpan, analisanya diperlukan untuk memperoleh pemahaman yang bermakna mengenainya. Atas sebab inilah analisis data penerokaan (EDA) dimainkan. Seperti namanya, kami 'meneroka' data iaitu mendapat gambaran umum mengenainya.
Data yang dikumpul mungkin sama ada dalam bentuk teks, video atau imej dan biasanya akan disimpan dalam cara yang tidak berstruktur. Jarang sekali anda akan menemui data yang 100% bersih iaitu tanpa sebarang anomali. Selain itu, data mungkin dalam pelbagai format seperti Excel, CSV (nilai dipisahkan koma), Json, Parket dll.
Dalam dunia data, EDA juga boleh dirujuk sebagai manipulasi data atau pembersihan data. Pengamal dalam industri menekankan kepentingan membersihkan data untuk membuang 'sampah' kerana ini boleh memberi kesan negatif kepada keputusan serta ramalan. Data berstruktur, biasanya dalam format jadual, boleh dianalisis menggunakan beberapa teknik dan alatan (seperti Excel, Power BI, SQL) tetapi kami akan menumpukan pada Python untuk ilustrasi ini.
EDA menggunakan Python
Bahasa pengaturcaraan Python ialah salah satu alatan yang paling meluas dalam EDA kerana serba boleh yang membolehkan penggunaannya merentas pelbagai industri, sama ada kewangan, pendidikan, penjagaan kesihatan, perlombongan, hospitaliti antara lain.
Pustaka terbina, iaitu Pandas dan NumPy sangat berkesan dalam hal ini dan berfungsi secara menyeluruh (sama ada menggunakan Buku Nota Anaconda/Jupyter, Google Collab atau IDE seperti Visual Studio)
Di bawah ialah langkah biasa dan baris kod yang boleh dilaksanakan semasa melakukan EDA:
Pertama, anda akan mengimport perpustakaan python yang diperlukan untuk manipulasi/analisis:
import panda sebagai pd
import numpy sebagai np
Kedua, muatkan set data
df = pd.read_excel('Laluan fail')
Nota: df ialah fungsi standard untuk menukar data jadual kepada Bingkai data.
Setelah dimuatkan, anda boleh pratonton data menggunakan kod:
df.head()
Ini akan menunjukkan 5 baris pertama set data
Sebagai alternatif, anda boleh menjalankan df yang akan menunjukkan beberapa baris terpilih (kedua-dua bahagian atas dan bawah) daripada keseluruhan set data serta semua lajur di dalamnya.
Ketiga, fahami semua jenis data menggunakan:
df.info()
Nota: Jenis data termasuk integer (nombor bulat), terapung (perpuluhan) atau objek (data kualitatif/perkataan deskriptif).
Pada langkah ini, anda dinasihatkan untuk mendapatkan statistik ringkasan data menggunakan:
df.describe()
Ini akan memberi anda statistik seperti Min, Mod, Sisihan Piawai, nilai Maksimum/Minimum dan Kuartil.
Keempat, kenal pasti sama ada nilai nol wujud dalam set data menggunakan:
df.isnull()
Ini kemudiannya boleh diikuti dengan menyemak pendua (entri berulang)
df.duplicated()
Aspek utama EDA yang lain ialah menyemak cara pelbagai pembolehubah dalam set data berkaitan antara satu sama lain (Korelasi) dan taburannya.
Korelasi boleh positif atau negatif dan berjulat dari -1 hingga 1. Kodnya ialah:
df.corr()
Nota: Angka korelasi yang hampir dengan 1 menunjukkan korelasi positif yang kuat, manakala angka yang hampir dengan -1 menunjukkan korelasi negatif yang kuat.
Pengedaran menyemak bagaimana data simetri atau tak simetri, serta kecondongan data dan ia boleh sama ada normal, binomial, Bernoulli atau Poisson.
Ringkasnya, analisis data penerokaan adalah proses penting dalam mendapatkan pemahaman yang lebih baik tentang data. Ia membolehkan visualisasi dan pembinaan model yang lebih baik.
Atas ialah kandungan terperinci Memahami data anda: The Essentials of Exploratory Data Analysis (EDA).. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!