Rumah >pembangunan bahagian belakang >Tutorial Python >Asas Visualisasi Data

Asas Visualisasi Data

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBasal: 2024-09-07 14:32:321899semak imbas

Mengapa menggunakan data vis

Apabila anda perlu bekerja dengan sumber data baharu, dengan jumlah data yang besar, anda boleh menggunakan visualisasi data untuk memahami data dengan lebih baik.
Proses analisis data selalunya dilakukan dalam 5 langkah:

Ekstrak - Dapatkan data daripada hamparan, SQL, web, dll.
Bersih - Di sini kita boleh menggunakan visual penerokaan. 
Teroka - Di sini kami menggunakan visual penerokaan. 
Analisis - Di sini kita mungkin menggunakan sama ada visual penerokaan atau penerangan. 
Kongsi - Di sinilah tempat visual penerangan hidup.

Jenis data

Untuk dapat memilih plot yang sesuai untuk ukuran tertentu, adalah penting untuk mengetahui data yang anda hadapi.

Kualitatif aka jenis kategori

Data kualitatif nominal

Label tanpa susunan atau pangkat yang dikaitkan dengan item itu sendiri.
Contoh: Jantina, status perkahwinan, item menu

Data kualitatif ordinal

Label yang mempunyai susunan atau kedudukan.
Contoh: gred surat, rating

Kuantitatif aka jenis angka

Nilai kuantitatif diskret

Nombor tidak boleh dibahagikan kepada unit yang lebih kecil
Contoh: Halaman dalam Buku, bilangan pokok di taman

Nilai kuantitatif berterusan

Nombor boleh dibahagikan kepada unit yang lebih kecil
Contoh: Ketinggian, Umur, Pendapatan, Waktu Kerja

Statistik Ringkasan

Data berangka

Min: Nilai purata.
Median: Nilai tengah apabila data diisih.
Mod: Nilai yang paling kerap berlaku.
Varians/Sisihan Piawai: Ukuran sebaran atau serakan.
Julat: Perbezaan antara nilai maksimum dan minimum.

Data Kategori

Kekerapan: Kiraan kejadian bagi setiap kategori.
Mod: Kategori paling kerap.

Visualisasi

Anda boleh mendapatkan cerapan tentang sumber data baharu dengan cepat dan juga melihat sambungan antara jenis data yang berbeza dengan lebih mudah.
Kerana apabila anda hanya menggunakan statistik standard untuk meringkaskan data anda, anda akan mendapat min, maks, min, median dan mod, tetapi ini mungkin mengelirukan dalam aspek lain. Seperti yang ditunjukkan dalam Kuartet Anscombe: min dan sisihan sentiasa sama, tetapi taburan data sentiasa berbeza.

Dalam visualisasi data, kami mempunyai dua jenis:

Penggambaran data penerokaan Kami menggunakan ini untuk mendapatkan cerapan tentang data. Ia tidak perlu menarik secara visual.
Penggambaran data penjelasan Visualisasi ini perlu tepat, berwawasan dan menarik secara visual kerana ini dipersembahkan kepada pengguna.

Sampah Carta, Nisbah Dakwat Data dan Integriti Reka Bentuk

Sampah Carta

Untuk dapat membaca maklumat yang diberikan melalui plot tanpa gangguan, adalah penting untuk mengelakkan carta sampah. Suka:

Garisan grid berat
Gambar dalam visual
Teduh
Komponen 3d
Hiasan
Teks berlebihan

Nisbah Dakwat Data

Semakin rendah sarap carta anda dalam visual, semakin tinggi nisbah dakwat data. Ini bermakna lebih banyak "dakwat" dalam visual digunakan untuk mengangkut mesej data, lebih baik ia.

Integriti Reka Bentuk

Faktor Pembohongan dikira sebagai:

$$
teks{Faktor Pembohongan} = frac{teks{Saiz kesan ditunjukkan dalam grafik}}{teks{Saiz kesan dalam data}}
$$

Delta bermaksud perbezaan. Jadi ia adalah perubahan relatif yang ditunjukkan dalam grafik dibahagikan dengan perubahan relatif sebenar dalam data. Sebaik-baiknya ia hendaklah 1. Jika tidak, ini bermakna terdapat beberapa ketidakpadanan dalam cara data dipersembahkan dan perubahan sebenar.

Data Visualisation Basics
Dalam contoh di atas, diambil daripada wiki, faktor pembohongan ialah 3, apabila membandingkan piksel setiap doktor, mewakili bilangan doktor di California.

Data Visualisation Basics

Data kemas

pastikan data anda dibersihkan dengan betul dan sedia untuk digunakan:

setiap pembolehubah ialah lajur
setiap pemerhatian adalah satu baris
setiap jenis unit pemerhatian ialah jadual

Penerokaan Data Univariat

Ini merujuk kepada analisis pembolehubah tunggal (atau ciri) dalam set data.

Carta Bar

sentiasa plot bermula dengan 0 untuk mempersembahkan nilai dalam cara yang setanding sebenar.
isih data nominal
jangan mengisih data ordinal - di sini adalah lebih penting untuk mengetahui kekerapan kategori yang paling penting muncul daripada yang paling kerap
jika anda mempunyai banyak kategori, gunakan carta bar mendatar: letakkan kategori pada paksi-y, untuk menjadikannya lebih mudah dibaca.

Data Visualisation Basics

Histogram

versi kuantitatif carta palang. Ini digunakan untuk memplot nilai berangka.
nilai dikumpulkan ke dalam tong berterusan, satu bar untuk setiap satu diplot

KDE - Anggaran Ketumpatan Kernel

selalunya taburan Gaussian atau normal, untuk menganggarkan ketumpatan pada setiap titik.
Plot KDE boleh mendedahkan trend dan bentuk pengedaran dengan lebih jelas, terutamanya untuk data yang tidak diedarkan secara seragam.

Carta Pai dan Plot Donut

data perlu dalam frekuensi relatif
carta pai berfungsi paling baik dengan maksimum 3 keping. Jika terdapat lebih banyak baji untuk dipaparkan, ia tidak boleh dibaca dan jumlah yang berbeza sukar untuk dibandingkan. Kemudian anda lebih suka carta bar.

Penerokaan Data BiVariate

Menganalisis hubungan antara dua pembolehubah dalam set data.

Carta Bar Berkelompok

memaparkan hubungan antara dua nilai kategori. Bar disusun dalam kelompok berdasarkan tahap pembolehubah pertama.

Scatterplots

setiap titik data diplot secara individu sebagai titik, kedudukan-xnya sepadan dengan satu nilai ciri dan kedudukan-ynya sepadan dengan yang kedua.
jika plot mengalami overplotting (terlalu banyak titik data bertindih): anda boleh menggunakan ketelusan dan jitter (setiap titik dialihkan sedikit daripada nilai sebenar)

Peta haba

versi 2d Histogram
titik data diletakkan dengan kedudukan-xnya sepadan dengan satu nilai ciri dan kedudukan-ynya sepadan dengan yang kedua.
kawasan plot dibahagikan kepada grid, dan bilangan mata ditambah di sana dan kiraan ditunjukkan dengan warna

Plot biola

tunjukkan hubungan antara pembolehubah kuantitatif (berangka) dan kualitatif (kategori) pada tahap abstraksi yang lebih rendah.
pengedaran diplot seperti anggaran ketumpatan kernel, jadi kami boleh mendapatkan gambaran yang jelas
untuk memaparkan statistik utama pada masa yang sama, anda boleh membenamkan plot kotak dalam plot biola.

Plot kotak

ia juga menggambarkan hubungan antara pembolehubah kuantitatif (berangka) dan kualitatif (kategori) pada tahap abstraksi yang lebih rendah.
berbanding plot biola, plot kotak lebih bersandar pada ringkasan data, terutamanya hanya melaporkan satu set statistik deskriptif untuk nilai berangka pada setiap peringkat kategori.
ia menggambarkan ringkasan lima nombor data: minimum, kuartil pertama (Q1), median (Q2), kuartil ketiga (Q3) dan maksimum.

Elemen utama plot kotak:
Kotak: Bahagian tengah plot mewakili julat antara kuartil (IQR), iaitu julat antara kuartil pertama (Q1, persentil ke-25) dan kuartil ketiga (Q3, persentil ke-75). Ini mengandungi 50% tengah data.

Garis Median: Di dalam kotak, garis mewakili median (S2, persentil ke-50) set data.

Kumis: Garisan memanjang dari kotak, dikenali sebagai "kumis," menunjukkan julat data yang terletak dalam 1.5 kali IQR dari Q1 dan Q3. Ia biasanya memanjangkan kepada nilai terkecil dan terbesar dalam julat ini.

Outliers: Mana-mana titik data yang berada di luar 1.5 kali ganda IQR dianggap outliers dan selalunya diwakili oleh titik atau tanda individu di luar misai.
Data Visualisation Basics

Plot Biola dan Kotak Gabungan

Plot biola menunjukkan ketumpatan merentas kategori yang berbeza, dan plot kotak menyediakan statistik ringkasan
Data Visualisation Basics

Faceting

data dibahagikan kepada subset terputus-putus, selalunya mengikut tahap berbeza pembolehubah kategori. Bagi setiap subset data ini, jenis plot yang sama diberikan pada pembolehubah lain, iaitu lebih banyak histogram bersebelahan antara satu sama lain dengan nilai kategori yang berbeza.

Plot garisan

digunakan untuk memplot arah aliran satu pembolehubah nombor terhadap pembolehubah kedua.

Plot Kuantil-Kuantil (Q-Q).

ialah sejenis plot yang digunakan untuk membandingkan taburan set data dengan taburan teori (seperti taburan biasa) atau untuk membandingkan dua set data untuk menyemak sama ada ia mengikuti taburan yang sama.

Plot kawanan

Seperti plot serakan, setiap titik data diplotkan dengan kedudukan mengikut nilainya pada dua pembolehubah yang diplot. Daripada menggetarkan mata secara rawak seperti dalam plot serakan biasa, mata diletakkan sehampir mungkin dengan nilai sebenar tanpa membenarkan sebarang pertindihan.

Plot labah-labah

bandingkan berbilang pembolehubah merentas kategori berbeza pada grid jejari. Juga dikenali sebagai carta radar.

Pautan yang berguna

Buku nota contoh saya

Kod Contoh

Libs yang digunakan untuk plot sampel:

Matplotlib: perpustakaan serba boleh untuk visualisasi, tetapi memerlukan sedikit usaha kod untuk menyusun visualisasi biasa.
Seaborn: dibina di atas matplotlib, menambah beberapa fungsi untuk menjadikan visualisasi statistik biasa lebih mudah dijana.
panda: walaupun pustaka ini termasuk beberapa kaedah mudah untuk menggambarkan data yang dikaitkan dengan matplotlib, kami terutamanya akan menggunakannya untuk tujuan utamanya sebagai alat umum untuk bekerja dengan data (https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf ).

Bacaan lanjut:

Anscombe Quartett: Statistik yang sama untuk data, tetapi pengedaran berbeza: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
Chartchunk: https://en.wikipedia.org/wiki/Chartjunk
Nisbah Dakwat Data: https://infovis-wiki.net/wiki/Nisbah_Data-Ink
Faktor pembohongan: https://infovis-wiki.net/wiki/Lie_Factor
Data kemas: https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html
Penggambaran mesra buta warna: https://www.tableau.com/blog/examining-data-viz-rules-dont-use-red-green-together

Atas ialah kandungan terperinci Asas Visualisasi Data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sql html pandas matplotlib if count sort for while using number this display position column table https

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Automasi Cisco dengan PythonArtikel seterusnya：Automasi Cisco dengan Python

Artikel berkaitan

Lihat lagi