Mengapa menggunakan data vis
Apabila anda perlu bekerja dengan sumber data baharu, dengan jumlah data yang besar, anda boleh menggunakan visualisasi data untuk memahami data dengan lebih baik.
Proses analisis data selalunya dilakukan dalam 5 langkah:
- Ekstrak - Dapatkan data daripada hamparan, SQL, web, dll.
- Bersih - Di sini kita boleh menggunakan visual penerokaan.
- Teroka - Di sini kami menggunakan visual penerokaan.
- Analisis - Di sini kita mungkin menggunakan sama ada visual penerokaan atau penerangan.
- Kongsi - Di sinilah tempat visual penerangan hidup.
Jenis data
Untuk dapat memilih plot yang sesuai untuk ukuran tertentu, adalah penting untuk mengetahui data yang anda hadapi.
Kualitatif aka jenis kategori
Data kualitatif nominal
Label tanpa susunan atau pangkat yang dikaitkan dengan item itu sendiri.
Contoh: Jantina, status perkahwinan, item menu
Data kualitatif ordinal
Label yang mempunyai susunan atau kedudukan.
Contoh: gred surat, rating
Kuantitatif aka jenis angka
Nilai kuantitatif diskret
Nombor tidak boleh dibahagikan kepada unit yang lebih kecil
Contoh: Halaman dalam Buku, bilangan pokok di taman
Nilai kuantitatif berterusan
Nombor boleh dibahagikan kepada unit yang lebih kecil
Contoh: Ketinggian, Umur, Pendapatan, Waktu Kerja
Statistik Ringkasan
Data berangka
Min: Nilai purata.
Median: Nilai tengah apabila data diisih.
Mod: Nilai yang paling kerap berlaku.
Varians/Sisihan Piawai: Ukuran sebaran atau serakan.
Julat: Perbezaan antara nilai maksimum dan minimum.
Data Kategori
Kekerapan: Kiraan kejadian bagi setiap kategori.
Mod: Kategori paling kerap.
Visualisasi
Anda boleh mendapatkan cerapan tentang sumber data baharu dengan cepat dan juga melihat sambungan antara jenis data yang berbeza dengan lebih mudah.
Kerana apabila anda hanya menggunakan statistik standard untuk meringkaskan data anda, anda akan mendapat min, maks, min, median dan mod, tetapi ini mungkin mengelirukan dalam aspek lain. Seperti yang ditunjukkan dalam Kuartet Anscombe: min dan sisihan sentiasa sama, tetapi taburan data sentiasa berbeza.
Dalam visualisasi data, kami mempunyai dua jenis:
- Penggambaran data penerokaan
Kami menggunakan ini untuk mendapatkan cerapan tentang data. Ia tidak perlu menarik secara visual.
- Penggambaran data penjelasan
Visualisasi ini perlu tepat, berwawasan dan menarik secara visual kerana ini dipersembahkan kepada pengguna.
Sampah Carta, Nisbah Dakwat Data dan Integriti Reka Bentuk
Sampah Carta
Untuk dapat membaca maklumat yang diberikan melalui plot tanpa gangguan, adalah penting untuk mengelakkan carta sampah. Suka:
- Garisan grid berat
- Gambar dalam visual
- Teduh
- Komponen 3d
- Hiasan
- Teks berlebihan
Nisbah Dakwat Data
Semakin rendah sarap carta anda dalam visual, semakin tinggi nisbah dakwat data. Ini bermakna lebih banyak "dakwat" dalam visual digunakan untuk mengangkut mesej data, lebih baik ia.
Integriti Reka Bentuk
Faktor Pembohongan dikira sebagai:
$$
teks{Faktor Pembohongan} = frac{teks{Saiz kesan ditunjukkan dalam grafik}}{teks{Saiz kesan dalam data}}
$$
Delta bermaksud perbezaan. Jadi ia adalah perubahan relatif yang ditunjukkan dalam grafik dibahagikan dengan perubahan relatif sebenar dalam data. Sebaik-baiknya ia hendaklah 1. Jika tidak, ini bermakna terdapat beberapa ketidakpadanan dalam cara data dipersembahkan dan perubahan sebenar.
Dalam contoh di atas, diambil daripada wiki, faktor pembohongan ialah 3, apabila membandingkan piksel setiap doktor, mewakili bilangan doktor di California.
Data kemas
pastikan data anda dibersihkan dengan betul dan sedia untuk digunakan:
- setiap pembolehubah ialah lajur
- setiap pemerhatian adalah satu baris
- setiap jenis unit pemerhatian ialah jadual
Penerokaan Data Univariat
Ini merujuk kepada analisis pembolehubah tunggal (atau ciri) dalam set data.
Carta Bar
- sentiasa plot bermula dengan 0 untuk mempersembahkan nilai dalam cara yang setanding sebenar.
- isih data nominal
- jangan mengisih data ordinal - di sini adalah lebih penting untuk mengetahui kekerapan kategori yang paling penting muncul daripada yang paling kerap
- jika anda mempunyai banyak kategori, gunakan carta bar mendatar: letakkan kategori pada paksi-y, untuk menjadikannya lebih mudah dibaca.
Histogram
- versi kuantitatif carta palang. Ini digunakan untuk memplot nilai berangka.
- nilai dikumpulkan ke dalam tong berterusan, satu bar untuk setiap satu diplot
KDE - Anggaran Ketumpatan Kernel
- selalunya taburan Gaussian atau normal, untuk menganggarkan ketumpatan pada setiap titik.
- Plot KDE boleh mendedahkan trend dan bentuk pengedaran dengan lebih jelas, terutamanya untuk data yang tidak diedarkan secara seragam.
Carta Pai dan Plot Donut
- data perlu dalam frekuensi relatif
- carta pai berfungsi paling baik dengan maksimum 3 keping. Jika terdapat lebih banyak baji untuk dipaparkan, ia tidak boleh dibaca dan jumlah yang berbeza sukar untuk dibandingkan. Kemudian anda lebih suka carta bar.
Penerokaan Data BiVariate
Menganalisis hubungan antara dua pembolehubah dalam set data.
Carta Bar Berkelompok
- memaparkan hubungan antara dua nilai kategori. Bar disusun dalam kelompok berdasarkan tahap pembolehubah pertama.
Scatterplots
- setiap titik data diplot secara individu sebagai titik, kedudukan-xnya sepadan dengan satu nilai ciri dan kedudukan-ynya sepadan dengan yang kedua.
- jika plot mengalami overplotting (terlalu banyak titik data bertindih): anda boleh menggunakan ketelusan dan jitter (setiap titik dialihkan sedikit daripada nilai sebenar)
Peta haba
- versi 2d Histogram
- titik data diletakkan dengan kedudukan-xnya sepadan dengan satu nilai ciri dan kedudukan-ynya sepadan dengan yang kedua.
- kawasan plot dibahagikan kepada grid, dan bilangan mata ditambah di sana dan kiraan ditunjukkan dengan warna
Plot biola
- tunjukkan hubungan antara pembolehubah kuantitatif (berangka) dan kualitatif (kategori) pada tahap abstraksi yang lebih rendah.
- pengedaran diplot seperti anggaran ketumpatan kernel, jadi kami boleh mendapatkan gambaran yang jelas
- untuk memaparkan statistik utama pada masa yang sama, anda boleh membenamkan plot kotak dalam plot biola.
Plot kotak
- ia juga menggambarkan hubungan antara pembolehubah kuantitatif (berangka) dan kualitatif (kategori) pada tahap abstraksi yang lebih rendah.
- berbanding plot biola, plot kotak lebih bersandar pada ringkasan data, terutamanya hanya melaporkan satu set statistik deskriptif untuk nilai berangka pada setiap peringkat kategori.
- ia menggambarkan ringkasan lima nombor data: minimum, kuartil pertama (Q1), median (Q2), kuartil ketiga (Q3) dan maksimum.
Elemen utama plot kotak:
Kotak: Bahagian tengah plot mewakili julat antara kuartil (IQR), iaitu julat antara kuartil pertama (Q1, persentil ke-25) dan kuartil ketiga (Q3, persentil ke-75). Ini mengandungi 50% tengah data.
Garis Median: Di dalam kotak, garis mewakili median (S2, persentil ke-50) set data.
Kumis: Garisan memanjang dari kotak, dikenali sebagai "kumis," menunjukkan julat data yang terletak dalam 1.5 kali IQR dari Q1 dan Q3. Ia biasanya memanjangkan kepada nilai terkecil dan terbesar dalam julat ini.
Outliers: Mana-mana titik data yang berada di luar 1.5 kali ganda IQR dianggap outliers dan selalunya diwakili oleh titik atau tanda individu di luar misai.
Plot Biola dan Kotak Gabungan
Plot biola menunjukkan ketumpatan merentas kategori yang berbeza, dan plot kotak menyediakan statistik ringkasan
Faceting
- data dibahagikan kepada subset terputus-putus, selalunya mengikut tahap berbeza pembolehubah kategori. Bagi setiap subset data ini, jenis plot yang sama diberikan pada pembolehubah lain, iaitu lebih banyak histogram bersebelahan antara satu sama lain dengan nilai kategori yang berbeza.
Plot garisan
- digunakan untuk memplot arah aliran satu pembolehubah nombor terhadap pembolehubah kedua.
Plot Kuantil-Kuantil (Q-Q).
- ialah sejenis plot yang digunakan untuk membandingkan taburan set data dengan taburan teori (seperti taburan biasa) atau untuk membandingkan dua set data untuk menyemak sama ada ia mengikuti taburan yang sama.
Plot kawanan
- Seperti plot serakan, setiap titik data diplotkan dengan kedudukan mengikut nilainya pada dua pembolehubah yang diplot. Daripada menggetarkan mata secara rawak seperti dalam plot serakan biasa, mata diletakkan sehampir mungkin dengan nilai sebenar tanpa membenarkan sebarang pertindihan.
Plot labah-labah
- bandingkan berbilang pembolehubah merentas kategori berbeza pada grid jejari. Juga dikenali sebagai carta radar.
Pautan yang berguna
Buku nota contoh saya
Kod Contoh
Libs yang digunakan untuk plot sampel:
-
Matplotlib: perpustakaan serba boleh untuk visualisasi, tetapi memerlukan sedikit usaha kod untuk menyusun visualisasi biasa.
- Seaborn: dibina di atas matplotlib, menambah beberapa fungsi untuk menjadikan visualisasi statistik biasa lebih mudah dijana.
-
panda: walaupun pustaka ini termasuk beberapa kaedah mudah untuk menggambarkan data yang dikaitkan dengan matplotlib, kami terutamanya akan menggunakannya untuk tujuan utamanya sebagai alat umum untuk bekerja dengan data (https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf ).
Bacaan lanjut:
- Anscombe Quartett: Statistik yang sama untuk data, tetapi pengedaran berbeza: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
- Chartchunk: https://en.wikipedia.org/wiki/Chartjunk
- Nisbah Dakwat Data: https://infovis-wiki.net/wiki/Nisbah_Data-Ink
- Faktor pembohongan: https://infovis-wiki.net/wiki/Lie_Factor
- Data kemas: https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html
- Penggambaran mesra buta warna: https://www.tableau.com/blog/examining-data-viz-rules-dont-use-red-green-together
Atas ialah kandungan terperinci Asas Visualisasi Data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!