Rumah >pembangunan bahagian belakang >Tutorial Python >Mengapa menggunakan Python untuk analisis data (apabila anda mempunyai Excel atau Helaian Google)
TL;DR: Walaupun hamparan sesuai untuk banyak tugasan data, Python menjadi penting apabila anda perlu mengendalikan set data yang besar, mencipta visualisasi lanjutan, mengautomasikan aliran kerja atau menggunakan model pembelajaran mesin. Perkara utama ialah mengetahui masa untuk memanfaatkan kekuatan setiap alat untuk keperluan analisis data khusus anda.
Walaupun Python sering dianggap penting untuk kerja data, hamparan kekal sebagai alat paling praktikal untuk keperluan harian kebanyakan penganalisis – dan itu tidak mengapa. Tetapi mengetahui masa untuk menamatkan pengajian adalah penting untuk memajukan keupayaan data anda.
Jika anda melihat mana-mana penganalisis data atau kurikulum saintis data, anda akan menemui alatan teras yang sama: hamparan, SQL, Python dan pelbagai penyelesaian Business Intelligence (BI). Namun apabila saya bercakap dengan pengamal dan pemimpin data, soalan biasa timbul: "Mengapa beralih kepada Python apabila hamparan mengendalikan kebanyakan keperluan saya?"
Sebagai seseorang yang mengasaskan syarikat yang dibina atas SQL, Python dan AI, pendirian saya mungkin mengejutkan anda: jika hamparan boleh melakukan kerja itu, gunakannya. Alat ini telah bertahan sejak tahun 1970-an atas sebab yang baik – ia intuitif, fleksibel dan sangat baik untuk menerangkan kerja anda kepada orang lain.
Tetapi mereka ada hadnya.
Apabila anda mula menjalankan lebih banyak analisis ad hoc atau analisis data penerokaan atau berurusan dengan lebih banyak data dalam perusahaan, anda akan menghadapi beberapa isu dengan cepat:
Pada asasnya, hamparan berkuasa kerana ia meletakkan anda dalam kawalan sepenuhnya ke atas ruang kerja data anda. Seperti mempunyai papan pemuka tersuai anda sendiri, mereka membenarkan anda memanipulasi, memvisualisasikan dan menganalisis data dengan serta-merta seperti yang anda mahukan.
Terdapat dua sebab utama orang tertarik kepada hamparan:
Mari kita mulakan dengan sebab yang paling jelas mengapa pengamal data, tanpa mengira tahap kemahiran, menyukai hamparan: Mereka sangat fleksibel dan boleh disesuaikan.
Dalam hamparan, anda bekerja dalam persekitaran anda sendiri dan anda mempunyai kawalan penuh ke atasnya. Anda ingin menyerlahkan baris tertentu dan membuat carta pantas? Mudah. Anda ingin menambah beberapa pemformatan bersyarat untuk menyerlahkan corak tertentu? Tiada masalah. Anda juga mahu menambah baris atau lajur untuk menambah beberapa input? Teruskan ke hadapan.
Sebagai pengguna, anda mempunyai kawalan penuh, walaupun dalam persekitaran ruang kerja kongsi seperti Helaian Google. Ini benar-benar berkuasa, terutamanya berbeza dengan penyelesaian BI tradisional yang mana anda tidak boleh mengedit data secara terus mengikut cara yang sama, dan anda juga tidak boleh memanggil cebisan data tertentu tanpa perlu menghiris data kepada subset yang lebih kecil, yang boleh diperolehi dengan cepat. lepas tangan. Sebenarnya, beberapa penyelesaian BI baharu seperti Sigma memanfaatkan idea ini dengan antara muka seperti hamparan sebagai nada utama mereka.
Secara keseluruhannya, terdapat sesuatu yang sangat intuitif tentang pengalaman pengguna hamparan. Kami belajar matematik dari usia muda, dan hamparan menawarkan cara yang tersusun dengan baik untuk melihat data dan memahami cara semua nombor digabungkan.
Kereaktifan dalam hamparan bermakna apabila anda menukar satu nombor, semua yang disambungkan kepadanya dikemas kini secara automatik. Maklum balas segera ini menjadikan mereka sempurna untuk memahami cara kepingan data yang berbeza mempengaruhi satu sama lain.
Sebagai contoh, katakan anda mempunyai sel yang disambungkan seperti:
C1 = A1 B2
Kereaktifan bermakna apabila anda mengemas kini A1 atau B2, C1 dikemas kini secara automatik. Terdapat DAG yang berkesan yang menjejaki kebergantungan, atau keturunan, antara semua sel. Ini adalah konsep yang sangat berkuasa, kerana, tidak seperti dengan kod, anda tidak perlu "menjalankan" hamparan. Anda hanya boleh mencipta model dunia dan melaraskan input dan melihat cara keputusan bertindak balas terhadap perubahan itu.
Kereaktifan ini juga sebahagian besarnya menyumbang kepada kemudahan pemahaman hamparan. Saya boleh melihat formula yang mudah difahami, klik padanya untuk menyerlahkan sel bergantung dan saya melaraskan sel bergantung untuk memahami cara nombor yang saya lihat bertindak balas dan berkaitan dengannya.
Seperti yang anda boleh lihat dalam imej di atas, jika anda ingin mengetahui nombor yang paling banyak menyumbang kepada Pendapatan Bersih Sebelum Cukai, anda boleh klik pada sel, lihat sel bersandar, dan segera faham apakah pembolehubah Pendapatan Bersih Sebelum Cukai.
Atas sebab ini, jika anda dapat melakukan kerja anda dalam hamparan, ini mungkin idea yang baik.
Sementara hamparan cemerlang dalam banyak tugas, Python membuka dunia kemungkinan baharu untuk kerja data. Daripada mengendalikan set data yang besar kepada mencipta visualisasi yang kompleks dan mengautomasikan tugasan berulang, terdapat lima sebab mengapa Python ialah alat yang berkuasa untuk aliran kerja data anda.
Sebab pertama dan paling jelas untuk menggunakan Python digambarkan apabila berurusan dengan set data yang besar. Excel boleh menyokong kira-kira 1M baris dengan 17k lajur dan Helaian Google boleh menyokong kira-kira 10M sel. Ini mungkin kedengaran seperti banyak, dan dalam banyak kes ini adalah banyak, tetapi kemungkinan besar, anda akan cepat melepasi had ini. Sebaliknya, Python pada mesin berkuasa boleh menyokong banyak pesanan magnitud lebih banyak data. Ini benar terutamanya jika anda memanfaatkan teknologi baharu seperti polar dan DuckDB.
Kita mungkin melihat peningkatan dalam had dengan hamparan dari semasa ke semasa, tetapi Python (terutamanya seiring dengan SQL) akan sentiasa dapat mengendalikan lebih banyak lagi.
Hamparan boleh menawarkan beberapa visual yang cukup hebat, tetapi ia hanya sebahagian kecil daripada apa yang boleh anda lakukan dengan Python. Saya sangat percaya bahawa carta bar, carta garisan dan peta merangkumi sebahagian besar kes, tetapi bercerita dengan data selalunya memerlukan keluar daripada perkara biasa dan mencipta kanvas yang menarik.
Sebagai contoh, saya suka gambar rajah Sankey yang bagus untuk menceritakan kisah tentang cara data mengalir dari titik A ke titik B. Atau mungkin anda ingin mencipta plot radar untuk membandingkan atribut daripada kategori yang berbeza.
Ini boleh menjadi sangat mudah untuk dibina dalam Python dengan perpustakaan seperti plotly, seaborn atau bokeh.
Untuk memberi anda contoh, mari kembali ke contoh Superdope kami daripada siaran sebelumnya dan katakan anda ingin membandingkan prestasi produk pada plot sunburst seperti yang di bawah:
Menjana carta ini dengan kod menggunakan perpustakaan seperti plotly adalah agak mudah:
import plotly.express as px # Create the sunburst plot fig = px.sunburst( df_sunburst, path=['Region', 'Category', 'Product'], values='Sales', color='Region', title='Sales Distribution by Region, Category, and Product', width=800, height=450 ) # Update layout fig.update_layout( margin=dict(t=50, l=0, r=0, b=0) ) # Show the plot fig.show() And this code can be generated by AI in about 3 seconds. Building something similar in a spreadsheet would require a lot more time and effort.
Apabila bekerja dengan data, anda sering kali mendapati diri anda melakukan tugasan transformasi data yang berulang. Katakan, sebagai contoh, anda bekerja dalam industri di mana pelanggan anda kerap menghantar fail CSV atau Excel kepada anda dan anda perlu membersihkan serta memformat data serta mengubahnya menjadi laporan atau menyediakannya untuk langkah lain. Ini adalah tugas yang sempurna untuk Python. Jika anda mengurus pelayan anda sendiri dan bijak, anda boleh menulis skrip dan menjadualkannya untuk dijalankan menggunakan tugas Cron, atau jika anda ingin menggunakan penyelesaian terurus yang berfungsi di luar kotak dan mengendalikan orkestrasi dan kerja yang lebih kompleks , anda boleh menggunakan penyelesaian seperti Dagster atau Airflow.
Sebagai peraturan umum, hari ini adalah lebih baik untuk mengelakkan pekerjaan Cron buatan sendiri melainkan anda tahu dengan tepat apa yang anda lakukan. Memastikan bahawa ini kekal dan berjalan, mempunyai pembalakan dan pemantauan yang betul serta diatur dengan betul boleh dengan cepat bertukar menjadi banyak kerja.
Nota: Jika anda hanya mencari cara yang ringan dan pantas untuk membina saluran data, Fabi.ai mungkin pilihan yang baik untuk anda. Kami boleh membantu anda dengan mudah menyediakan perbalahan data dan membersihkan saluran paip dari dan ke mana-mana sumber, termasuk fail CSV dan fail Excel, dalam masa beberapa minit.
Anda boleh melakukan banyak perkara dalam hamparan, tetapi membina dan menggunakan model statistik dan pembelajaran mesin yang lebih maju biasanya bukan salah satu daripadanya. Jika anda hanya melakukan analisis data univariate dan beberapa pengiraan mudah seperti pengedaran, purata dan lain-lain. hamparan sepatutnya dapat menyelesaikan kerja. Tetapi jika anda ingin menerokai analisis multivariat yang lebih maju, atau mungkin juga pengelompokan, ramalan dan ramalan churn, Python dilengkapi dengan rangkaian alatan yang kaya yang berfungsi di luar kotak.
Berikut ialah beberapa contoh jenis analisis yang anda mungkin mahu lakukan bersama-sama dengan pakej Python yang sepadan:
Akhir sekali, dalam banyak kes, amalan yang baik untuk memastikan kerja anda boleh dikesan dan boleh dihasilkan semula.
Dalam praktiknya, maksud ini ialah apabila orang lain (atau mungkin anda sendiri di kemudian hari), melihat analisis anda, individu ini sepatutnya dapat memahami:
Menggunakan sistem kawalan versi seperti Github atau Gitlab dan melakukan perubahan pada kod asas semasa anda menjalankan analisis anda boleh membantu anda mengelakkan situasi jenis ini.
Jika anda ingin melakukan analisis data ad hoc atau penerokaan yang kompleks, gunakan teknik pembelajaran mesin lanjutan atau bina visualisasi yang kompleks, Python ialah salah satu alat terbaik dan paling berkuasa untuk tugas itu.
Ya, hamparan sangat popular atas sebab yang baik. Jika anda berurusan dengan set data yang agak kecil, dalam analisis sekali sahaja yang tidak perlu diautomatikkan, Excel atau Helaian Google ialah alat yang hebat.
Walau bagaimanapun, Python berfungsi dengan sangat baik apabila berurusan dengan set data besar yang akan menjadi isu untuk Excel atau Helaian Google. Python juga biasanya digunakan untuk mengautomasikan saluran paip data, terutamanya jika ia memerlukan beberapa bentuk transformasi dan pembersihan data.
Seperti kebanyakan perkara, ada masa dan tempat untuk menggunakan alatan tertentu untuk memanfaatkan sepenuhnya kekuatan mereka. Kami membina Fabi.ai untuk bertindak sebagai jambatan antara semua alatan, supaya anda boleh mendapatkan yang terbaik dari kedua-dua dunia.
Kami menjadikannya sangat mudah untuk menyambung ke mana-mana sumber data, termasuk hamparan dan fail serta membina saluran paip data yang ringan. Antara muka SQL dan Python terbina dalam kami, ditambah dengan AI, menjadikannya sangat mudah untuk memanfaatkan pembelajaran mesin lanjutan dan model statistik, tanpa mengira pengalaman terdahulu. Jika anda berminat untuk menyemak kami, anda boleh bermula secara percuma hari ini dalam masa kurang daripada 2 minit.
Atas ialah kandungan terperinci Mengapa menggunakan Python untuk analisis data (apabila anda mempunyai Excel atau Helaian Google). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!