


Jika anda meminta saya menerangkan sains data kepada kanak-kanak berumur 5 tahun, saya mungkin akan berkata seperti ini: “Ia seperti seorang detektif! Anda mengumpul petunjuk (data), memikirkan cara ia sesuai (menganalisis dan membersihkan data) dan menggunakannya untuk menyelesaikan misteri atau meneka apa yang mungkin berlaku seterusnya (ramalkan hasil).”
Sains data bukan sahaja untuk detektif atau orang dewasa yang mempunyai ijazah tinggi. Kemungkinannya, anda mungkin telah menggunakan prinsip sains data dalam kehidupan seharian anda walaupun tanpa disedari. Ambil saya, sebagai contoh.
Membesar, saya adalah seorang kanak-kanak yang ingin tahu dan pendiam yang tidak pernah berhenti berfikir. Di luar, saya tidak bercakap banyak, tetapi dalam kepala saya, ia adalah keseluruhan pasaran. Saya menyambungkan titik-titik yang seolah-olah tidak diperhatikan oleh orang lain dan bertanya soalan yang tidak berkesudahan, dan bukan hanya "Mengapa ini seperti ini?" tetapi yang lebih ingin tahu: “Bilakah ia akan berlaku? Apa yang boleh menyebabkan ia berlaku?” Sekarang ini, sebagai orang dewasa, saya mempunyai tabiat buruk untuk bertanya terlalu banyak soalan. Seorang kawan pernah memberitahu saya, "Anda bertanya soalan seperti kanak-kanak!" Saya menganggapnya sebagai pujian.
Perasaan ingin tahu inilah yang mendorong saya untuk secara tidak sedar menerima prinsip sains data sebagai seorang kanak-kanak, terutamanya apabila ia datang kepada sesuatu yang tidak dapat diramalkan seperti NEPA (kini PHCN). Jika anda pernah tinggal di Nigeria, anda tahu bahawa bekalan elektrik terputus adalah perkara biasa sehingga cahaya yang menyala terasa seperti perayaan mini. Saya membenci ketidakpastian itu semua jadi, saya mula memberi perhatian. Saya mengambil tanggungjawab untuk memecahkan kod NEPA.
Buku nota saya menjadi pangkalan data mini saya. Saya memerhatikan corak tingkah laku NEPA, dan merekodkan setiap kali kuasa padam dan apabila ia dihidupkan semula. (Pengumpulan data). Saya akan pulang dari sekolah dan segera bertanya kepada ibu saya atau sesiapa sahaja di rumah, “Adakah mereka membawa cahaya? Bilakah mereka mengambilnya?” Saya akan menulis apa yang saya perhatikan - berapa lama lampu kekal, pukul berapa ia menyala dan bila ia padam. Ia seperti satu upacara; Saya perlu mengetahui "kemas kini status" pada bekalan kuasa.
Lama kelamaan, saya mengambil kira corak dan faktor luaran seperti cuti umum, musim perayaan, keadaan cuaca, perlawanan bola sepak., dsb. Ia mengambil sedikit masa, tetapi saya mula perasan arah aliran. Sebagai contoh, jika terdapat hujan lebat, saya hanya tahu mereka tidak akan membawa cahaya selama berjam-jam kerana, baik, wayar memerlukan masa untuk "kering." Atau jika Nigeria bermain perlawanan bola sepak, kemungkinan besar NEPA akan berasa murah hati. Jika saya membina model NEPA hari ini, saya perlu mengambil kira pembolehubah yang lebih kompleks- seperti bilangan kali grid nasional runtuh (yang dirasakan seperti setiap minggu).
Menggunakan corak ini, saya mencipta "model mental." Walaupun bekalan kuasa tidak dapat diramalkan, saya masih boleh meramalkannya sehingga ke tahap yang lain dan jiran saya mula memperlakukan saya seperti saya mempunyai maklumat orang dalam dan saya mendapat gelaran tidak rasmi "Peramal NEPA". cahaya kembali?” dan saya dengan yakin menjawab, "Beri mereka dua jam; ia akan datang."
Sudah tentu, data itu tidak sempurna. NEPA "jatuh tangan saya" beberapa kali. Kadang-kadang, kuasa tidak kembali apabila saya fikir ia akan, atau ia padam secara tidak dijangka. Tetapi untuk sebahagian besar, ramalan saya adalah sangat tepat. Jadi, saya menapis kes tidak konsisten ini (pembersihan data) dan menumpukan pada mencari corak.
Mengimbas kembali, saya menyedari bahawa saya telah menggunakan proses sains data teras selama ini:
Pengumpulan Data: Saya mengumpul maklumat tentang bekalan kuasa—bila ia datang, bila ia hilang dan berapa lama ia kekal.
Pembersihan dan Penyediaan Data: Saya mengalih keluar butiran yang tidak berkaitan dan memfokuskan pada pembolehubah utama, seperti keadaan cuaca atau masa dalam sehari.
Analisis Data Penerokaan (EDA): Saya mencari corak dalam nota saya untuk memahami cara bekalan kuasa berfungsi.
Pemodelan Data: Saya mencipta "model mental" untuk meramalkan masa kuasa akan kembali berdasarkan corak yang saya kenal pasti.
Penilaian Model: Saya menguji ramalan saya terhadap realiti. Jika lampu tidak menyala seperti yang saya jangkakan, saya melaraskan model saya.
Penerapan Model: "Model" saya menjadi berguna kepada orang lain—adik beradik dan jiran saya bergantung pada ramalan saya untuk membuat keputusan.
Walaupun lucu, percubaan zaman kanak-kanak dengan NEPA ini adalah rasa pertama saya dalam sains data. Sains data bukan sekadar nombor, carta dan algoritma. Ini mengenai menyelesaikan masalah dunia sebenar, seperti yang saya lakukan dengan ramalan kuasa saya sebagai seorang kanak-kanak. Ya, sains data boleh menjadi rumit, tetapi pada terasnya, ia hanyalah rasa ingin tahu berstruktur - sesuatu yang kita semua ada dalam diri kita. Dan bagi saya, semuanya bermula dengan NEPA dan buku nota.
Dari masa ke masa, kami akan meneroka bukan sahaja konsep dan proses sains data yang berbeza, tetapi juga masalah yang boleh kami selesaikan dan penyelesaian yang boleh kami cipta. Sama ada menganalisis set data atau mencari cerapan untuk meningkatkan kehidupan, sains data ialah alat yang boleh kita semua gunakan untuk membuat keputusan yang lebih baik.
Mari kita selami bersama - satu petunjuk, satu corak dan satu ramalan pada satu masa!
Atas ialah kandungan terperinci Rasa Ingin Tahu Seorang Kanak-Kanak: Asas Mengejutkan untuk Sains Data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Tutorial ini menunjukkan cara menggunakan Python untuk memproses konsep statistik undang -undang ZIPF dan menunjukkan kecekapan membaca dan menyusun fail teks besar Python semasa memproses undang -undang. Anda mungkin tertanya -tanya apa maksud pengedaran ZIPF istilah. Untuk memahami istilah ini, kita perlu menentukan undang -undang Zipf. Jangan risau, saya akan cuba memudahkan arahan. Undang -undang Zipf Undang -undang Zipf hanya bermaksud: Dalam korpus bahasa semulajadi yang besar, kata -kata yang paling kerap berlaku muncul kira -kira dua kali lebih kerap sebagai kata -kata kerap kedua, tiga kali sebagai kata -kata kerap ketiga, empat kali sebagai kata -kata kerap keempat, dan sebagainya. Mari kita lihat contoh. Jika anda melihat corpus coklat dalam bahasa Inggeris Amerika, anda akan melihat bahawa perkataan yang paling kerap adalah "th

Artikel ini menerangkan cara menggunakan sup yang indah, perpustakaan python, untuk menghuraikan html. Ia memperincikan kaedah biasa seperti mencari (), find_all (), pilih (), dan get_text () untuk pengekstrakan data, pengendalian struktur dan kesilapan HTML yang pelbagai, dan alternatif (sel

Berurusan dengan imej yang bising adalah masalah biasa, terutamanya dengan telefon bimbit atau foto kamera resolusi rendah. Tutorial ini meneroka teknik penapisan imej di Python menggunakan OpenCV untuk menangani isu ini. Penapisan Imej: Alat yang berkuasa Penapis Imej

Artikel ini membandingkan tensorflow dan pytorch untuk pembelajaran mendalam. Ia memperincikan langkah -langkah yang terlibat: penyediaan data, bangunan model, latihan, penilaian, dan penempatan. Perbezaan utama antara rangka kerja, terutamanya mengenai grap pengiraan

Python, kegemaran sains dan pemprosesan data, menawarkan ekosistem yang kaya untuk pengkomputeran berprestasi tinggi. Walau bagaimanapun, pengaturcaraan selari dalam Python memberikan cabaran yang unik. Tutorial ini meneroka cabaran -cabaran ini, memberi tumpuan kepada Interprete Global

Tutorial ini menunjukkan mewujudkan struktur data saluran paip tersuai di Python 3, memanfaatkan kelas dan pengendali yang berlebihan untuk fungsi yang dipertingkatkan. Fleksibiliti saluran paip terletak pada keupayaannya untuk menggunakan siri fungsi ke set data, GE

Serialization dan deserialization objek Python adalah aspek utama dari mana-mana program bukan remeh. Jika anda menyimpan sesuatu ke fail python, anda melakukan siri objek dan deserialization jika anda membaca fail konfigurasi, atau jika anda menjawab permintaan HTTP. Dalam erti kata, siri dan deserialization adalah perkara yang paling membosankan di dunia. Siapa yang peduli dengan semua format dan protokol ini? Anda mahu berterusan atau mengalirkan beberapa objek python dan mengambilnya sepenuhnya pada masa yang akan datang. Ini adalah cara yang baik untuk melihat dunia pada tahap konseptual. Walau bagaimanapun, pada tahap praktikal, skim siri, format atau protokol yang anda pilih boleh menentukan kelajuan, keselamatan, kebebasan status penyelenggaraan, dan aspek lain dari program

Modul Statistik Python menyediakan keupayaan analisis statistik data yang kuat untuk membantu kami dengan cepat memahami ciri -ciri keseluruhan data, seperti biostatistik dan analisis perniagaan. Daripada melihat titik data satu demi satu, cuma melihat statistik seperti min atau varians untuk menemui trend dan ciri dalam data asal yang mungkin diabaikan, dan membandingkan dataset besar dengan lebih mudah dan berkesan. Tutorial ini akan menjelaskan cara mengira min dan mengukur tahap penyebaran dataset. Kecuali dinyatakan sebaliknya, semua fungsi dalam modul ini menyokong pengiraan fungsi min () dan bukan hanya menjumlahkan purata. Nombor titik terapung juga boleh digunakan. Import secara rawak Statistik import dari fracti


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

ZendStudio 13.5.1 Mac
Persekitaran pembangunan bersepadu PHP yang berkuasa

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Dreamweaver Mac版
Alat pembangunan web visual
