如果你讓我向一個5 歲的孩子解釋數據科學,我可能會這樣說:「這就像當一名偵探!你收集線索(數據),弄清楚它們如何組合在一起(分析和清理數據),並用它們來解開謎團或猜測接下來會發生什麼(預測結果)。
資料科學不僅適合偵探或擁有高學歷的成年人。很有可能,您可能已經在日常生活中應用了數據科學原理,甚至沒有意識到。以我為例。在成長過程中,我是一個好奇、安靜的孩子,從未停止思考。從表面上看,我沒說什麼,但在我心裡,那是一個完整的市場。我把其他人似乎沒有註意到的點聯繫起來,並提出了無盡的問題,而不僅僅是典型的“為什麼會這樣?”但更好奇的是:“什麼時候會發生?什麼可能使它發生?即使現在,作為一個成年人,我仍然有問太多問題的壞習慣。 「我把它當作一種讚美。
正是這種好奇心讓我在小時候不知不覺地接受了數據科學原理,尤其是當涉及到像 NEPA(現在的 PHCN)這樣不可預測的事情時。如果你曾經住在尼日利亞,你就會知道停電非常常見,以至於燈光亮起感覺就像一場小型慶祝活動。我討厭這一切的不可預測性,所以我開始注意。我自己承擔了破解 NEPA 代碼的責任。
我的筆記本變成了我的迷你資料庫。我觀察了 NEPA 的行為模式,並記錄了每次斷電和恢復的時間。 (資料收集)。 我放學回家後立即問媽媽或在家的人:「他們帶燈來了嗎?他們什麼時候拿的?」我會寫下我注意到的事情——燈亮了多長時間,什麼時候亮,什麼時候滅。 這就像一種儀式;我需要知道電源的「狀態更新」。
隨著時間的推移,我考慮了模式和外部因素,如公共假期、節日、天氣狀況、足球比賽等。這花了一些時間,但我開始注意到趨勢。例如,如果傾盆大雨,我只知道他們幾個小時內不會開燈,因為電線需要時間「乾燥」。或者,如果尼日利亞正在踢足球比賽,NEPA 很可能會感到慷慨。如果我今天建立 NEPA 模型,我必須考慮更複雜的變量,例如國家電網崩潰的次數(感覺就像每隔一周)。
使用這些模式,我創建了一個「心理模型」。儘管電力供應是不可預測的,但我仍然可以在一定程度上預測它,我的兄弟姐妹和鄰居開始對待我,就像我有內幕消息一樣,我贏得了“NEPA 預測員”的非正式頭銜,他們會問我,「什麼時候會發生。」光回來了? 」我會自信地回答:「給他們兩個小時,就好了。 ”
當然,數據並不完美。 NEPA 曾多次「落入我的手中」。有時,當我以為會恢復時,電源卻沒有恢復,或意外地斷電了。但在大多數情況下,我的預測出乎意料地準確。 因此,我過濾掉了這些不一致的情況(資料清理)並專注於尋找模式。
回顧過去,我意識到我一直在應用核心資料科學流程:
資料收集:我收集了有關電源的資訊 - 何時來、何時去以及停留了多長時間。
資料清理和準備:我刪除了不相關的細節並專注於關鍵變量,例如天氣狀況或一天中的時間。
探索性資料分析 (EDA):我在筆記中尋找模式以了解電源的工作原理。
資料建模:我創建了一個“心理模型”,根據我確定的模式來預測電力何時恢復。
模型評估:我用現實檢驗了我的預測。如果燈沒有如我預期的亮起,我就調整了模型。
模型部署:我的「模型」對其他人變得有用——我的兄弟姐妹和鄰居依靠我的預測來做出決定。
儘管這聽起來很有趣,但童年時期的 NEPA 實驗是我第一次接觸資料科學。數據科學不僅僅是數字、圖表和演算法。這是關於解決現實世界的問題,就像我小時候對力量預測所做的那樣。是的,數據科學可能很複雜,但其核心是結構化的好奇心——我們所有人都擁有的好奇心。對我來說,這一切都是從 NEPA 和筆記本開始的。
隨著時間的推移,我們不僅會探索資料科學的不同概念和過程,還會探索我們可以解決的問題和我們可以創建的解決方案。無論是分析資料集或是尋找改善生活的見解,資料科學都是我們可以用來做出更好決策的工具。
讓我們一起深入研究 - 一次一個線索、一種模式和一個預測!
以上是孩子的好奇心:令人驚訝的數據科學基礎的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本教程演示如何使用Python處理Zipf定律這一統計概念,並展示Python在處理該定律時讀取和排序大型文本文件的效率。 您可能想知道Zipf分佈這個術語是什麼意思。要理解這個術語,我們首先需要定義Zipf定律。別擔心,我會盡量簡化說明。 Zipf定律 Zipf定律簡單來說就是:在一個大型自然語言語料庫中,最頻繁出現的詞的出現頻率大約是第二頻繁詞的兩倍,是第三頻繁詞的三倍,是第四頻繁詞的四倍,以此類推。 讓我們來看一個例子。如果您查看美國英語的Brown語料庫,您會注意到最頻繁出現的詞是“th

本文解釋瞭如何使用美麗的湯庫來解析html。 它詳細介紹了常見方法,例如find(),find_all(),select()和get_text(),以用於數據提取,處理不同的HTML結構和錯誤以及替代方案(SEL)

處理嘈雜的圖像是一個常見的問題,尤其是手機或低分辨率攝像頭照片。 本教程使用OpenCV探索Python中的圖像過濾技術來解決此問題。 圖像過濾:功能強大的工具圖像過濾器

本文比較了Tensorflow和Pytorch的深度學習。 它詳細介紹了所涉及的步驟:數據準備,模型構建,培訓,評估和部署。 框架之間的關鍵差異,特別是關於計算刻度的

Python是數據科學和處理的最愛,為高性能計算提供了豐富的生態系統。但是,Python中的並行編程提出了獨特的挑戰。本教程探討了這些挑戰,重點是全球解釋

本教程演示了在Python 3中創建自定義管道數據結構,利用類和操作員超載以增強功能。 管道的靈活性在於它能夠將一系列函數應用於數據集的能力,GE

Python 對象的序列化和反序列化是任何非平凡程序的關鍵方面。如果您將某些內容保存到 Python 文件中,如果您讀取配置文件,或者如果您響應 HTTP 請求,您都會進行對象序列化和反序列化。 從某種意義上說,序列化和反序列化是世界上最無聊的事情。誰會在乎所有這些格式和協議?您想持久化或流式傳輸一些 Python 對象,並在以後完整地取回它們。 這是一種在概念層面上看待世界的好方法。但是,在實際層面上,您選擇的序列化方案、格式或協議可能會決定程序運行的速度、安全性、維護狀態的自由度以及與其他系

Python的statistics模塊提供強大的數據統計分析功能,幫助我們快速理解數據整體特徵,例如生物統計學和商業分析等領域。無需逐個查看數據點,只需查看均值或方差等統計量,即可發現原始數據中可能被忽略的趨勢和特徵,並更輕鬆、有效地比較大型數據集。 本教程將介紹如何計算平均值和衡量數據集的離散程度。除非另有說明,本模塊中的所有函數都支持使用mean()函數計算平均值,而非簡單的求和平均。 也可使用浮點數。 import random import statistics from fracti


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

Dreamweaver Mac版
視覺化網頁開發工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

禪工作室 13.0.1
強大的PHP整合開發環境