如果你讓我向一個5 歲的孩子解釋數據科學,我可能會這樣說:「這就像當一名偵探!你收集線索(數據),弄清楚它們如何組合在一起(分析和清理數據),並用它們來解開謎團或猜測接下來會發生什麼(預測結果)。
資料科學不僅適合偵探或擁有高學歷的成年人。很有可能,您可能已經在日常生活中應用了數據科學原理,甚至沒有意識到。以我為例。在成長過程中,我是一個好奇、安靜的孩子,從未停止思考。從表面上看,我沒說什麼,但在我心裡,那是一個完整的市場。我把其他人似乎沒有註意到的點聯繫起來,並提出了無盡的問題,而不僅僅是典型的“為什麼會這樣?”但更好奇的是:“什麼時候會發生?什麼可能使它發生?即使現在,作為一個成年人,我仍然有問太多問題的壞習慣。 「我把它當作一種讚美。
正是這種好奇心讓我在小時候不知不覺地接受了數據科學原理,尤其是當涉及到像 NEPA(現在的 PHCN)這樣不可預測的事情時。如果你曾經住在尼日利亞,你就會知道停電非常常見,以至於燈光亮起感覺就像一場小型慶祝活動。我討厭這一切的不可預測性,所以我開始注意。我自己承擔了破解 NEPA 代碼的責任。
我的筆記本變成了我的迷你資料庫。我觀察了 NEPA 的行為模式,並記錄了每次斷電和恢復的時間。 (資料收集)。 我放學回家後立即問媽媽或在家的人:「他們帶燈來了嗎?他們什麼時候拿的?」我會寫下我注意到的事情——燈亮了多長時間,什麼時候亮,什麼時候滅。 這就像一種儀式;我需要知道電源的「狀態更新」。
隨著時間的推移,我考慮了模式和外部因素,如公共假期、節日、天氣狀況、足球比賽等。這花了一些時間,但我開始注意到趨勢。例如,如果傾盆大雨,我只知道他們幾個小時內不會開燈,因為電線需要時間「乾燥」。或者,如果尼日利亞正在踢足球比賽,NEPA 很可能會感到慷慨。如果我今天建立 NEPA 模型,我必須考慮更複雜的變量,例如國家電網崩潰的次數(感覺就像每隔一周)。
使用這些模式,我創建了一個「心理模型」。儘管電力供應是不可預測的,但我仍然可以在一定程度上預測它,我的兄弟姐妹和鄰居開始對待我,就像我有內幕消息一樣,我贏得了“NEPA 預測員”的非正式頭銜,他們會問我,「什麼時候會發生。」光回來了? 」我會自信地回答:「給他們兩個小時,就好了。 ”
當然,數據並不完美。 NEPA 曾多次「落入我的手中」。有時,當我以為會恢復時,電源卻沒有恢復,或意外地斷電了。但在大多數情況下,我的預測出乎意料地準確。 因此,我過濾掉了這些不一致的情況(資料清理)並專注於尋找模式。
回顧過去,我意識到我一直在應用核心資料科學流程:
資料收集:我收集了有關電源的資訊 - 何時來、何時去以及停留了多長時間。
資料清理和準備:我刪除了不相關的細節並專注於關鍵變量,例如天氣狀況或一天中的時間。
探索性資料分析 (EDA):我在筆記中尋找模式以了解電源的工作原理。
資料建模:我創建了一個“心理模型”,根據我確定的模式來預測電力何時恢復。
模型評估:我用現實檢驗了我的預測。如果燈沒有如我預期的亮起,我就調整了模型。
模型部署:我的「模型」對其他人變得有用——我的兄弟姐妹和鄰居依靠我的預測來做出決定。
儘管這聽起來很有趣,但童年時期的 NEPA 實驗是我第一次接觸資料科學。數據科學不僅僅是數字、圖表和演算法。這是關於解決現實世界的問題,就像我小時候對力量預測所做的那樣。是的,數據科學可能很複雜,但其核心是結構化的好奇心——我們所有人都擁有的好奇心。對我來說,這一切都是從 NEPA 和筆記本開始的。
隨著時間的推移,我們不僅會探索資料科學的不同概念和過程,還會探索我們可以解決的問題和我們可以創建的解決方案。無論是分析資料集或是尋找改善生活的見解,資料科學都是我們可以用來做出更好決策的工具。
讓我們一起深入研究 - 一次一個線索、一種模式和一個預測!
以上是孩子的好奇心:令人驚訝的數據科學基礎的詳細內容。更多資訊請關注PHP中文網其他相關文章!