首頁 >常見問題 >大數據的核心就是什麼

大數據的核心就是什麼

青灯夜游
青灯夜游原創
2021-03-26 14:54:4831456瀏覽

大數據的核心就是預測。大數據的本質是解決問題,大數據的核心價值就在於預測;大數據是把數學演算法運用到海量的數據上來預測事情發生的可能性;大數據預測是基於大數據和預測模型去預測未來某件事情的機率。

大數據的核心就是什麼

本教學操作環境:windows7系統、Dell G3電腦。

大數據的核心就是預測。它通常被視為人工智慧的一部分,或者更確切地說,被視為一種機器學習。但是這種定義是有誤導性的。大數據不是要教機器像人一樣思考。

相反,它是把數學演算法運用到海量的資料上來預測事情發生的可能性。一封郵件被當作垃圾郵件過濾掉的可能性,輸入的「teh」應該是「the」的可能性,從一個人亂穿馬路時行進的軌跡和速度來看他能及時穿過馬路的可能性,都是大數據可以預測的範圍。當然,如果一個人能及時穿過馬路,那麼他亂穿馬路時,車子就只需要稍微減速就好。這些預測系統之所以能夠成功,關鍵在於它們是建立在海量資料的基礎上的。此外,隨著系統接收到的資料越來越多,它們可以聰明到自動搜尋最好的訊號和模式,並自己改善自己。

大數據預測(大數據核心應用)

#大數據預測是大數據最核心的應用,它將傳統意義的預測拓展到「現測」。大數據預測的優勢體現在,它把一個非常困難的預測問題,轉化為一個相對簡單的描述問題,而這是傳統小數據集根本無法企及的。從預測的角度來看,大數據預測所得出的結果不僅是用來處理現實業務的簡單、客觀的結論,更是能用來幫助企業經營的決策。

1. 預測是大數據的核心價值

大數據的本質是解決問題,大數據的核心價值就在於預測,而企業經營的核心也是基於預測而做出正確判斷。在談論大數據應用時,最常見的應用案例就是「預測股市」「預測流感」「預測消費者行為」等。

大數據預測則是基於大數據和預測模型去預測未來某件事情的機率。讓分析從「面向已經發生的過去」轉向「面向即將發生的未來」是大數據與傳統數據分析的最大差異。

大數據預測的邏輯基礎是,每一種非常規的變化事前一定有徵兆,每一件事情都有跡可循,如果找到了徵兆與變化之間的規律,就可以進行預測。大數據預測無法確定某件事情必然會發生,它比較是給予一個事件會發生的機率。

實驗的不斷反覆、大數據的日漸累積讓人類不斷發現各種規律,從而能夠預測未來。利用大數據預測可能的災難,利用大數據分析癌症可能的引發原因並找出治療方法,都是未來能夠惠及人類的事業。

例如,大數據曾被洛杉磯警察局和加州大學合作用於預測犯罪的發生;Google 流感趨勢利用搜尋關鍵字預測禽流感的散佈;麻省理工學院利用手機定位數據和交通數據進行都市規劃;氣象局透過整理近期的氣象狀況和衛星雲圖,更精確地判斷未來的天氣狀況。

2. 大數據預測的思維改變

在過去,人們的決策主要是依賴20% 的結構化數據,而大數據預測則可以利用另外80% 的非結構化資料來做決策。大數據預測具有更多的資料維度,更快的資料頻度和更廣的資料寬度。與小數據時代相比,大數據預測的思考有 3 大改變:實樣而非抽樣;預測效率而非精確;相關關係而非因果關係。

1)實樣而非抽樣

在小數據時代,由於缺乏獲取全體樣本的手段,人們發明了「隨機研究資料」的方法。理論上,抽取樣本越隨機,就越能代表整體樣本。但問題是取得一個隨機樣本的代價極高,而且很費時。人口調查就是一個典型例子,一個國家很難做到每年都完成一次人口調查,因為隨機調查實在是太耗時耗力,然而雲端運算和大數據技術的出現,使得獲取足夠大的樣本數據乃至全體數據成為可能。

2)效率而非精確

小數據時代由於使用抽樣的方法,所以需要在資料樣本的具體運算上非常精確,否則就會「差之毫釐,失之千里」。例如,在一個總樣本為 1 億的人口中隨機抽取 1000 人進行人口調查,如果在 1000 人上的運算出現錯誤,那麼放大到 1 億中時,偏差將會很大。但在全樣本的情況下,有多少偏差就是多少偏差,而不會被放大。

在大數據時代,快速獲得一個大概的輪廓和發展脈絡,比嚴格的精確性重要得多。有時候,當掌握了大量新型數據時,精確性就不那麼重要了,因為我們仍然可以掌握事情的發展趨勢。大數據基礎上的簡單演算法比小數據基礎上的複雜演算法更有效。資料分析的目的並非就是資料分析,而是用於決策,故而時效性也非常重要。

3)相關性而非因果關係

大數據研究不同於傳統的邏輯推理研究,它需要對數量龐大的資料做統計性的搜尋、比較、聚類、分類等分析歸納,並關注資料的相關性或稱關聯性。相關性是指兩個或兩個以上變數的取值之間存在某種規律性。相關性沒有絕對,只有可能性。但是,如果相關性強,則一個相關性成功的機率是很高的。

相關性可以幫助我們捕捉現在和預測未來。如果 A 和 B 經常一起發生,則我們只需要注意到 B 發生了,就可以預測 A 也發生了。

根據相關性,我們理解世界不再需要建立在假設的基礎上,這個假設是指針對現象建立的有關其產生機制和內在機理的假設。因此,我們也不需要建立這樣的假設,即哪些檢索詞條可以表示流感在何時何地傳播;航空公司怎樣給機票定價;沃爾瑪的顧客的烹飪喜好是什麼。取而代之的是,我們可以對大數據進行相關性分析,從而知道哪些檢索詞條是最能顯示流感的傳播的,飛機票的價格是否會飛漲,哪些食物是颶風期間待在家裡的人最想吃的。

數據驅動的關於大數據的相關性分析法,取代了基於假想的易出錯的方法。大數據的相關性分析法更準確、更快,而且不易受偏見的影響。建立在相關性分析法基礎上的預測是大數據的核心。

相關性分析本身的意義重大,同時它也為研究因果關係奠定了基礎。透過找出可能相關的事物,我們可以在此基礎上進行進一步的因果關係分析。如果存在因果關係,則再進一步找出原因。這種便捷的機制透過嚴格的實驗降低了因果分析的成本。我們也可以從相互聯繫中找到一些重要的變量,這些變量可以用到驗證因果關係的實驗中去。

3. 大數據預測的典型應用領域

互聯網為大數據預測應用的普及帶來了便利條件,結合國內外案例來看,以下11個領域是最有機會的大數據預測應用領域。

1)天氣預報

天氣預報是典型的大數據預測應用領域。天氣預報粒度已經從天縮短到小時,有嚴苛的時效要求。如果基於海量資料以傳統方式進行計算,則得出結論時明天早已到來,預測並無價值,而大數據技術的發展則提供了高速運算能力,大大提高了天氣預報的實效性和準確性。

2)體育賽事預測

2014 年世界盃期間,Google、百度、微軟和高盛等公司都推出了比賽結果預測平台。百度的預測結果最為亮眼,全程 64 場比賽的預測準確率為 67%,進入淘汰賽後準確率為 94%。這意味著未來的體育賽事會被大數據預測所掌控。

Google 世界盃預測是基於 Opta Sports 的海量賽事資料來建立最終的預測模型的。百度則是透過搜尋過去5 年內全世界987 支球隊(含國家隊和俱樂部隊)的3.7 萬場比賽數據,

同時與中國彩票網站樂彩網、歐洲必發指數數據供應商SPdex 進行數據合作,導入博彩市場的預測數據,建立了一個囊括199 972 名球員和1.12 億條數據的預測模型,並在此基礎上進行結果預測。

從網路公司的成功經驗來看,只要有體育賽事歷史數據,並且與指數公司進行合作,便可以進行其他賽事的預測,如歐冠、NBA 等賽事。

3)股票市場預測

去年,英國華威商學院和美國波士頓大學物理系的研究發現,用戶透過Google 搜尋的金融關鍵字或許可以預測金融市場的走向,相應的投資策略收益高達326%。此前有專家嘗試透過 Twitter 博文情緒來預測股市波動。

4)市場物價預測

CPI 用來表徵已經發生的物價浮動情況,但統計局的數據並不權威。大數據則可能幫助人們了解未來物價的走向,提前預測通貨膨脹或經濟危機。最典型的案例莫過於馬雲透過阿里 B2B 大數據提前得知亞洲金融危機。

單一商品的價格預測更容易,尤其是機票這樣的標準化產品,「去哪裡」提供的「機票日曆」就是價格預測,它能告知你幾個月後機票的大概價位。

由於商品的生產、通路成本和大概毛利在充分競爭的市場中是相對穩定的,與價格相關的變數是相對固定的,商品的供需關係在電子商務平台上可即時監控,因此價格可以預測。基於預測結果可提供購買時間建議,或指導商家進行動態價格調整和行銷活動以實現利益最大化。

5)使用者行為預測

基於使用者搜尋行為、瀏覽行為、評論歷史和個人資料等數據,網路業務可以洞察消費者的整體需求,進而進行針對性的產品生產、改進和行銷。 《紙牌屋》選擇演員和劇情,百度基於用戶喜好進行精準廣告行銷,阿里根據天貓用戶特徵包下生產線定制產品,Amazon 預測用戶點擊行為提前發貨均受益於互聯網用戶行為預測。如圖 1 所示。

大數據的核心就是什麼
圖 1  使用者行為預測

受益於感測器技術和物聯網的發展,線下的使用者行為洞察正在醞釀。免費商用 Wi-Fi,iBeacon 技術、攝影機影像監控、室內定位技術、NFC 感測器網路、排隊叫號系統,可以探知用戶線下的移動、停留、出行規律等數據,從而進行精準行銷或產品客製化。

6)人體健康預測

中醫可以透過望聞問切的手段發現一些人體內隱藏的慢性病,​​甚至透過看體質便可知曉一個人將來可能會出現什麼症狀。人體徵兆變化有一定規律,而慢性病發生前人體已經會有一些持續性異常。理論上來說,如果大數據掌握了這樣的異常情況,便可以進行慢性病預測。

Nature 新聞與觀點報導 Zeevi 等人的研究,即一個人的血糖濃度如何受特定的食物影響的複雜問題。該研究根據腸道中的微生物和其他方面的生理狀況,提岀了一種可以提供個人化的食物建議的預測模型,比目前的標準能更準確地預測血糖反應。如圖 2 所示。

大數據的核心就是什麼
圖 2  血糖濃度預測模型

智慧硬體使慢性病的大數據預測變成可能。穿戴式裝置和智慧型健康設備可協助網路收集人體健康數據,如心率、體重、血脂、血糖、運動量、睡眠量等狀況。如果這些數據夠精準、全面,並且有可以形成演算法的慢性病預測模式,或許未來這些穿戴裝置就會提醒用戶身體罹患某種慢性病的風險。

7)疾病疫情預測

疾病疫情預測是指基於人們的搜尋狀況、購物行為預測大面積疫情爆發的可能性,最經典的「流感預測」便屬於此類。如果來自某個區域的「流感」「板藍根」搜尋需求越來越多,自然可以推測該處有流感趨勢。

百度已經推出了疾病預測產品,目前可以就流感、肝炎、肺結核、性病這四種疾病,對全國每一個省份以及大多數地級市和區縣的活躍度、趨勢圖等情況,進行全面的監控。未來,百度疾病預測監控的疾病種類將從目前的 4 種擴展到 30 多種,涵蓋更多常見的疾病和流行病。使用者可以根據當地的預測結果進行針對性的預防。

8)災害災難預測

氣象預測是最典型的災難災害預測。地震、洪澇、高溫、暴雨這些天災如果可以利用大數據的能力進行更提前的預測和告知,便有助於減災、防災、救災、趙災。與過往不同的是,過去的數據收集方式存在著有死角、成本高等問題,而在物聯網時代,人們可以藉助廉價的傳感器攝像頭和無線通信網絡,進行實時的數據監控收集,再利用大數據預測分析,做到更精準的自然災害預測。

9)環境變遷預測

除了進行短時間微觀的天氣、災害預測之外,還可以進行更長期且宏觀的環境和生態變遷預測。森林和農田面積縮小,野生動物植物瀕危,海岸線上升,溫室效應這些問題是地球面臨的「慢性問題」。人類知道越多地球生態系統以及天氣形態變化的數據,就越容易模型化未來環境的變遷,進而阻止不好的轉變發生。大數據可幫助人類收集、儲存和挖掘更多的地球數據,同時也提供了預測的工具。

10)交通行為預測

交通行為預測是指基於使用者和車輛的 LBS 定位數據,分析人車出行的個體和群體特徵,進行交通行為的預測。交通部門可透過預測不同時點、不同道路的車流量,來進行智慧的車輛調度,或應用潮汐車道;使用者則可根據預測結果選擇壅塞機率更低的道路。

百度基於地圖應用的 LBS 預測涵蓋範圍更廣。它在春運期間可預測人們的遷徙趨勢來指導火車線路和航線的設置,在假日可預測景點的人流量來指導人們的景區選擇,平時還有百度熱力學圖來告訴用戶城市商圈、動物園等地點的人流情況,從而指導用戶出行選擇和商家的選點選址。

11)能源消耗預測

力口州電網系統營運中心管理加州超過80% 的電網,向3,500 萬用戶每年輸送2.89 億兆瓦電力,電力線長度超過40 000千米。該中心採用了Space-Time Insight 的軟體進行智慧管理,綜合分析來自天氣、感測器、計量設備等各種數據來源的大量數據,預測各地的能源需求變化,進行智慧電能調度,平衡全網的電力供應和需求,並對潛在危機做出快速反應。中國智慧電網產業已在嘗試類似的大數據預測應用。

除了上面列舉的11 個領域之外,大數據預測還可被應用在房地產預測、就業狀況預測、高考分數線預測、選舉結果預測、奧斯卡大獎預測、保險投保者風險評估、金融借貸者還款能力評估等領域,讓人類具備可量化、有說服力、可驗證的洞察未來的能力,大數據預測的魅力正在釋放出來。

更多相關知識,請造訪常見問題欄位!

以上是大數據的核心就是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn