搜尋
首頁常見問題大數據的核心就是什麼
大數據的核心就是什麼Mar 26, 2021 pm 02:54 PM
大數據

大數據的核心就是預測。大數據的本質是解決問題,大數據的核心價值就在於預測;大數據是把數學演算法運用到海量的數據上來預測事情發生的可能性;大數據預測是基於大數據和預測模型去預測未來某件事情的機率。

大數據的核心就是什麼

本教學操作環境:windows7系統、Dell G3電腦。

大數據的核心就是預測。它通常被視為人工智慧的一部分,或者更確切地說,被視為一種機器學習。但是這種定義是有誤導性的。大數據不是要教機器像人一樣思考。

相反,它是把數學演算法運用到海量的資料上來預測事情發生的可能性。一封郵件被當作垃圾郵件過濾掉的可能性,輸入的「teh」應該是「the」的可能性,從一個人亂穿馬路時行進的軌跡和速度來看他能及時穿過馬路的可能性,都是大數據可以預測的範圍。當然,如果一個人能及時穿過馬路,那麼他亂穿馬路時,車子就只需要稍微減速就好。這些預測系統之所以能夠成功,關鍵在於它們是建立在海量資料的基礎上的。此外,隨著系統接收到的資料越來越多,它們可以聰明到自動搜尋最好的訊號和模式,並自己改善自己。

大數據預測(大數據核心應用)

#大數據預測是大數據最核心的應用,它將傳統意義的預測拓展到「現測」。大數據預測的優勢體現在,它把一個非常困難的預測問題,轉化為一個相對簡單的描述問題,而這是傳統小數據集根本無法企及的。從預測的角度來看,大數據預測所得出的結果不僅是用來處理現實業務的簡單、客觀的結論,更是能用來幫助企業經營的決策。

1. 預測是大數據的核心價值

大數據的本質是解決問題,大數據的核心價值就在於預測,而企業經營的核心也是基於預測而做出正確判斷。在談論大數據應用時,最常見的應用案例就是「預測股市」「預測流感」「預測消費者行為」等。

大數據預測則是基於大數據和預測模型去預測未來某件事情的機率。讓分析從「面向已經發生的過去」轉向「面向即將發生的未來」是大數據與傳統數據分析的最大差異。

大數據預測的邏輯基礎是,每一種非常規的變化事前一定有徵兆,每一件事情都有跡可循,如果找到了徵兆與變化之間的規律,就可以進行預測。大數據預測無法確定某件事情必然會發生,它比較是給予一個事件會發生的機率。

實驗的不斷反覆、大數據的日漸累積讓人類不斷發現各種規律,從而能夠預測未來。利用大數據預測可能的災難,利用大數據分析癌症可能的引發原因並找出治療方法,都是未來能夠惠及人類的事業。

例如,大數據曾被洛杉磯警察局和加州大學合作用於預測犯罪的發生;Google 流感趨勢利用搜尋關鍵字預測禽流感的散佈;麻省理工學院利用手機定位數據和交通數據進行都市規劃;氣象局透過整理近期的氣象狀況和衛星雲圖,更精確地判斷未來的天氣狀況。

2. 大數據預測的思維改變

在過去,人們的決策主要是依賴20% 的結構化數據,而大數據預測則可以利用另外80% 的非結構化資料來做決策。大數據預測具有更多的資料維度,更快的資料頻度和更廣的資料寬度。與小數據時代相比,大數據預測的思考有 3 大改變:實樣而非抽樣;預測效率而非精確;相關關係而非因果關係。

1)實樣而非抽樣

在小數據時代,由於缺乏獲取全體樣本的手段,人們發明了「隨機研究資料」的方法。理論上,抽取樣本越隨機,就越能代表整體樣本。但問題是取得一個隨機樣本的代價極高,而且很費時。人口調查就是一個典型例子,一個國家很難做到每年都完成一次人口調查,因為隨機調查實在是太耗時耗力,然而雲端運算和大數據技術的出現,使得獲取足夠大的樣本數據乃至全體數據成為可能。

2)效率而非精確

小數據時代由於使用抽樣的方法,所以需要在資料樣本的具體運算上非常精確,否則就會「差之毫釐,失之千里」。例如,在一個總樣本為 1 億的人口中隨機抽取 1000 人進行人口調查,如果在 1000 人上的運算出現錯誤,那麼放大到 1 億中時,偏差將會很大。但在全樣本的情況下,有多少偏差就是多少偏差,而不會被放大。

在大數據時代,快速獲得一個大概的輪廓和發展脈絡,比嚴格的精確性重要得多。有時候,當掌握了大量新型數據時,精確性就不那麼重要了,因為我們仍然可以掌握事情的發展趨勢。大數據基礎上的簡單演算法比小數據基礎上的複雜演算法更有效。資料分析的目的並非就是資料分析,而是用於決策,故而時效性也非常重要。

3)相關性而非因果關係

大數據研究不同於傳統的邏輯推理研究,它需要對數量龐大的資料做統計性的搜尋、比較、聚類、分類等分析歸納,並關注資料的相關性或稱關聯性。相關性是指兩個或兩個以上變數的取值之間存在某種規律性。相關性沒有絕對,只有可能性。但是,如果相關性強,則一個相關性成功的機率是很高的。

相關性可以幫助我們捕捉現在和預測未來。如果 A 和 B 經常一起發生,則我們只需要注意到 B 發生了,就可以預測 A 也發生了。

根據相關性,我們理解世界不再需要建立在假設的基礎上,這個假設是指針對現象建立的有關其產生機制和內在機理的假設。因此,我們也不需要建立這樣的假設,即哪些檢索詞條可以表示流感在何時何地傳播;航空公司怎樣給機票定價;沃爾瑪的顧客的烹飪喜好是什麼。取而代之的是,我們可以對大數據進行相關性分析,從而知道哪些檢索詞條是最能顯示流感的傳播的,飛機票的價格是否會飛漲,哪些食物是颶風期間待在家裡的人最想吃的。

數據驅動的關於大數據的相關性分析法,取代了基於假想的易出錯的方法。大數據的相關性分析法更準確、更快,而且不易受偏見的影響。建立在相關性分析法基礎上的預測是大數據的核心。

相關性分析本身的意義重大,同時它也為研究因果關係奠定了基礎。透過找出可能相關的事物,我們可以在此基礎上進行進一步的因果關係分析。如果存在因果關係,則再進一步找出原因。這種便捷的機制透過嚴格的實驗降低了因果分析的成本。我們也可以從相互聯繫中找到一些重要的變量,這些變量可以用到驗證因果關係的實驗中去。

3. 大數據預測的典型應用領域

互聯網為大數據預測應用的普及帶來了便利條件,結合國內外案例來看,以下11個領域是最有機會的大數據預測應用領域。

1)天氣預報

天氣預報是典型的大數據預測應用領域。天氣預報粒度已經從天縮短到小時,有嚴苛的時效要求。如果基於海量資料以傳統方式進行計算,則得出結論時明天早已到來,預測並無價值,而大數據技術的發展則提供了高速運算能力,大大提高了天氣預報的實效性和準確性。

2)體育賽事預測

2014 年世界盃期間,Google、百度、微軟和高盛等公司都推出了比賽結果預測平台。百度的預測結果最為亮眼,全程 64 場比賽的預測準確率為 67%,進入淘汰賽後準確率為 94%。這意味著未來的體育賽事會被大數據預測所掌控。

Google 世界盃預測是基於 Opta Sports 的海量賽事資料來建立最終的預測模型的。百度則是透過搜尋過去5 年內全世界987 支球隊(含國家隊和俱樂部隊)的3.7 萬場比賽數據,

同時與中國彩票網站樂彩網、歐洲必發指數數據供應商SPdex 進行數據合作,導入博彩市場的預測數據,建立了一個囊括199 972 名球員和1.12 億條數據的預測模型,並在此基礎上進行結果預測。

從網路公司的成功經驗來看,只要有體育賽事歷史數據,並且與指數公司進行合作,便可以進行其他賽事的預測,如歐冠、NBA 等賽事。

3)股票市場預測

去年,英國華威商學院和美國波士頓大學物理系的研究發現,用戶透過Google 搜尋的金融關鍵字或許可以預測金融市場的走向,相應的投資策略收益高達326%。此前有專家嘗試透過 Twitter 博文情緒來預測股市波動。

4)市場物價預測

CPI 用來表徵已經發生的物價浮動情況,但統計局的數據並不權威。大數據則可能幫助人們了解未來物價的走向,提前預測通貨膨脹或經濟危機。最典型的案例莫過於馬雲透過阿里 B2B 大數據提前得知亞洲金融危機。

單一商品的價格預測更容易,尤其是機票這樣的標準化產品,「去哪裡」提供的「機票日曆」就是價格預測,它能告知你幾個月後機票的大概價位。

由於商品的生產、通路成本和大概毛利在充分競爭的市場中是相對穩定的,與價格相關的變數是相對固定的,商品的供需關係在電子商務平台上可即時監控,因此價格可以預測。基於預測結果可提供購買時間建議,或指導商家進行動態價格調整和行銷活動以實現利益最大化。

5)使用者行為預測

基於使用者搜尋行為、瀏覽行為、評論歷史和個人資料等數據,網路業務可以洞察消費者的整體需求,進而進行針對性的產品生產、改進和行銷。 《紙牌屋》選擇演員和劇情,百度基於用戶喜好進行精準廣告行銷,阿里根據天貓用戶特徵包下生產線定制產品,Amazon 預測用戶點擊行為提前發貨均受益於互聯網用戶行為預測。如圖 1 所示。

大數據的核心就是什麼
圖 1  使用者行為預測

受益於感測器技術和物聯網的發展,線下的使用者行為洞察正在醞釀。免費商用 Wi-Fi,iBeacon 技術、攝影機影像監控、室內定位技術、NFC 感測器網路、排隊叫號系統,可以探知用戶線下的移動、停留、出行規律等數據,從而進行精準行銷或產品客製化。

6)人體健康預測

中醫可以透過望聞問切的手段發現一些人體內隱藏的慢性病,​​甚至透過看體質便可知曉一個人將來可能會出現什麼症狀。人體徵兆變化有一定規律,而慢性病發生前人體已經會有一些持續性異常。理論上來說,如果大數據掌握了這樣的異常情況,便可以進行慢性病預測。

Nature 新聞與觀點報導 Zeevi 等人的研究,即一個人的血糖濃度如何受特定的食物影響的複雜問題。該研究根據腸道中的微生物和其他方面的生理狀況,提岀了一種可以提供個人化的食物建議的預測模型,比目前的標準能更準確地預測血糖反應。如圖 2 所示。

大數據的核心就是什麼
圖 2  血糖濃度預測模型

智慧硬體使慢性病的大數據預測變成可能。穿戴式裝置和智慧型健康設備可協助網路收集人體健康數據,如心率、體重、血脂、血糖、運動量、睡眠量等狀況。如果這些數據夠精準、全面,並且有可以形成演算法的慢性病預測模式,或許未來這些穿戴裝置就會提醒用戶身體罹患某種慢性病的風險。

7)疾病疫情預測

疾病疫情預測是指基於人們的搜尋狀況、購物行為預測大面積疫情爆發的可能性,最經典的「流感預測」便屬於此類。如果來自某個區域的「流感」「板藍根」搜尋需求越來越多,自然可以推測該處有流感趨勢。

百度已經推出了疾病預測產品,目前可以就流感、肝炎、肺結核、性病這四種疾病,對全國每一個省份以及大多數地級市和區縣的活躍度、趨勢圖等情況,進行全面的監控。未來,百度疾病預測監控的疾病種類將從目前的 4 種擴展到 30 多種,涵蓋更多常見的疾病和流行病。使用者可以根據當地的預測結果進行針對性的預防。

8)災害災難預測

氣象預測是最典型的災難災害預測。地震、洪澇、高溫、暴雨這些天災如果可以利用大數據的能力進行更提前的預測和告知,便有助於減災、防災、救災、趙災。與過往不同的是,過去的數據收集方式存在著有死角、成本高等問題,而在物聯網時代,人們可以藉助廉價的傳感器攝像頭和無線通信網絡,進行實時的數據監控收集,再利用大數據預測分析,做到更精準的自然災害預測。

9)環境變遷預測

除了進行短時間微觀的天氣、災害預測之外,還可以進行更長期且宏觀的環境和生態變遷預測。森林和農田面積縮小,野生動物植物瀕危,海岸線上升,溫室效應這些問題是地球面臨的「慢性問題」。人類知道越多地球生態系統以及天氣形態變化的數據,就越容易模型化未來環境的變遷,進而阻止不好的轉變發生。大數據可幫助人類收集、儲存和挖掘更多的地球數據,同時也提供了預測的工具。

10)交通行為預測

交通行為預測是指基於使用者和車輛的 LBS 定位數據,分析人車出行的個體和群體特徵,進行交通行為的預測。交通部門可透過預測不同時點、不同道路的車流量,來進行智慧的車輛調度,或應用潮汐車道;使用者則可根據預測結果選擇壅塞機率更低的道路。

百度基於地圖應用的 LBS 預測涵蓋範圍更廣。它在春運期間可預測人們的遷徙趨勢來指導火車線路和航線的設置,在假日可預測景點的人流量來指導人們的景區選擇,平時還有百度熱力學圖來告訴用戶城市商圈、動物園等地點的人流情況,從而指導用戶出行選擇和商家的選點選址。

11)能源消耗預測

力口州電網系統營運中心管理加州超過80% 的電網,向3,500 萬用戶每年輸送2.89 億兆瓦電力,電力線長度超過40 000千米。該中心採用了Space-Time Insight 的軟體進行智慧管理,綜合分析來自天氣、感測器、計量設備等各種數據來源的大量數據,預測各地的能源需求變化,進行智慧電能調度,平衡全網的電力供應和需求,並對潛在危機做出快速反應。中國智慧電網產業已在嘗試類似的大數據預測應用。

除了上面列舉的11 個領域之外,大數據預測還可被應用在房地產預測、就業狀況預測、高考分數線預測、選舉結果預測、奧斯卡大獎預測、保險投保者風險評估、金融借貸者還款能力評估等領域,讓人類具備可量化、有說服力、可驗證的洞察未來的能力,大數據預測的魅力正在釋放出來。

更多相關知識,請造訪常見問題欄位!

以上是大數據的核心就是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
在 Microsoft Excel 中如何创建数据透视表在 Microsoft Excel 中如何创建数据透视表Apr 22, 2023 pm 12:10 PM

当您拥有大量数据时,分析数据通常会变得越来越困难。但真的必须如此吗?MicrosoftExcel提供了一个令人惊叹的内置功能,称为数据透视表,可用于轻松分析庞大的数据块。它们可用于通过创建您自己的自定义报告来有效地汇总您的数据。它们可用于自动计算列的总和,可以对其应用过滤器,可以对其中的数据进行排序等。可以对数据透视表执行的操作以及如何使用数据透视表为了缓解您的日常excel障碍是无止境的。继续阅读,了解如何轻松创建数据透视表并了解如何有效组织它。希望你喜欢阅读这篇文章。第1节:什么是数据透视

如何阻止 Apple 在 iPhone 上收集诊断和使用数据如何阻止 Apple 在 iPhone 上收集诊断和使用数据Apr 16, 2023 pm 09:25 PM

苹果以其对用户隐私的承诺而闻名。当您购买iPhone或Mac时,您知道您正在投资一家承诺保护您的数据的公司的产品。这在我们这个时代非常重要——因为我们越来越多地将更多的个人信息存储在这些设备上。我们使用的大多数设备都会收集使用数据以改进相应的产品和服务。例如,当应用程序在您的手机上崩溃时,可以通知开发人员以帮助他们查明此错误的原因。虽然这些数据通常是匿名的,但一些用户不喜欢让公司收集他们的日志。此外,通过共享这些诊断信息,您的设备会将它们上传到公司的服务器。这可能会耗尽您的(有限)数据计划和部分

如何用零替换 Excel 数据透视表中的空白单元格如何用零替换 Excel 数据透视表中的空白单元格Apr 15, 2023 am 11:52 AM

了COLUMNS部分下的字段Item、ROWS部分下的字段Date和VALUES部分下的Profit字段。注意:如果您需要有关数据透视表如何工作以及如何有效地创建数据透视表的更多信息,请参阅我们的文章如何在MicrosoftExcel中创建数据透视表。因此,根据我的选择,我的数据透视表生成如下面的屏幕截图所示,使其成为我想要的完美摘要报告。但是,如果您查看数据透视表,您会发现我的数据透视表中有一些空白单元格。现在,让我们在接下来的步骤中将它们替换为零。第6步:要用零替换空白单元格,首先右键单击数

AI 算法在大数据治理中的应用AI 算法在大数据治理中的应用Apr 12, 2023 pm 01:37 PM

本文主要分享 Datacake 在大数据治理中,AI 算法的应用经验。本次分享分为五大部分:第一部分阐明大数据与 AI 的关系,大数据不仅可以服务于 AI,也可以使用 AI 来优化自身服务,两者是互相支撑、依赖的关系;第二部分介绍利用 AI 模型综合评估大数据任务健康度的应用实践,为后续开展数据治理提供量化依据;第三部分介绍利用 AI 模型智能推荐 Spark 任务运行参数配置的应用实践,实现了提高云资源利用率的目标;第四部分介绍在 SQL 查询场景中,由模型智能推荐任务执行引擎的实践;第五部分

大数据在生活中的应用有哪些大数据在生活中的应用有哪些Sep 22, 2021 am 10:48 AM

大数据在生活中的应用有:1、农业互联网;2、金融业互联网;3、电子商务;4、医疗器械行业;5、零售业大数据;6、生物科技等。

如何在 Microsoft Excel 图表中添加和自定义数据标签?如何在 Microsoft Excel 图表中添加和自定义数据标签?May 07, 2023 pm 04:22 PM

Microsoft Excel有许多至今令人们惊叹的功能。人们每天都会学到一些新东西。今天,我们将了解如何在Excel图表中添加和自定义数据标签。Excel图表包含大量数据,一眼看懂图表可能具有挑战性。使用数据标签是指出重要信息的好方法。数据标签可以用作柱形图或条形图的一部分。当您创建饼图时,它甚至可以用作标注。添加数据标签为了展示如何添加数据标签,我们将以饼图为例。虽然大多数人使用图例来显示饼图中的内容,但数据标签的效率要高得多。要添加数据标签,请创建饼图。打开它,然后单击显示图表设计

腾讯广告模型基于"太极"的训练成本优化实践腾讯广告模型基于"太极"的训练成本优化实践Apr 14, 2023 pm 06:46 PM

近年来,大数据加大模型成为了AI领域建模的标准范式。在广告场景,大模型由于使用了更多的模型参数,利用更多的训练数据,模型具备了更强的记忆能力和泛化能力,为广告效果向上提升打开了更大的空间。但是大模型在训练过程中所需要的资源也是成倍的增长,存储以及计算上的压力对机器学习平台都是巨大的挑战。腾讯太极机器学习平台持续探索降本增效方案,在广告离线训练场景利用混合部署资源大大降低了资源成本,每天为腾讯广告提供50W核心廉价混合部署资源,帮助腾讯广告离线模型训练资源成本降低30%,同时通过一系列优化手段使得

如何使用 Go 语言进行大数据分析?如何使用 Go 语言进行大数据分析?Jun 11, 2023 am 11:11 AM

随着数据规模逐渐增大,大数据分析变得越来越重要。而Go语言作为一门快速、轻量级的编程语言,也成为了越来越多数据科学家和工程师的选择。本文将介绍如何使用Go语言进行大数据分析。数据采集在开始大数据分析之前,我们需要先采集数据。Go语言有很多包可以用于数据采集,例如“net/http”、“io/ioutil”等。通过这些包,我们可以从网站、API、日志

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器