大數據和海量數據的差異與聯繫是什麼-常見問題-PHP中文網

首頁

常見問題

大數據和海量數據的差異與聯繫是什麼

晓曦&sea

Jul 15, 2020 pm 06:02 PM

」大數據」包含」海量數據」的意義，並在內容上超越了海量數據，簡而言之，」大數據」是」海量數據」複雜類型的數據。大數據包括交易和互動資料集在內的所有資料集，其規模或複雜程度超出了常用技術按照合理的成本和時限捕捉、管理及處理這些資料集的能力。

大數據和海量數據的差異與聯繫是什麼

如果只是海量的結構性數據，那麼解決的辦法就比較的單一，用戶透過購買更多的儲存設備，提高儲存設備的效率等解決此類問題。然而，當人們發現資料庫中的資料可以分為三種類型：結構性資料、非結構性資料以及半結構性資料等複雜情況時，問題似乎就沒有那麼簡單了。

大數據洶湧來襲

當類型複雜的資料洶湧襲來，那麼對於使用者IT系統的衝擊又會是另外一種處理方式。許多業內專家和第三方調查機構透過一些市場調查數據發現，大數據時代即將到來。有調查發現，這些複雜數據中有85%的數據屬於廣泛存在於社群網路、物聯網、電子商務等之中的非結構化資料。這些非結構化資料的產生往往伴隨著社交網路、行動運算和感測器等新的管道和技術的不斷湧現和應用。

如今大數據的概念也存在著許多的炒作和大量的不確定性。為此，編者詳細向一些業內專家詳細了解有關方面的問題，請他們談一談，大數據是什麼和不是什麼，以及如何應對大數據等問題，將系列文章的形式與網友見面。

有人將多TB資料集也稱為」大數據」。根據市場研究公司IDC統計，數據使用量預計將成長44倍，全球數據使用量將達到約35.2ZB（1ZB
= 10億TB）。然而，單一資料集的檔案尺寸也將增加，導致對更大處理能力的需求以便分析和理解這些資料集。

EMC曾經表示，它的1000多個客戶在其陣列中使用1PB（千兆兆）以上的數據數據，這個數字到2020年將增長到10萬。有些客戶在一兩年內也將開始使用數千倍多的數據，1EB（1艾位元組
= 10億GB）或更多的數據。

對大企業而言，大數據的興起部分是因為運算能力可用更低的成本取得，且各類系統如今已能夠執行多工處理。其次，記憶體的成本也在直線下降，企業可以在記憶體中處理比以往更多的數據，另外是把電腦聚合成伺服器叢集越來越簡單。 IDC認為，這三大因素的結合便催生了大數據。同時，IDC也表示，某項技術要成為大數據技術，首先必須是成本可負擔的，其次是必須滿足IBM所描述的三個”V”判據中的兩個：多樣性（variety）、體量（volume）和速度（velocity）。

大數據與海量資料的差異

多樣性是指，資料應包含結構化的和非結構化的資料。

體積是指聚合在一起供分析的資料量必須是非常龐大的。

而速度則是指資料處理的速度必須很快。

大數據」並非總是說有數百個TB才算得上。根據實際使用情況，有時候數百個GB的數據也可稱為大數據，這主要要看它的第三個維度，也就是速度或時間維度。

Garter表示，全球資訊量正在以59%以上的年增長率成長，而量是在管理資料、業務方面的顯著挑戰，IT領袖必須專注在資訊量、種類和速度上。

量：企業系統內部的資料量的增加是由交易量、其它傳統資料類型和新的資料類型引發的。過多的量是一個儲存的問題，但過多的數據也是一個大量分析的問題。

種類：IT領袖在將大量的交易資訊轉化為決策上一直存在困擾– 現在有更多類型的信息需要分析–
主要來自社群媒體和行動（情境感知）。種類包括表格資料（資料庫）、分層資料、檔案、電子郵件、計量資料、影片、靜態影像、音訊、股票行情資料、金融交易和其它更多種類。

速度：這涉及到資料流、結構化記錄的創建，以及存取和交付的可用性。速度意味著正在被生成的資料有多快和資料必須被多快地處理以滿足需求。

雖然大數據是一個重大問題，Gartner分析師表示，真正的問題是讓大數據更有意義，在大數據裡面尋找模式幫助組織機構做出更好的商業決策。

諸子百家談如何定義」大數據」

儘管」Big Data」可以翻譯成大數據或海量數據，但大數據和海量數據是有區別的。

定義一：大數據= 海量資料複雜型別的資料

Informatica中國區首席產品顧問但彬認為：”大數據”包含了”海量數據”的含義，而且在內容上超越了海量數據，簡而言之，”大數據”是”海量數據” 複雜類型的數據。

但彬進一步指出：大數據包括交易和互動資料集在內的所有資料集，其規模或複雜程度超出了常用技術按照合理的成本和時限捕捉、管理及處理這些資料集的能力。

大數據是由三個主要技術趨勢匯聚組成：

海量交易数据：在从
ERP应用程序到数据仓库应用程序的在线交易处理（OLTP）与分析系统中，传统的关系数据以及非结构化和半结构化信息仍在继续增长。随着企业将更多的数据和业务流程移向公共和私有云，这一局面变得更加复杂。

海量交互数据：这一新生力量由源于
Facebook、Twitter、LinkedIn
及其它来源的社交媒体数据构成。它包括了呼叫详细记录（CDR）、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输（Manage
File Transfer）协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。

海量数据处理：大数据的涌现已经催生出了设计用于数据密集型处理的架构，例如具有开放源码、在商品硬件群中运行的
Apache Hadoop。对于企业来说，难题在于以具备成本效益的方式快速可靠地从 Hadoop 中存取数据。

定義二：大數據包含A、B、C三個要素

如何理解大數據？ NetApp
大中華區總經理陳文認為，大數據意味著透過更快取得資訊來讓做事情的方式變得與眾不同，並因此實現突破。大數據被定義為大量的資料（通常是非結構化），它要求我們重新思考如何儲存、管理和復原資料。那麼，多大才算大呢？考慮這個問題的一種方式是，它是如此之大，以至於我們今天所使用的任何工具都無法處理它，因此，如何消化數據並把它轉化成有價值的洞見和信息，這其中的關鍵就是轉變。

基於從客戶那裡了解的工作負載要求， NetApp所理解的大數據包括A、B、C三個要素：分析（Analytic），頻寬（Bandwidth）和內容（Content）。

1、大分析（Big Analytics），幫助獲得洞見–
指的是巨大資料集即時分析的要求，它能帶來新的業務模式，更好的客戶服務，並實現更好的結果。

2、高頻寬（Big Bandwidth），幫助走得更快 –
指的是處理極端高速的關鍵資料的要求。它支援快速有效地消化和處理大型數據集。

3、大內容（Big Content），不丟失任何資訊-
指的是對於安全性要求極高的高可擴展的數據存儲，並能夠輕鬆實現恢復。它支援可管理的資訊內容儲存庫、而不只是存放過久的數據，並且能夠跨越不同的大陸板塊。

大數據是一股突破性的經濟和技術力量，它為 IT
支援引入了新的基礎架構。大數據解決方案消除了傳統的運算和儲存的限制。借助於不斷增長的私密和公開數據，一種劃時代的新商業模式正在興起，它有望為大數據客戶帶來新的實質性的收入增長點以及富於競爭力的優勢。

以上是大數據和海量數據的差異與聯繫是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn