大數據(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高成長率和多樣化的資訊資產。
在維克多·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有資料進行分析處理。大數據的5V特性(IBM提出):Volume(大量)、Velocity(高速)、Variety(多元)、Value(低價值密度)、Veracity(真實性)。
推薦課程:Python教學。
定義
大數據與雲端運算的關係
對於「大數據」(Big data)研究機構Gartner給出了這樣的定義。 「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應大量、高成長率和多樣化的資訊資產。
麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟體工具能力範圍的數據集合,具有海量的數據規模、快速的資料流轉、多樣的資料類型和價值密度低四大特徵。
大數據技術的策略意義不在於掌握龐大的資料訊息,而在於對這些含有意義的資料進行專業化處理。換而言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的“加工能力”,透過“加工”實現數據的“增值”。
從技術上來看,大數據與雲端運算的關係就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單一的電腦處理,必須採用分散式架構。它的特色在於對海量資料進行分散式資料探勘。但它必須依托雲端運算的分散式處理、分散式資料庫和雲端儲存、虛擬化技術。
隨著雲端時代的來臨,大數據(Big data)也吸引了越來越多的關注。分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關係型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲端運算連結在一起,因為即時的大型資料集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大數據的技術,包括大規模平行處理(MPP)資料庫、資料探勘、分散式檔案系統、分散式資料庫、雲端運算平台、網際網路和可擴展的儲存系統。
最小的基本單位是bit,依序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它們是依照進率1024(2的十次方)來計算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = MB 1 1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 104
##1 ZB = 1,024 EB = 140##1 ZB = 1,024 EB = 1414 048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB#= 1,02 NB = 1004#7, BB000
以上是大數據定義與概念的詳細內容。更多資訊請關注PHP中文網其他相關文章!