基本技術包括:1.資料收集,資料收集主要有4種來源,分別是管理資訊系統、Web資訊系統、實體資訊系統、科學實驗系統。 2、數據訪問。 3、基礎架構,例如雲端儲存、分散式文件儲存等。 4.資料處理,將不同資料集的資料收集、整理、清洗、轉換後,產生到一個新的資料集。 5、統計分析。 6、資料探勘。 7.模型預測,例如預測模型、機器學習、建模模擬。 8.結果呈現,例如雲端運算、標籤雲、關係圖等。
本文操作環境:Windows7系統,Dell G3電腦。
大數據的基本技術包括資料收集、資料存取、基礎架構、資料處理、統計分析、資料探勘、模型預測、結果呈現。
1、資料收集:在大數據的生命週期中,資料收集處於第一個環節。根據MapReduce產生資料的應用系統分類,大數據的收集主要有4種來源:管理資訊系統、Web資訊系統、物理資訊系統、科學實驗系統。
2、資料存取:大數據的存取採用不同的技術路線,大致可以分為3類。第1類主要面對的是大規模的結構化資料。第2類主要面對的是半結構化和非結構化資料。第3類面對的是結構化和非結構化混合的大數據,
3、基礎架構:雲端儲存、分散式檔案儲存等。
4、資料處理:對於收集到的不同的資料集,可能存在不同的結構和模式,如檔案、XML 樹、關聯表等,表現為資料的異質性。對多個異質的資料集,需要做進一步整合處理或整合處理,將不同資料集的資料收集、整理、清洗、轉換後,產生到一個新的資料集,為後續查詢和分析處理提供統一的數據視圖。
5、統計分析:假設檢定、顯著性檢定、差異分析、相關分析、T檢定、變異數分析、卡方分析、偏相關分析、距離分析、迴歸分析、簡單迴歸分析、多元迴歸分析、逐步迴歸、迴歸預測與殘差分析、嶺迴歸、logistic迴歸分析、曲線估計、因素分析、聚類分析、主成分分析、因素分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
6、資料探勘:目前,還需要改進已有資料探勘與機器學習技術;開發資料網路探勘、特異群組探勘、圖探勘等新型資料探勘技術;突破基於物件的資料連結、相似性連結等大數據融合技術;突破使用者興趣分析、網路行為分析、情緒語意分析等面向領域的大資料探勘技術。
7、模型預測:預測模型、機器學習、建模模擬。
8、結果呈現:雲端運算、標籤雲、關係圖等。
以上是大數據的基本技術包括哪些的詳細內容。更多資訊請關注PHP中文網其他相關文章!