離線資料分析流程介紹

離線資料分析流程介紹

巴扎黑

Jun 26, 2017 am 11:33 AM

介紹數據分析流程

3. 離線資料分析流程介紹

註：本環節主要感受資料分析系統的宏觀概念及處理流程，初步理解hadoop等框架在其中的應用環節，不用過於關注程式碼細節

#一個應用廣泛的資料分析系統：「web日誌資料探勘」

3.1 需求分析

#3.1.1 案例名稱

「網站或APP點擊流日誌資料探勘系統」。

3.1.2 案例需求描述

「Web點擊流日誌」包含著網站運營很重要的信息，透過日誌分析，我們可以知道網站的訪問量，哪個網頁訪問人數最多，哪個網頁最有價值，廣告轉化率、訪客的來源信息，訪客的終端信息等。

3.1.3 資料來源

##本案例的資料主要由 使用者的點擊行為記錄

取得方式：在頁面預埋一段js程序，為頁面上想要監聽的標籤綁定事件，只要使用者點擊或移動到標籤，即可觸發ajax請求到後台servlet程序，用log4j記錄下事件訊息，從而在web伺服器（nginx、 tomcat等）上形成不斷增長的日誌檔案。

形狀如：

#3.2 資料處理流程

3.2.1 流程圖解析

本案例跟典型的BI系統極為類似，整體流程如下：

但是，由於本案例的前提是處理大量數據，因而，流程中各環節所使用的技術則跟傳統BI#完全不同，後續課程都會一一講解：

1) 資料收集：客製化開發採集程序，或使用開源框架FLUME

2) 資料預處理：客製開發mapreduce程式運行於hadoop叢集

3) 資料倉儲技術：基於hadoop之上的Hive

4) 資料匯出：基於hadoop的sqoop資料匯入匯出工具

5) 資料視覺化：客製開發web程式或使用kettle等產品

6) 整個過程的流程排程：hadoop生態圈中的oozie工具或其他類似開源產品

##

3.2.2 專案技術架構圖

#

3.2.3 專案相關截圖（感性認識，欣賞即可）

a) Mapreudce

程式運行

#

b)

在Hive中查詢資料

##

c)

將統計結果匯入

mysql

58.215.204.118 - - [18/Sep/2013:06: 51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"

##./sqoop export --connect jdbc:mysql://localhost:3306/weblogdb --username root --password root --table t_display_xx --export-dir /user/hive/warehouse/uv/dt=2014-08-03

#

#3.3

專案最終效果

經過完整的資料處理流程後，會週期性輸出各類別統計指標的報表，在生產實務中，最終需要將這些報表資料以視覺化的形式展現出來，本案例採用

web

程式來實作資料視覺化效果如下：

以上是離線資料分析流程介紹的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

如何將Maven或Gradle用於高級Java項目管理，構建自動化和依賴性解決方案？

如何將Maven或Gradle用於高級Java項目管理，構建自動化和依賴性解決方案？Mar 17, 2025 pm 05:46 PM

本文討論了使用Maven和Gradle進行Java項目管理，構建自動化和依賴性解決方案，以比較其方法和優化策略。

如何使用適當的版本控制和依賴項管理創建和使用自定義Java庫（JAR文件）？

如何使用適當的版本控制和依賴項管理創建和使用自定義Java庫（JAR文件）？Mar 17, 2025 pm 05:45 PM

本文使用Maven和Gradle之類的工具討論了具有適當的版本控制和依賴關係管理的自定義Java庫（JAR文件）的創建和使用。

如何使用咖啡因或Guava Cache等庫在Java應用程序中實現多層緩存？

如何使用咖啡因或Guava Cache等庫在Java應用程序中實現多層緩存？Mar 17, 2025 pm 05:44 PM

本文討論了使用咖啡因和Guava緩存在Java中實施多層緩存以提高應用程序性能。它涵蓋設置，集成和績效優勢，以及配置和驅逐政策管理最佳PRA

如何將JPA（Java持久性API）用於具有高級功能（例如緩存和懶惰加載）的對象相關映射？

如何將JPA（Java持久性API）用於具有高級功能（例如緩存和懶惰加載）的對象相關映射？Mar 17, 2025 pm 05:43 PM

本文討論了使用JPA進行對象相關映射，並具有高級功能，例如緩存和懶惰加載。它涵蓋了設置，實體映射和優化性能的最佳實踐，同時突出潛在的陷阱。[159個字符]

Java的類負載機制如何起作用，包括不同的類載荷及其委託模型？

Java的類負載機制如何起作用，包括不同的類載荷及其委託模型？Mar 17, 2025 pm 05:35 PM

Java的類上載涉及使用帶有引導，擴展程序和應用程序類負載器的分層系統加載，鏈接和初始化類。父代授權模型確保首先加載核心類別，從而影響自定義類LOA

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼（黃色晶體）

3 週前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳圖形設置

3 週前By尊渡假赌尊渡假赌尊渡假赌

刺客信條陰影：貝殼謎語解決方案

2 週前ByDDD

R.E.P.O.如果您聽不到任何人，如何修復音頻

3 週前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解鎖Myrise中的所有內容

4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序，非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具，幫助Web開發人員更好地理解保護網路應用程式的過程，並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞，難度各不相同。請注意，該軟體中

EditPlus 中文破解版

EditPlus 中文破解版

體積小，語法高亮，不支援程式碼提示功能

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具，用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境，安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問，並防止學生使用未經授權的資源。

熱門話題

gmail信箱登陸入口在哪裡

7493

15

1377

52

steam的賬戶名稱是什麼格式

77

11

win11激活密鑰永久

52

19

NYT連接提示和答案

19

41