首頁 >Java >java教程 >java 大數據學什麼內容

java 大數據學什麼內容

(*-*)浩
(*-*)浩原創
2019-05-27 14:30:223537瀏覽

Java大數據的學習流程。

java 大數據學什麼內容

第一階段:靜態網頁基礎(HTML CSS)

1.難易度:一顆星

2.技術知識點階段專案任務綜合能力

3.主要技術包括:

html常用標籤、CSS常見佈局、樣式、定位等、靜態頁面的設計製作方式等等

第二階段:JavaSE JavaWeb

1.難易度:兩顆星

2.技術知識點階段專案任務綜合能力

3.主要技術包括:

java基礎語法、java物件導向(類別、物件、封裝、繼承、多型、抽象類別、介面、常見類別、內部類別、常見修飾符等)、例外、集合、檔案、IO、MYSQL(基本SQL語句操作、多表查詢、子查詢、預存程序、事務、分散式事務)、JDBC、執行緒、反射、Socket程式設計、枚舉、泛型、設計模式

4.描述如下:

稱為Java基礎,由淺入深的技術點、真實商業專案模組分析、多種儲存方式的設計與實作。此階段是前四個階段最最重要的階段,因為後面所有階段的都要基於此階段,也是學習大數據緊密度最高的階段。本階段將第一次接觸團隊開發、產出具有前後台(第一階段技術 第二階段的技術綜合應用)的真實專案。

第三階段:前端架構

1.難易程式:兩顆星

2.技術知識點階段專案任務綜合能力

3.主要技術包括:

Java、Jquery、註解反射一起使用,XML以及XML解析、解析dom4j、jxab、jdk8.0新特性、SVN、Maven、easyui

#4.描述如下:

前兩個階段的基礎上化靜為動,可以實現讓我們網頁內容更加的豐富,當然如果從市場人員層面來說,有專業的前端設計人員,我們設計本階段的目標在於前端的技術可以更直觀的鍛鍊人的思維和設計能力。同時我們也將第二階段的高階特性融入本階段。使學習者更上一層樓。

第四階段:企業級開發架構

1.難易程式:三顆星

3.主要技術包括:

Hibernate、Spring、SpringMVC、log4j slf4j 整合、myBatis、struts2、Shiro、redis、流程引擎activity,爬蟲技術nutch,lucene,webService CXF、Tomcat群集與熱備、MySQL讀寫分離

第五階段: 初識大數據

1.難易度:三顆星

2.技術知識點階段專案任務綜合能力

#3.主要技術包括:

大數據前篇(什麼是大數據,應用場景,如何學習大資料庫,虛擬機器概念與安裝等)、Linux常見指令(檔案管理、系統管理、磁碟管理)、Linux Shell程式設計(SHELL變數、循環控制、應用)、Hadoop入門(Hadoop組成、單機版環境、目錄結構、HDFS介面、MR介面、簡單的SHELL、java存取hadoop)、HDFS(簡介、SHELL、 IDEA開發工具使用、全分散式叢集建置)、MapReduce應用(中間運算流程、Java操作MapReduce、程式運作、日誌監控)、Hadoop進階應用(YARN框架介紹、設定項目與最佳化、CDH簡介、環境建置)、擴充(MAP 端優化,COMBINER 使用方法見,TOP K,SQOOP導出,其它虛擬機VM的快照,權限管理命令,AWK 與SED命令)

4.描述如下:

這個階段設計是為了讓新人對大數據有相對的大概念怎麼相對?在前置課程JAVA的學習後能夠理解程式在單機的電腦上是如何運作的。現在,大數據呢?大數據是將程式運行在大規模機器的叢集中處理。大數據當然是要處理數據,所以同樣,數據的存儲從單機存儲變為多機器大規模的集群存儲。 (你問我什麼是集群?好,我有一大鍋飯,我一個人可以吃完,但是要很久,現在我叫大家一起吃。一個人的時候叫人,人多了呢? 是不是叫人群啊! )那麼大數據可以初略的分為: 大數據存儲和大數據處理所以在這個階段中呢,我們課程設計了大數據的標準:HADOOP吶,大數據的運行呢並不是在咋們經常使用WINDOWS 7或W10上面,而是現在使用最廣泛的系統:LINUX。

第六階段:大數據資料庫

1.難易度:四顆星

2.技術知識點階段專案任務綜合能力

3.主要技術包括:Hive入門(Hive簡介、Hive使用場景、環境建構、架構說明、工作機制)、Hive Shell程式設計(建表、查詢語句、分區與分桶、索引管理與檢視)、 Hive高階應用(DISTINCT實作、groupby、join、sql轉換原理、java程式、設定與最佳化)、hbase入門、Hbase SHELL程式(DDL、DML、Java作業建表、查詢、壓縮、過濾器)、細說Hbase模組(REGION、HREGION SERVER、HMASTER、ZOOKEEPER簡介、ZOOKEEPER配置、Hbase與Zookeeper整合)、HBASE高階特性(讀寫流程、資料模型、模式設計讀寫熱點、最佳化與設定)

4.描述如下:

這個階段設計是為了讓大家在理解大數據如何處理大規模的資料的同時。簡化咋們的編寫程式時間,同時提高讀取速度。

怎麼簡化呢?在第一階段中,如果需要進行複雜的業務關聯與資料探勘,自行編寫MR程式是非常繁雜的。所以在這一階段中我們引入了HIVE,大數據中的資料倉儲。這裡有一個關鍵字,資料倉儲。我知道你要問我,所以我先說,資料倉儲呢用來做資料探勘分析的,通常是一個超大的資料中心,儲存這些資料的呢,一般為ORACLE,DB2,等大型資料庫,這些資料庫通常用作實時的線上業務。總之,要基於資料倉儲分析資料呢速度是相對較慢的。但方便在於只要熟悉SQL,學習起來相對簡單,而HIVE呢就是這樣一種工具,基於大數據的SQL查詢工具吶,這一階段呢還包括HBASE,它為大數據裡面的資料庫。納悶了,不是學了一種叫做HIVE的資料「倉庫」了麼? HIVE是基於MR的所以查詢起來相當慢,HBASE呢基於大數據可以做到即時的數據查詢。一個主分析,另一個主查詢。

第七階段:即時資料擷取

1.難易程式:四顆星

2.技術知識點階段專案任務綜合能力

3.主要技術包括:

Flume日誌擷取,KAFKA入門(訊息佇列、應用場景、叢集搭建)、KAFKA詳解(分區、主題、受助者、發送者、與ZOOKEEPER整合、Shell開發、Shell調試)、KAFKA進階使用(java開發、主要配置、最佳化專案)、資料視覺化(圖形與圖表介紹、CHARTS工具分類、長條圖與圓餅圖、3D圖與地圖)、STORM入門(設計想法、應用場景、處理過程、叢集安裝)、STROM開發(STROM MVN開發、編寫STORM本機程式)、STORM進階(java開發、主要配置、最佳化專案)、KAFKA非同步傳送與批次發送時效,KAFKA全局訊息有序,STORM多並發優化

4.描述如下:

前面的階段資料來源是基於已經存在的大規模資料集來做的,資料處理與分析過後的結果是存在一定延遲的,通常處理的資料為前一天的資料。舉例:網站防盜鏈,客戶帳號異常,即時徵信,遇到這些場景基於前一天的資料分析出來過後呢?是否太晚了。所以在本階段中我們引入了即時的數據採集與分析。主要包括了:FLUME即時資料擷取,擷取的來源支援非常廣泛,KAFKA資料資料接收與傳送,STORM即時資料處理,資料處理秒等級。

第八階段:SPARK資料分析

1.難易程式:五顆星

2.技術知識點階段專案任務綜合能力

3.主要技術包括:SCALA入門(資料型態、運算子、控制語句、基礎函數)、SCALA進階(資料結構、類別、物件、特質、模式比對、正規表示式)、SCALA進階使用(高階函數、科里函數、偏函數、尾迭代、自帶高階函數等)、SPARK入門(環境建置、基礎結構、運行模式)、Spark資料集與程式設計模型、SPARK SQL、SPARK 進階(DATA FRAME、DATASET、SPARK STREAMING原理、SPARK STREAMING支援來源、整合KAFKA與SOCKET、程式設計模型)、SPARK高階程式設計(Spark-GraphX、Spark-Mllib機器學習)、SPARK高階應用(系統架構、主要配置和效能優化、故障與階段恢復)、SPARK ML KMEANS演算法,SCALA 隱式轉換高階特性

4.說明如下:

同樣先說前面的階段,主要是第一階段。 HADOOP呢在分析速度上基於MR的大規模資料集相對來說還是挺慢的,包括機器學習,人工智慧等。而且不適合做迭代計算。 SPARK呢在分析上是作為MR的替代產品,又怎麼取代呢?先說他們的運作機制,HADOOP是基於磁碟儲存分析,而SPARK則是基於記憶體分析。我這麼說你可能不懂,再形像一點,就像你要坐火車從北京到上海,MR就是綠皮火車,而SPARK是高鐵或磁浮。而SPARK呢是基於SCALA語言開發的,當然對SCALA支援最好,所以課程先學習SCALA開發語言。什麼?又要學另外一種開發語言?不不不! ! !我只說一句話:SCALA是基於JAVA做的。從歷史資料的存儲,分析(HADOOP,HIVE,HBASE),到即時的資料儲存(FLUME,KAFKA),分析(STORM,SPARK),這些在真實的專案中都是相互依賴存在的。

以上是java 大數據學什麼內容的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn