Javaビッグデータについて学ぶべきこと-＆＃＆チュートリアル-php.cn

ホームページ

Java

＆＃＆チュートリアル

Javaビッグデータについて学ぶべきこと

(*-*)浩

May 27, 2019 pm 02:30 PM

java

Java ビッグデータ学習プロセス。

Javaビッグデータについて学ぶべきこと

第一段階: 静的 Web ページの基礎 (HTML CSS)

1. 難易度: 星 1 つ

2. 技術ナレッジポイント段階におけるプロジェクトタスクの包括的な能力

3. 主なテクノロジーには、

html 共通タグ、共通 CSS レイアウト、スタイル、配置など、静的ページのデザインと制作方法ちょっとお待ちください

第 2 段階: JavaSE JavaWeb

1. 難易度: 2 つ星

2. 技術知識ポイント段階のプロジェクトタスク総合力

3. 主な技術としては、

Java 基本構文、Java オブジェクト指向 (クラス、オブジェクト、カプセル化、継承、ポリモーフィズム、抽象クラス、インターフェース、共通クラス、内部クラス、一般的な変更記号など)、例外、コレクション、ファイル、IO、MYSQL (基本的な SQL ステートメント操作、複数テーブルクエリ、サブクエリ、ストアドプロシージャ、トランザクション、分散トランザクション)、JDBC、スレッド、リフレクション、ソケットプログラミング、列挙、ジェネリクス、デザインパターン

4. 説明は次のとおりです:

は Java の基礎と呼ばれ、浅いところから深い技術的なポイント、実際のビジネスプロジェクトのモジュール分析、マルチストレージの設計と実装までを網羅しています。方法。このステージは、最初の 4 つのステージの中で最も重要なステージです。後続のすべてのステージがこのステージに基づいているためです。また、ビッグデータの学習密度が最も高いステージでもあります。この段階は、チームにとって初めてフロントエンドとバックエンドを備えた実際のプロジェクトを開発および制作することになります (テクノロジーの第 1 段階とテクノロジーの包括的な適用の第 2 段階)。

第 3 段階: フロントエンドフレームワーク

1. 難易度と簡単な手順: 2 つ星

2. 技術的な知識ポイント段階のプロジェクトタスクの包括的能力

3. 主なテクノロジーには次のものが含まれます:

Java、Jquery、アノテーションリフレクションの併用、XMLとXMLの解析、dom4j、jxab、jdk8.0の新機能の解析、SVN、Maven、easyui

4. 説明は次のとおりです:

最初の 2 つの段階に基づいて、静的を動的に変えることができ、これにより Web ページのコンテンツをより豊かにすることができます。マーケターの視点、プロのフロントエンドデザイナーがいます。この段階を設計する際の私たちの目標は、フロントエンドテクノロジーが人々の思考とデザイン能力をより直観的に発揮できるようにすることです。同時に、第 2 段階の高度な機能もこの段階に統合します。学習者を次のレベルに引き上げます。

#第 4 段階: エンタープライズレベルの開発フレームワーク

1. 難しい手順と簡単な手順: 3 つ星

3. 主なテクノロジは次のとおりです:

Hibernate、Spring、SpringMVC、log4j slf4j 統合、myBatis、struts2、Shiro、redis、プロセスエンジンアクティビティ、クローラーテクノロジナッチ、lucene、webService CXF、Tomcat クラスターとホットスタンバイ、MySQL の読み取りと書き込みの分離

第5段階: ビッグデータ初入門

1. 難易度: 星3つ

2. 技術知識点段階でのプロジェクトタスクの総合力

#3. 主なテクノロジーには以下が含まれます:

ビッグデータのパート 1 (ビッグデータとは何か、アプリケーションシナリオ、ビッグデータベースの学習方法、仮想マシンの概念とインストールなど)、一般的な Linux コマンド(ファイル管理、システム管理、ディスク管理)、Linux シェルプログラミング (SHELL 変数、ループ制御、アプリケーション)、Hadoop 入門 (Hadoop 構成、スタンドアロン環境、ディレクトリ構造、HDFS インターフェイス、MR インターフェイス、簡易 SHELL、Java) Hadoopへのアクセス）、HDFS（入門、SHELL、IDEA開発ツールの利用、完全分散クラスタ構築）、MapReduceアプリケーション（中間計算処理、Java操作MapReduce、プログラム実行、ログ監視）、Hadoop応用アプリケーション（YARNフレームワーク導入、設定項目）および最適化、CDH導入、環境構築）、拡張（MAP側の最適化、COMBINERの利用方法、TOP K参照、SQOOPエクスポート、他の仮想マシンVMのスナップショット、権限管理コマンド、AWK、SEDコマンド）

この段階は、初心者がビッグデータという比較的大きな概念を理解できるように設計されています。前提条件コースで JAVA を学習すると、プログラムがスタンドアロンコンピュータ上でどのように実行されるかを理解できるようになります。では、ビッグデータはどうでしょうか？ビッグデータは、大規模なマシンのクラスター上でプログラムを実行することによって処理されます。もちろん、ビッグデータにはデータ処理が必要となるため、同様に、データストレージも単一マシンのストレージから複数のマシン上の大規模クラスターストレージに変わります。（クラスターとは何ですか？そうですね、私は大きな鍋を持っています。一人でも食べられますが、時間がかかります。今はみんなに一緒に食べてもらいます。一人のときはそれを呼びます。ビッグデータは、ビッグデータストレージとビッグデータ処理に大別できます。そこで、この段階で、私たちのコースはビッグデータの標準である HADOOP を設計しました。ビッグデータの操作には WINDOWS.7 や W10 がよく使われていますが、現在最も広く使われているのは LINUX です。

第6段階：ビッグデータデータベース

1.難易度：星4つ

2.技術知識点段階プロジェクトタスク総合力

3. 主なテクノロジには、Hive の概要 (Hive の概要、Hive の使用シナリオ、環境構築、アーキテクチャの説明、動作メカニズム)、Hive Shell プログラミング (テーブルの作成、クエリステートメント、パーティショニングとバケット化、インデックス管理とビュー) が含まれます。 )、Hive の高度なアプリケーション (DISTINCT 実装、groupby、結合、SQL 変換原理、Java プログラミング、構成と最適化)、hbase の概要、Hbase SHELL プログラミング (DDL、DML、Java 操作テーブルの作成、クエリ、圧縮、フィルター)、詳細Hbase モジュールの説明 (REGION、HREGION SERVER、HMASTER、ZOOKEEPER の概要、ZOOKEEPER 構成、Hbase と Zookeeper の統合)、HBASE の高度な機能 (読み取りおよび書き込みプロセス、データモデル、スキーマ設計の読み取りおよび書き込みホットスポット、最適化と構成)

4. 説明は次のとおりです:

このステージは、ビッグデータが大規模なデータをどのように扱うかを誰もが理解できるように設計されています。プログラミング時間を簡素化し、読み取り速度を向上させます。

それを簡素化するにはどうすればよいでしょうか?最初の段階で、複雑な業務関連付けやデータマイニングが必要な場合、MRプログラムを自分で書くのは非常に複雑です。そこでこの段階で、ビッグデータのデータウェアハウスである HIVE を導入しました。ここにはデータウェアハウスというキーワードがあります。質問されると思いますので、最初に言っておきますが、データウェアハウスはデータマイニングと分析に使用されます。通常は非常に大規模なデータセンターです。データは ORACLE や DB2 などの大規模なデータベースに保存されます。これらのデータベース通常、リアルタイムオンラインビジネスとして使用されます。つまり、データウェアハウスに基づくデータの分析は比較的時間がかかります。ただし、SQL に慣れていれば比較的簡単に学習できるという利点があり、HIVE はビッグデータに基づく SQL クエリツールであり、この段階にはビッグデータのデータベースである HBASE も含まれます。。混乱していますが、HIVE と呼ばれるデータ「ウェアハウス」について知りませんでしたか? HIVE は MR に基づいているため、クエリは非常に遅くなりますが、HBASE はビッグデータに基づいており、リアルタイムのデータクエリを実行できます。 1 つは分析用、もう 1 つはクエリ用です。

第 7 段階: リアルタイムデータ収集

1. 難しい手順と簡単な手順: 星 4 つ

2. 技術知識ポイント段階のプロジェクトタスク総合力

3. 主な技術内容:

Flume ログ収集、KAFKA 導入 (メッセージキュー、アプリケーションシナリオ、クラスタ構築)、KAFKA 詳細説明 (パーティション、トピック、レシーバ、センダ、 ZOOKEEPER 統合、シェル開発、シェルデバッグ)、KAFKA の高度な使用法 (Java 開発、メイン構成、最適化プロジェクト)、データ視覚化 (グラフィックスとチャートの紹介、CHARTS ツール分類、棒グラフと円グラフ、3D チャートとマップ)、 STORM の概要 (設計アイデア、アプリケーションシナリオ、処理手順、クラスターのインストール)、STROM 開発 (STROM MVN 開発、STORM ローカルプログラムの作成)、STORM の発展 (Java 開発、メイン構成、最適化プロジェクト)、KAFKA の非同期送信とバッチ送信の適時性, KAFKA global Messages are in order, STORM multi-concurrency optimization

4. 説明は次のとおりです:

前段のデータソースは既存の大規模データセットに基づいています、およびデータ処理と分析後の結果ある程度の遅延があり、通常処理されるデータは前日のデータです。シナリオの例: Web サイトのホットリンク対策、顧客アカウントの異常、リアルタイムの信用レポートこれらのシナリオが前日のデータに基づいて分析されたらどうなるでしょうか?もう手遅れですか？したがって、この段階では、リアルタイムのデータ収集と分析を導入しました。これには主に、幅広い収集ソースをサポートする FLUME リアルタイムデータ収集、KAFKA データ送受信、STORM リアルタイムデータ処理、および第 2 レベルのデータ処理が含まれます。

第8段階：SPARKデータ分析

1. 難易度と手順の簡単さ：星5つ

2. プロジェクトタスクの技術的・総合的な能力ナレッジポイント段階

3. 主なテクノロジーには、SCALA 入門 (データ型、演算子、制御ステートメント、基本関数)、SCALA 上級 (データ構造、クラス、オブジェクト、トレイト、パターンマッチング、正規表現)、SCALA が含まれます。高度な使い方（高階関数、Corey関数、部分関数、テールイテレーション、組み込み高階関数など）、SPARK入門（環境構築、インフラ、動作モード）、Sparkデータセットとプログラミングモデル、SPARK SQL、SPARK Advanced Stage (DATA FRAME、DATASET、SPARK STREAMING 原則、SPARK STREAMING サポートソース、統合された KAFKA および SOCKET、プログラミングモデル)、SPARK Advanced プログラミング (Spark-GraphX、Spark-Mllib 機械学習)、SPARK Advanced アプリケーション (システムアーキテクチャ) 、メイン構成とパフォーマンスの最適化、障害とステージの回復)、SPARK ML KMEANS アルゴリズム、SCALA 暗黙的変換の高度な機能

4. 説明は次のとおりです:

前の段階、主に最初の段階についても話しましょう。 HADOOP は、機械学習や人工知能などを含む MR に基づく大規模なデータセットの分析には比較的時間がかかります。また、反復計算には適していません。 SPARKはMRの代替品として検討されていますが、どのように置き換えればよいのでしょうか？まず動作メカニズムについて説明すると、HADOOP はディスクストレージ分析に基づいており、SPARK はメモリ分析に基づいています。こう言うと理解できないかもしれませんが、もっとわかりやすく言うと、北京から上海まで電車に乗るのと同じで、MRは緑色の電車、SPARKは高速鉄道やリニアモーターカーのことです。 SPARKはSCALA言語をベースに開発されており、もちろんSCALAへのサポートも万全ですので、講座ではまずSCALA開発言語を学びます。何？別の開発言語を学びたいですか?ダメダメダメ！！！一つだけ言わせてください。SCALA は JAVA をベースにしています。履歴データのストレージと分析 (HADOOP、HIVE、HBASE) からリアルタイムデータのストレージ (FLUME、KAFKA) と分析 (STORM、SPARK) まで、これらはすべて実際のプロジェクトでは相互依存しています。

以上がJavaビッグデータについて学ぶべきことの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

高度なJavaプロジェクト管理、自動化の構築、依存関係の解像度にMavenまたはGradleを使用するにはどうすればよいですか？Mar 17, 2025 pm 05:46 PM

この記事では、Javaプロジェクト管理、自動化の構築、依存関係の解像度にMavenとGradleを使用して、アプローチと最適化戦略を比較して説明します。

適切なバージョン化と依存関係管理を備えたカスタムJavaライブラリ（JARファイル）を作成および使用するにはどうすればよいですか？Mar 17, 2025 pm 05:45 PM

この記事では、MavenやGradleなどのツールを使用して、適切なバージョン化と依存関係管理を使用して、カスタムJavaライブラリ（JARファイル）の作成と使用について説明します。

カフェインやグアバキャッシュなどのライブラリを使用して、Javaアプリケーションにマルチレベルキャッシュを実装するにはどうすればよいですか？Mar 17, 2025 pm 05:44 PM

この記事では、カフェインとグアバキャッシュを使用してJavaでマルチレベルキャッシュを実装してアプリケーションのパフォーマンスを向上させています。セットアップ、統合、パフォーマンスの利点をカバーし、構成と立ち退きポリシー管理Best Pra

キャッシュや怠zyなロードなどの高度な機能を備えたオブジェクトリレーショナルマッピングにJPA（Java Persistence API）を使用するにはどうすればよいですか？Mar 17, 2025 pm 05:43 PM

この記事では、キャッシュや怠zyなロードなどの高度な機能を備えたオブジェクトリレーショナルマッピングにJPAを使用することについて説明します。潜在的な落とし穴を強調しながら、パフォーマンスを最適化するためのセットアップ、エンティティマッピング、およびベストプラクティスをカバーしています。[159文字]