ビッグデータ学習ルート
##java(Java se,[mysql])Linux (シェル、高同時実行アーキテクチャ、lucene、solr)Hadoop(Hadoop、HDFS、Mapreduce、yarn、hive、hbase、sqoop、zookeeper、flume)機械学習 (R、mahout) Storm(Storm、kafka、redis)Spark(scala、spark、spark コア、spark sql、spark ストリーミング、spark mllib、sparkgraphx)Python(python 、 Spark Python) (推奨学習:
Python ビデオ チュートリアル )
コンピューティング プラットフォーム (docker、kvm、openstack)用語の説明 # #################################################ビッグデータを学ぶ際に初心者が注意する必要がある点はたくさんありますが、何はともあれ、ビッグデータ業界に参入することを選択した以上、浮き沈みに注意する必要があります。初心を忘れずに必ず成功するという諺通り、ビッグデータの学習に最も必要なのは忍耐力です。
javase の基本 [mysql を含む]、これは javaee ではなく javase であることに注意してください。ビッグ データ エンジニアには JavaWeb の知識は必要ありません
Linux
lucene: 全文検索エンジン アーキテクチャ
solr : 完全版-Lucene ベースのテキスト検索サーバーは構成可能でスケーラブルで、クエリのパフォーマンスを最適化し、完全な機能管理インターフェイスを提供します。Hadoop
HDFS: NameNode、DataNode を含む分散ストレージ システム。名前ノード: メタデータ、データノード。 DataNode: データを保存します。
yarn: これは、本質的に Hadoop の処理および分析メカニズムである MapReduce の調整メカニズムとして理解でき、ResourceManager と NodeManager に分けられます。 MapReduce: ソフトウェア フレームワーク、プログラムの作成。 Hive: データ ウェアハウスは SQL でクエリを実行でき、Map/Reduce プログラムを実行できます。傾向や Web サイトのログを計算するために使用されますが、結果が返されるまでに時間がかかるため、リアルタイム クエリには使用しないでください。 HBase: データベース。ビッグデータのリアルタイムクエリに非常に適しています。 Facebook は、Hbase を使用してメッセージ データを保存し、メッセージのリアルタイム分析を実行します。ZooKeeper: 大規模分散向けの信頼できる調整システム。 Hadoop の分散同期は、複数の NameNode やアクティブ スタンバイ スイッチングなどの Zookeeper によって実装されます。 Sqoop: データベースを相互に転送し、リレーショナル データベースと HDFS を相互に転送します。Mahout: スケーラブルな機械学習およびデータ マイニング ライブラリ。レコメンデーションマイニング、集計、分類、および頻繁に使用されるアイテムセットマイニングに使用されます。 Chukwa: HDFS および Map/Reduce フレームワークに基づいて構築された、大規模な分散システムを監視するオープン ソースの収集システム。結果を表示、監視、分析します。 Ambari: Web ベースの使いやすいインターフェイスを使用して、Hadoop クラスターを構成、管理、監視するために使用されます。Cloudera
Cloudera Manager: 管理監視診断統合
Cloudera CDH: (Apache Hadoop を含む Cloudera のディストリビューション) Cloudera は、Hadoop に対応する変更を加えました。変更されたリリース バージョンは CDH と呼ばれます。 Cloudera Flume: ログ収集システムは、データを収集するためのログ システム内のさまざまなデータ送信者のカスタマイズをサポートしています。 Cloudera Impala: Apache Hadoop の HDFS および HBase に保存されたデータに対して直接クエリと対話型 SQL を提供します。 Cloudera hue: hue ui、hui サーバー、hui db を含む Web マネージャー。 hue はすべての CDH コンポーネントにシェル インターフェイスを提供し、mr は hue で記述することができます。機械学習/R
R: 統計分析とグラフィックスのための言語と動作環境、現在は Hadoop-R
mahout: のスケーラブルな実装を提供クラスタリング、分類、推奨フィルタリング、頻繁なサブ項目マイニングなど、機械学習分野の古典的なアルゴリズムを備えており、Hadoop を通じてクラウドに拡張できます。#storm
Storm: リアルタイム分析、オンライン機械学習、情報フローに使用できる、分散型でフォールトトレラントなリアルタイム ストリーミング コンピューティング システム処理、および継続的コンピューティング 分散 RPC、メッセージの処理、リアルタイムでのデータベースの更新。
Kafka: 消費者規模の Web サイトですべてのアクション ストリーミング データ (ブラウジング、検索など) を処理できる、高スループットの分散型パブリッシュ/サブスクライブ メッセージング システムです。 Hadoopのログデータやオフライン解析と比較してリアルタイム処理が可能です。現在、Hadoop の並列読み込みメカニズムは、オンラインとオフラインのメッセージ処理を統合するために使用されています。Redis: C 言語で書かれ、ネットワークをサポートし、メモリベースで、ログ型のキーと値のデータベースです。持続的。Spark
Scala: Java に似た完全なオブジェクト指向プログラミング言語。
jblas: 高速線形代数ライブラリ (JAVA)。 ATLAS ART の実装は、行列計算の事実上の業界標準である BLAS および LAPACK に基づいており、すべての計算手順に高度なインフラストラクチャを使用しているため、非常に高速です。 Spark: Spark は、Scala 言語で実装された Hadoop MapReduce と同様の汎用並列フレームワークであり、Hadoop MapReduce の利点に加えて、ジョブの中間出力結果をメモリに保存できる点で MapReduce とは異なります。したがって、HDFS の読み取りまたは書き込みの必要がないため、Spark は、データ マイニングや機械学習などの反復を必要とする MapReduce アルゴリズムに適しています。 Hadoop ファイル システムと並行して動作でき、Mesos を使用するサードパーティのクラスター フレームワークはこの動作をサポートできます。Spark SQL: Apache Spark ビッグ データ フレームワークの一部として、構造化データ処理に使用でき、SQL のような Spark データ クエリを実行できます。
Spark ストリーミング: 上に構築されたリアルタイム コンピューティング フレームワークSpark、ビッグ データ ストリーミング データを処理する Spark の機能を拡張します。
Spark MLlib: MLlib は、一般的に使用される機械学習アルゴリズム用の Spark の実装ライブラリであり、現在 (2014.05) バイナリ分類、回帰、クラスタリング、および協調フィルタリングをサポートしています。低レベルの勾配降下最適化の基本アルゴリズムも含まれています。 MLlib は jblas 線形代数ライブラリに依存し、jblas 自体はリモート Fortran プログラムに依存します。
Spark GraphX: GraphX は、Spark のグラフおよびグラフ並列コンピューティング用の API であり、Spark 上でワンストップのデータ ソリューションを提供し、グラフ コンピューティングのパイプライン操作の完全なセットを簡単に完了できます。そして効率的に。
Fortran: 科学および工学コンピューティングの分野で広く使用されている、最も初期の高水準コンピューター プログラミング言語。
BLAS: 基本的な線形代数サブルーチン ライブラリ。線形代数演算に関して作成された多数のプログラムが含まれています。
LAPACK: 線形方程式、線形最小二乗問題、固有値問題、特異値問題など、科学技術計算における最も一般的な数値線形代数問題の解決を含む、有名なオープン ソフトウェアです。
ATLAS: BLAS 線形アルゴリズム ライブラリの最適化されたバージョン。
Spark Python: Spark は scala 言語で書かれていますが、プロモーションと互換性のために、java および python インターフェイスが提供されています。
Python
Python: オブジェクト指向の解釈型コンピューター プログラミング言語。
クラウド コンピューティング プラットフォーム
Docker: オープンソース アプリケーション コンテナ エンジン
kvm: (キーボード ビデオ マウス)
openstack: オープンソース クラウド コンピューティング管理プラットフォーム プロジェクト
Python 関連の技術記事の詳細については、Python チュートリアル 列にアクセスして学習してください。
以上がビッグデータ学習ルートの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。