ホームページ >よくある問題 >ビッグデータの古典的な学習ルートは何ですか?

ビッグデータの古典的な学習ルートは何ですか?

silencementオリジナル: 2019-06-14 10:14:092354ブラウズ

ビッグデータの学習ルートは次のとおりです。

java(Java se,javaweb)

Linux(shell 、高同時実行アーキテクチャ、lucene、solr)

Hadoop(Hadoop、HDFS、Mapreduce、yarn、hive、hbase、sqoop、zookeeper、flume)

機械学習 (R、mahout)

Storm(Storm、kafka、redis)

Spark(scala、spark、spark コア、spark sql、spark ストリーミング、spark mllib、sparkgraphx)

Python(python,spark python)

クラウドコンピューティングプラットフォーム (docker、kvm、openstack)

用語の説明

1. Linux

lucene:全文検索エンジンのアーキテクチャ

solr: Lucene ベースの全文検索サーバー。構成可能でスケーラブルで、クエリのパフォーマンスを最適化し、完全な機能管理インターフェイスを提供します。

2. Hadoop

HDFS: NameNode と DataNode を含む分散ストレージシステム。名前ノード: メタデータ、データノード。 DataNode: データを保存します。

yarn: これは、本質的に Hadoop の処理および分析メカニズムである MapReduce の調整メカニズムとして理解でき、ResourceManager と NodeManager に分けられます。

MapReduce: ソフトウェアフレームワーク、プログラムの作成。

Hive: データウェアハウスは SQL でクエリを実行でき、Map/Reduce プログラムを実行できます。傾向や Web サイトのログを計算するために使用されますが、結果が返されるまでに時間がかかるため、リアルタイムクエリには使用しないでください。

HBase: データベース。ビッグデータのリアルタイムクエリに非常に適しています。 Facebook は、Hbase を使用してメッセージデータを保存し、メッセージのリアルタイム分析を実行します。

ZooKeeper: 大規模分散向けの信頼できる調整システム。 Hadoop の分散同期は、複数の NameNode やアクティブスタンバイスイッチングなどの Zookeeper によって実装されます。

Sqoop: データベースを相互に転送し、リレーショナルデータベースと HDFS を相互に転送します。

Mahout: スケーラブルな機械学習およびデータマイニングライブラリ。レコメンデーションマイニング、集計、分類、および頻繁に使用されるアイテムセットマイニングに使用されます。

Chukwa: HDFS および Map/Reduce フレームワークに基づいて構築された、大規模な分散システムを監視するオープンソースの収集システム。結果を表示、監視、分析します。

Ambari: Web ベースの使いやすいインターフェイスを使用して、Hadoop クラスターを構成、管理、監視するために使用されます。

2. Cloudera

Cloudera Manager: 管理監視と診断の統合

Cloudera CDH: (Apache Hadoop を含む Cloudera のディストリビューション) Cloudera は、Hadoop に対応する変更を加えました。 CDHと呼ばれるリリースバージョン。

Cloudera Flume: ログ収集システムは、データを収集するためのログシステム内のさまざまなデータ送信者のカスタマイズをサポートしています。

Cloudera Impala: Apache Hadoop の HDFS および HBase に保存されたデータに対して直接クエリと対話型 SQL を提供します。

Cloudera hue: hue ui、hui サーバー、hui db を含む Web マネージャー。 hue はすべての CDH コンポーネントにシェルインターフェイスを提供し、mr は hue で記述することができます。

3. 機械学習/R

R: 統計分析とグラフィックスのための言語とオペレーティング環境現在、Hadoop-R

mahout: スケーラブルなマシンを提供します。クラスタリング、分類、推奨フィルタリング、頻繁なサブ項目マイニングなどの学習分野のアルゴリズムを備えており、Hadoop を通じてクラウドに拡張できます。

4. Storm

#Storm: リアルタイム分析、オンライン機械学習、情報フロー処理、継続的コンピューティングに使用できる分散型フォールトトレラントリアルタイムストリーミングコンピューティングシステム、分散 RPC、リアルタイムでメッセージを処理し、データベースを更新します。

Kafka: 消費者規模の Web サイトですべてのアクションストリーミングデータ (ブラウジング、検索など) を処理できる、高スループットの分散型パブリッシュ/サブスクライブメッセージングシステムです。 Hadoopのログデータやオフライン解析と比較してリアルタイム処理が可能です。現在、Hadoop の並列読み込みメカニズムは、オンラインとオフラインのメッセージ処理を統合するために使用されています。

Redis: C 言語で書かれ、ネットワークをサポートし、メモリベースで、ログ型のキーと値のデータベースです。持続的。

5. Spark

Scala: Java に似た完全なオブジェクト指向プログラミング言語。

jblas: 高速線形代数ライブラリ (JAVA)。 ATLAS ART の実装は、行列計算の事実上の業界標準である BLAS および LAPACK に基づいており、すべての計算手順に高度なインフラストラクチャを使用しているため、非常に高速です。

Spark: Spark は、Scala 言語で実装された Hadoop MapReduce と同様の汎用並列フレームワークであり、Hadoop MapReduce の利点に加えて、ジョブの中間出力結果を保存できる点で MapReduce とは異なります。したがって、HDFS の読み取りまたは書き込みの必要がないため、Spark は、データマイニングや機械学習など、反復を必要とする MapReduce アルゴリズムに適しています。 Hadoop ファイルシステムと並行して動作でき、Mesos を使用するサードパーティのクラスターフレームワークはこの動作をサポートできます。

Spark SQL: Apache Spark ビッグデータフレームワークの一部として、構造化データ処理に使用でき、SQL のような Spark データクエリを実行できます。

Spark ストリーミング: リアルタイムソリューションSpark 上に構築コンピューティングフレームワークは、ビッグデータストリーミングデータを処理する Spark の機能を拡張します。

Spark MLlib: MLlib は、一般的に使用される機械学習アルゴリズム用の Spark の実装ライブラリであり、現在 (2014.05) バイナリ分類、回帰、クラスタリング、および協調フィルタリングをサポートしています。低レベルの勾配降下最適化の基本アルゴリズムも含まれています。 MLlib は jblas 線形代数ライブラリに依存し、jblas 自体はリモート Fortran プログラムに依存します。

Spark GraphX: GraphX は、Spark のグラフおよびグラフ並列コンピューティング用の API であり、Spark 上でワンストップのデータソリューションを提供し、グラフコンピューティングのパイプライン操作の完全なセットを便利かつ効率的に完了できます。。

Fortran: 科学および工学コンピューティングの分野で広く使用されている、最も初期の高水準コンピュータープログラミング言語。

BLAS: 基本的な線形代数サブルーチンライブラリ。線形代数演算に関して作成された多数のプログラムが含まれています。

LAPACK: 線形方程式、線形最小二乗問題、固有値問題、特異値問題など、科学技術計算における最も一般的な数値線形代数問題の解決を含む、有名なオープンソフトウェアです。

ATLAS: BLAS 線形アルゴリズムライブラリの最適化されたバージョン。

Spark Python: Spark は scala 言語で書かれていますが、プロモーションと互換性のために、java および python インターフェイスが提供されています。

6. Python

Python: オブジェクト指向の解釈型コンピュータープログラミング言語。

7. クラウドコンピューティングプラットフォーム

Docker: オープンソースアプリケーションコンテナエンジン

kvm: (キーボードビデオマウス)

openstack: オープンソースのクラウドコンピューティング管理プラットフォームプロジェクト

以上がビッグデータの古典的な学習ルートは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：win10ネットワークカードドライバー異常の修復方法次の記事：win10ネットワークカードドライバー異常の修復方法

続きを見る