ホームページ >よくある問題 >ビッグデータ学習ルート

ビッグデータ学習ルート

(*-*)浩オリジナル: 2019-06-05 10:59:372822ブラウズ

ビッグデータ学習ルート

##java(Java se,[mysql])

Linux (シェル、高同時実行アーキテクチャ、lucene、solr)

Hadoop(Hadoop、HDFS、Mapreduce、yarn、hive、hbase、sqoop、zookeeper、flume)

機械学習 (R、mahout)

Storm(Storm、kafka、redis)

Spark(scala、spark、spark コア、spark sql、spark ストリーミング、spark mllib、sparkgraphx)

Python(python 、 Spark Python) (推奨学習:

Python ビデオチュートリアル )

コンピューティングプラットフォーム (docker、kvm、openstack)

用語の説明 # ＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃ビッグデータを学ぶ際に初心者が注意する必要がある点はたくさんありますが、何はともあれ、ビッグデータ業界に参入することを選択した以上、浮き沈みに注意する必要があります。初心を忘れずに必ず成功するという諺通り、ビッグデータの学習に最も必要なのは忍耐力です。

javase の基本 [mysql を含む]、これは javaee ではなく javase であることに注意してください。ビッグデータエンジニアには JavaWeb の知識は必要ありません

Linux

lucene: 全文検索エンジンアーキテクチャ

solr : 完全版-Lucene ベースのテキスト検索サーバーは構成可能でスケーラブルで、クエリのパフォーマンスを最適化し、完全な機能管理インターフェイスを提供します。

Hadoop

HDFS: NameNode、DataNode を含む分散ストレージシステム。名前ノード: メタデータ、データノード。 DataNode: データを保存します。

yarn: これは、本質的に Hadoop の処理および分析メカニズムである MapReduce の調整メカニズムとして理解でき、ResourceManager と NodeManager に分けられます。

MapReduce: ソフトウェアフレームワーク、プログラムの作成。

Hive: データウェアハウスは SQL でクエリを実行でき、Map/Reduce プログラムを実行できます。傾向や Web サイトのログを計算するために使用されますが、結果が返されるまでに時間がかかるため、リアルタイムクエリには使用しないでください。

HBase: データベース。ビッグデータのリアルタイムクエリに非常に適しています。 Facebook は、Hbase を使用してメッセージデータを保存し、メッセージのリアルタイム分析を実行します。

ZooKeeper: 大規模分散向けの信頼できる調整システム。 Hadoop の分散同期は、複数の NameNode やアクティブスタンバイスイッチングなどの Zookeeper によって実装されます。

Sqoop: データベースを相互に転送し、リレーショナルデータベースと HDFS を相互に転送します。

Mahout: スケーラブルな機械学習およびデータマイニングライブラリ。レコメンデーションマイニング、集計、分類、および頻繁に使用されるアイテムセットマイニングに使用されます。

Chukwa: HDFS および Map/Reduce フレームワークに基づいて構築された、大規模な分散システムを監視するオープンソースの収集システム。結果を表示、監視、分析します。

Ambari: Web ベースの使いやすいインターフェイスを使用して、Hadoop クラスターを構成、管理、監視するために使用されます。

Cloudera

Cloudera Manager: 管理監視診断統合

Cloudera CDH: (Apache Hadoop を含む Cloudera のディストリビューション) Cloudera は、Hadoop に対応する変更を加えました。変更されたリリースバージョンは CDH と呼ばれます。

Cloudera Flume: ログ収集システムは、データを収集するためのログシステム内のさまざまなデータ送信者のカスタマイズをサポートしています。

Cloudera Impala: Apache Hadoop の HDFS および HBase に保存されたデータに対して直接クエリと対話型 SQL を提供します。

Cloudera hue: hue ui、hui サーバー、hui db を含む Web マネージャー。 hue はすべての CDH コンポーネントにシェルインターフェイスを提供し、mr は hue で記述することができます。

機械学習/R

R: 統計分析とグラフィックスのための言語と動作環境、現在は Hadoop-R

mahout: のスケーラブルな実装を提供クラスタリング、分類、推奨フィルタリング、頻繁なサブ項目マイニングなど、機械学習分野の古典的なアルゴリズムを備えており、Hadoop を通じてクラウドに拡張できます。

#storm

Storm: リアルタイム分析、オンライン機械学習、情報フローに使用できる、分散型でフォールトトレラントなリアルタイムストリーミングコンピューティングシステム処理、および継続的コンピューティング分散 RPC、メッセージの処理、リアルタイムでのデータベースの更新。

Kafka: 消費者規模の Web サイトですべてのアクションストリーミングデータ (ブラウジング、検索など) を処理できる、高スループットの分散型パブリッシュ/サブスクライブメッセージングシステムです。 Hadoopのログデータやオフライン解析と比較してリアルタイム処理が可能です。現在、Hadoop の並列読み込みメカニズムは、オンラインとオフラインのメッセージ処理を統合するために使用されています。

Redis: C 言語で書かれ、ネットワークをサポートし、メモリベースで、ログ型のキーと値のデータベースです。持続的。

Spark

Scala: Java に似た完全なオブジェクト指向プログラミング言語。

jblas: 高速線形代数ライブラリ (JAVA)。 ATLAS ART の実装は、行列計算の事実上の業界標準である BLAS および LAPACK に基づいており、すべての計算手順に高度なインフラストラクチャを使用しているため、非常に高速です。

Spark: Spark は、Scala 言語で実装された Hadoop MapReduce と同様の汎用並列フレームワークであり、Hadoop MapReduce の利点に加えて、ジョブの中間出力結果をメモリに保存できる点で MapReduce とは異なります。したがって、HDFS の読み取りまたは書き込みの必要がないため、Spark は、データマイニングや機械学習などの反復を必要とする MapReduce アルゴリズムに適しています。 Hadoop ファイルシステムと並行して動作でき、Mesos を使用するサードパーティのクラスターフレームワークはこの動作をサポートできます。

Spark SQL: Apache Spark ビッグデータフレームワークの一部として、構造化データ処理に使用でき、SQL のような Spark データクエリを実行できます。

Spark ストリーミング: 上に構築されたリアルタイムコンピューティングフレームワークSpark、ビッグデータストリーミングデータを処理する Spark の機能を拡張します。

Spark MLlib: MLlib は、一般的に使用される機械学習アルゴリズム用の Spark の実装ライブラリであり、現在 (2014.05) バイナリ分類、回帰、クラスタリング、および協調フィルタリングをサポートしています。低レベルの勾配降下最適化の基本アルゴリズムも含まれています。 MLlib は jblas 線形代数ライブラリに依存し、jblas 自体はリモート Fortran プログラムに依存します。

Spark GraphX: GraphX は、Spark のグラフおよびグラフ並列コンピューティング用の API であり、Spark 上でワンストップのデータソリューションを提供し、グラフコンピューティングのパイプライン操作の完全なセットを簡単に完了できます。そして効率的に。

Fortran: 科学および工学コンピューティングの分野で広く使用されている、最も初期の高水準コンピュータープログラミング言語。

BLAS: 基本的な線形代数サブルーチンライブラリ。線形代数演算に関して作成された多数のプログラムが含まれています。

LAPACK: 線形方程式、線形最小二乗問題、固有値問題、特異値問題など、科学技術計算における最も一般的な数値線形代数問題の解決を含む、有名なオープンソフトウェアです。

ATLAS: BLAS 線形アルゴリズムライブラリの最適化されたバージョン。

Spark Python: Spark は scala 言語で書かれていますが、プロモーションと互換性のために、java および python インターフェイスが提供されています。

Python

Python: オブジェクト指向の解釈型コンピュータープログラミング言語。

クラウドコンピューティングプラットフォーム

Docker：オープンソースアプリケーションコンテナエンジン

kvm： (キーボードビデオマウス)

openstack：オープンソースクラウドコンピューティング管理プラットフォームプロジェクト

Python 関連の技術記事の詳細については、Python チュートリアル列にアクセスして学習してください。

以上がビッグデータ学習ルートの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：プログラミングの一般的なプロセス次の記事：プログラミングの一般的なプロセス

続きを見る