ホームページ >よくある問題 >Spark の 4 つの主要コンポーネントは何ですか?

Spark の 4 つの主要コンポーネントは何ですか?

青灯夜游
青灯夜游オリジナル
2020-12-14 14:34:1822220ブラウズ

Spark の 4 つの主要コンポーネントは次のとおりです: 1. SparkStreaming (リアルタイム データのストリーミング コンピューティング用コンポーネント); 2. SparkSQL (構造化データを操作するためのコンポーネント); 3. GraphX (Spark によって提供されるコンポーネント)グラフ コンピューティング フレームワークおよびアルゴリズム ライブラリ; 4. MLlib、機械学習アルゴリズム ライブラリ。

Spark の 4 つの主要コンポーネントは何ですか?

関連する推奨事項: 「プログラミング ビデオ コース

Spark の 4 つの主要コンポーネント

1. SparkStreaming:

多くのアプリケーション分野では、ネットワーク環境の Web サーバーのログやユーザーが送信したステータスなど、リアルタイム データのストリーミング コンピューティングに対する強い需要があります。更新はメッセージ キューなどで構成されます。これらはリアルタイム データ ストリームです。 Spark Streaming は、リアルタイム データに対してストリーミング コンピューティングを実行し、データ ストリームを処理するための豊富な API を提供する Spark プラットフォーム上のコンポーネントです。これらの API は Spark Core の基本操作に対応しているため、開発者は、Spark の中心となる概念とプログラミング方法を理解すると、より快適に Spark Streaming アプリケーションを作成できるようになります。 Spark Streaming は、基盤となる設計から、Spark Core と同じレベルのフォールト トレランス、スループット、スケーラビリティをサポートしています。

2. SparkSQL:

Spark SQL は、Spark が構造化データを操作するために使用するコンポーネントです。 Spark SQL を通じて、ユーザーは SQL または SQL 言語 (HQL) の Apache Hive バージョンを使用してデータをクエリできます。 Spark SQL は、Hive テーブル、Parquet、JSON などの複数のデータ ソース タイプをサポートします。 Spark SQL は、Spark の SQL インターフェイスを提供するだけでなく、開発者が SQL ステートメントを Spark アプリケーション開発プロセスに統合することもサポートします。Python、Java、Scala のいずれを使用する場合でも、ユーザーは単一のアプリケーションで SQL クエリと複雑なクエリを同時に実行できます。 。 データ分析。 Spark SQL は、Spark が提供する豊富なコンピューティング環境と緊密に統合されているため、他のオープンソース データ ウェアハウス ツールよりも優れています。 Spark SQL は、Spark l.0 で初めて導入されました。 Spark SQL が登場する前に、カリフォルニア大学バークレー校は Apache Hive を Spark 上で実行できるように変更しようとして、コンポーネント Shark を提案しました。ただし、Spark SQL の導入と開発により、Spark SQL は Spark エンジンおよび API とより緊密に統合されるようになり、Shark は Spark SQL に置き換えられました。

3. GraphX:

GraphX は、グラフ コンピューティングのために Spark によって提供されるフレームワークおよびアルゴリズム ライブラリです。 GraphX は、弾性分散属性グラフの概念を提案し、これに基づいてグラフ ビューとテーブル ビューの有機的な組み合わせと統合を実現すると同時に、サブグラフ操作、サブグラフ操作など、グラフ データ処理のための豊富な操作を提供します。 、および頂点属性。mapVertices の操作、エッジ属性の mapEdges の操作など。 GraphX は Pregel との統合も実現しており、PageRank、三角カウントなどのいくつかの一般的なグラフ アルゴリズムを直接使用できます。

4. MLlib:

MLlib は、Spark が提供する機械学習アルゴリズム ライブラリであり、主に分類、回帰、クラスタリング、コラボレーションなど、さまざまな古典的および一般的な機械学習アルゴリズムが含まれています。等MLlib は、モデル評価やデータ インポートなどの追加機能を提供するだけでなく、一般的な勾配降下最適化基本アルゴリズムを含む、いくつかの下位レベルの機械学習プリミティブも提供します。これらのアプローチはすべて、クラスター上で簡単に拡張できるアーキテクチャとして設計されています。

さらに関連記事を読みたい場合は、PHP 中国語 Web サイト にアクセスしてください。 !

以上がSpark の 4 つの主要コンポーネントは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。