ホームページ >よくある問題 >Spark の 4 つの主要コンポーネントは何ですか?

Spark の 4 つの主要コンポーネントは何ですか?

青灯夜游オリジナル: 2020-12-14 14:34:1822362ブラウズ

Spark の 4 つの主要コンポーネントは次のとおりです: 1. SparkStreaming (リアルタイムデータのストリーミングコンピューティング用コンポーネント); 2. SparkSQL (構造化データを操作するためのコンポーネント); 3. GraphX (Spark によって提供されるコンポーネント)グラフコンピューティングフレームワークおよびアルゴリズムライブラリ; 4. MLlib、機械学習アルゴリズムライブラリ。

関連する推奨事項: 「プログラミングビデオコース」

Spark の 4 つの主要コンポーネント

1. SparkStreaming:

多くのアプリケーション分野では、ネットワーク環境の Web サーバーのログやユーザーが送信したステータスなど、リアルタイムデータのストリーミングコンピューティングに対する強い需要があります。更新はメッセージキューなどで構成されます。これらはリアルタイムデータストリームです。 Spark Streaming は、リアルタイムデータに対してストリーミングコンピューティングを実行し、データストリームを処理するための豊富な API を提供する Spark プラットフォーム上のコンポーネントです。これらの API は Spark Core の基本操作に対応しているため、開発者は、Spark の中心となる概念とプログラミング方法を理解すると、より快適に Spark Streaming アプリケーションを作成できるようになります。 Spark Streaming は、基盤となる設計から、Spark Core と同じレベルのフォールトトレランス、スループット、スケーラビリティをサポートしています。

2. SparkSQL:

Spark SQL は、Spark が構造化データを操作するために使用するコンポーネントです。 Spark SQL を通じて、ユーザーは SQL または SQL 言語 (HQL) の Apache Hive バージョンを使用してデータをクエリできます。 Spark SQL は、Hive テーブル、Parquet、JSON などの複数のデータソースタイプをサポートします。 Spark SQL は、Spark の SQL インターフェイスを提供するだけでなく、開発者が SQL ステートメントを Spark アプリケーション開発プロセスに統合することもサポートします。Python、Java、Scala のいずれを使用する場合でも、ユーザーは単一のアプリケーションで SQL クエリと複雑なクエリを同時に実行できます。。データ分析。 Spark SQL は、Spark が提供する豊富なコンピューティング環境と緊密に統合されているため、他のオープンソースデータウェアハウスツールよりも優れています。 Spark SQL は、Spark l.0 で初めて導入されました。 Spark SQL が登場する前に、カリフォルニア大学バークレー校は Apache Hive を Spark 上で実行できるように変更しようとして、コンポーネント Shark を提案しました。ただし、Spark SQL の導入と開発により、Spark SQL は Spark エンジンおよび API とより緊密に統合されるようになり、Shark は Spark SQL に置き換えられました。

3. GraphX:

GraphX は、グラフコンピューティングのために Spark によって提供されるフレームワークおよびアルゴリズムライブラリです。 GraphX は、弾性分散属性グラフの概念を提案し、これに基づいてグラフビューとテーブルビューの有機的な組み合わせと統合を実現すると同時に、サブグラフ操作、サブグラフ操作など、グラフデータ処理のための豊富な操作を提供します。、および頂点属性。mapVertices の操作、エッジ属性の mapEdges の操作など。 GraphX は Pregel との統合も実現しており、PageRank、三角カウントなどのいくつかの一般的なグラフアルゴリズムを直接使用できます。

4. MLlib:

MLlib は、Spark が提供する機械学習アルゴリズムライブラリであり、主に分類、回帰、クラスタリング、コラボレーションなど、さまざまな古典的および一般的な機械学習アルゴリズムが含まれています。等MLlib は、モデル評価やデータインポートなどの追加機能を提供するだけでなく、一般的な勾配降下最適化基本アルゴリズムを含む、いくつかの下位レベルの機械学習プリミティブも提供します。これらのアプローチはすべて、クラスター上で簡単に拡張できるアーキテクチャとして設計されています。

さらに関連記事を読みたい場合は、PHP 中国語 Web サイトにアクセスしてください。！

以上がSpark の 4 つの主要コンポーネントは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python Java php scala sql 架构分布式 json 接口算法 hive spark apache mllib 数据分析

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：minidp と dp の違いは何ですか?次の記事：minidp と dp の違いは何ですか?

続きを見る