ホームページ  >  記事  >  バックエンド開発  >  Python には Spark ライブラリはありますか?

Python には Spark ライブラリはありますか?

(*-*)浩
(*-*)浩オリジナル
2019-06-26 13:34:512132ブラウズ

名前からわかるように、pyspark は、Python と Spark を組み合わせたものです。

この時点で、すでにコンピュータに Hadoop と Spark がインストールされていると思います。 time ,python3.

Python には Spark ライブラリはありますか?

Spark は Python_Shell、pyspark を提供するため、Python を使用して対話型の方法で Spark プログラムを作成できます。 (推奨学習: Python ビデオ チュートリアル )

pyspark のコア モジュールは SparkContext (略して sc) で、最も重要なデータ キャリアは RDD です。 RDD は NumPy 配列や Pandas シリーズに似ており、順序付けられた項目のコレクションとみなすことができます。ただし、これらの項目はドライバーのメモリには存在せず、多くのパーティションに分割されており、各パーティションのデータはクラスターのエグゼキュータのメモリに格納されます。

Python での pyspark 作業モジュールの紹介

import pyspark
from pyspark import SparkContext as sc
from pyspark import SparkConf
conf=SparkConf().setAppName("miniProject").setMaster("local[*]")
sc=SparkContext.getOrCreate(conf)
#任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数(比如主节点的URL)。初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Spark shell会自动初始化一个SparkContext(在Scala和Python下可以,但不支持Java)。
#getOrCreate表明可以视情况新建session或利用已有的session

SparkSession は、Spark 2.0 で導入された新しい概念です。

SparkSession は、Spark のさまざまな機能を学習するための統合されたエントリ ポイントをユーザーに提供します。 Spark の初期のバージョンでは、SparkContext が Spark のメインのエントリ ポイントでしたが、RDD がメイン API であるため、SparkContext を通じて RDD を作成し、操作します。他のすべての API では、異なるコンテキストを使用する必要があります。

たとえば、String の場合は StreamingContext を使用する必要があり、SQL の場合は sqlContext を使用し、Hive の場合は hiveContext を使用する必要があります。ただし、DataSet と DataFrame の API が徐々に標準 API になるにつれて、それらに対するアクセス ポイントを確立する必要があります。したがって、spark2.0 では、DataSet および DataFrame API のエントリ ポイントとして SparkSession が導入されています。

SparkSession は基本的に SQLContext と HiveContext の組み合わせです (StreamingContext は将来追加される可能性があります)。そのため、SQLContext と HiveContext で利用可能な API は SparkSession でも使用できます。 SparkSession は SparkContext を内部でカプセル化するため、計算は実際には SparkContext によって完了します。

Python 関連の技術記事の詳細については、Python チュートリアル 列にアクセスして学習してください。

以上がPython には Spark ライブラリはありますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。