名前からわかるように、pyspark は、Python と Spark を組み合わせたものです。
この時点で、すでにコンピュータに Hadoop と Spark がインストールされていると思います。 time ,python3.
Spark は Python_Shell、pyspark を提供するため、Python を使用して対話型の方法で Spark プログラムを作成できます。 (推奨学習: Python ビデオ チュートリアル )
pyspark のコア モジュールは SparkContext (略して sc) で、最も重要なデータ キャリアは RDD です。 RDD は NumPy 配列や Pandas シリーズに似ており、順序付けられた項目のコレクションとみなすことができます。ただし、これらの項目はドライバーのメモリには存在せず、多くのパーティションに分割されており、各パーティションのデータはクラスターのエグゼキュータのメモリに格納されます。
Python での pyspark 作業モジュールの紹介
import pyspark from pyspark import SparkContext as sc from pyspark import SparkConf conf=SparkConf().setAppName("miniProject").setMaster("local[*]") sc=SparkContext.getOrCreate(conf) #任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数(比如主节点的URL)。初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Spark shell会自动初始化一个SparkContext(在Scala和Python下可以,但不支持Java)。 #getOrCreate表明可以视情况新建session或利用已有的session
SparkSession は、Spark 2.0 で導入された新しい概念です。
SparkSession は、Spark のさまざまな機能を学習するための統合されたエントリ ポイントをユーザーに提供します。 Spark の初期のバージョンでは、SparkContext が Spark のメインのエントリ ポイントでしたが、RDD がメイン API であるため、SparkContext を通じて RDD を作成し、操作します。他のすべての API では、異なるコンテキストを使用する必要があります。
たとえば、String の場合は StreamingContext を使用する必要があり、SQL の場合は sqlContext を使用し、Hive の場合は hiveContext を使用する必要があります。ただし、DataSet と DataFrame の API が徐々に標準 API になるにつれて、それらに対するアクセス ポイントを確立する必要があります。したがって、spark2.0 では、DataSet および DataFrame API のエントリ ポイントとして SparkSession が導入されています。
SparkSession は基本的に SQLContext と HiveContext の組み合わせです (StreamingContext は将来追加される可能性があります)。そのため、SQLContext と HiveContext で利用可能な API は SparkSession でも使用できます。 SparkSession は SparkContext を内部でカプセル化するため、計算は実際には SparkContext によって完了します。
Python 関連の技術記事の詳細については、Python チュートリアル 列にアクセスして学習してください。
以上がPython には Spark ライブラリはありますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。