Maison >développement back-end >Tutoriel Python >Python a-t-il une bibliothèque Spark ?
Comme vous pouvez le voir d'après le nom pyspark, c'est une combinaison de python et spark.
Je crois que vous avez déjà installé hadoop et spark sur votre ordinateur à ce moment-là. time ,python3.
Spark fournit un Python_Shell, pyspark, afin que vous puissiez utiliser Python pour écrire des programmes Spark de manière interactive. (Apprentissage recommandé : Tutoriel vidéo Python)
Le module principal de pyspark est SparkContext (sc en abrégé), et le support de données le plus important est RDD. RDD est comme un tableau NumPy ou une série Pandas et peut être considéré comme une collection ordonnée d'éléments. Cependant, ces éléments n'existent pas dans la mémoire du pilote, mais sont divisés en plusieurs partitions, et les données de chaque partition sont stockées dans la mémoire de l'exécuteur du cluster.
Présentation du module de travail pyspark en Python
import pyspark from pyspark import SparkContext as sc from pyspark import SparkConf conf=SparkConf().setAppName("miniProject").setMaster("local[*]") sc=SparkContext.getOrCreate(conf) #任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数(比如主节点的URL)。初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Spark shell会自动初始化一个SparkContext(在Scala和Python下可以,但不支持Java)。 #getOrCreate表明可以视情况新建session或利用已有的session
SparkSession est un nouveau concept introduit dans Spark 2.0.
SparkSession offre aux utilisateurs un point d'entrée unifié pour apprendre diverses fonctions de Spark. Dans les premières versions de Spark, SparkContext était le principal point d'entrée de Spark. Puisque RDD est l'API principale, nous créons et exploitons RDD via sparkcontext. Pour toutes les autres API, nous devons utiliser un contexte différent.
Par exemple, pour Streming, nous devons utiliser StreamingContext ; pour SQL, utilisez sqlContext pour Hive, utilisez hiveContext. Mais à mesure que les API DataSet et DataFrame deviennent progressivement des API standards, des points d'accès doivent être établis pour elles. Par conséquent, dans spark2.0, SparkSession est introduit comme point d’entrée des API DataSet et DataFrame.
SparkSession est essentiellement une combinaison de SQLContext et HiveContext (StreamingContext pourra être ajouté à l'avenir), de sorte que les API disponibles sur SQLContext et HiveContext peuvent également être utilisées sur SparkSession. SparkSession encapsule SparkContext en interne, de sorte que le calcul est réellement effectué par SparkContext.
Pour plus d'articles techniques liés à Python, veuillez visiter la colonne Tutoriel Python pour apprendre !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!