>백엔드 개발 >파이썬 튜토리얼 >Python에 스파크 라이브러리가 있나요?

Python에 스파크 라이브러리가 있나요?

(*-*)浩
(*-*)浩원래의
2019-06-26 13:34:512199검색

pyspark라는 이름에서 알 수 있듯이 Python과 Spark의 조합입니다.

이미 컴퓨터에 접속되어 있는 것 같아요 현재

Python에 스파크 라이브러리가 있나요?

Spark에서는 Python_Shell, pyspark가 로드되어 있습니다. Python을 사용하여 Spark 프로그램을 작성하는 방식으로 상호 작용할 수 있습니다. (추천 학습: Python 비디오 튜토리얼)

Pyspark의 핵심 모듈은 가장 중요한 데이터 매체인 SparkContext(줄여서 sc)입니다. RDD입니다. RDD는 NumPy 배열이나 Pandas 시리즈와 같으며, 순서가 지정된 항목 모음으로 간주할 수 있습니다. 그러나 이러한 항목은 드라이버의 메모리에 존재하지 않고 여러 개의 파티션으로 나누어져 있으며, 각 파티션의 데이터는 클러스터의 Executor의 메모리에 저장된다.

Python의 pyspark 작업 모듈 소개

import pyspark
from pyspark import SparkContext as sc
from pyspark import SparkConf
conf=SparkConf().setAppName("miniProject").setMaster("local[*]")
sc=SparkContext.getOrCreate(conf)
#任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数(比如主节点的URL)。初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Spark shell会自动初始化一个SparkContext(在Scala和Python下可以,但不支持Java)。
#getOrCreate表明可以视情况新建session或利用已有的session

SparkSession은 Spark 2.0에 도입된 새로운 개념입니다.

SparkSession은 사용자에게 Spark의 다양한 기능을 배울 수 있는 통합된 진입점을 제공합니다. Spark 초기 버전에서는 SparkContext가 Spark의 주요 진입점이었습니다. RDD가 주요 API이므로 우리는 Sparkcontext를 통해 RDD를 생성하고 운영합니다. 다른 모든 API에는 다른 컨텍스트를 사용해야 합니다.

예를 들어 Streming의 경우 SQL에는 StreamingContext를, hive에는 sqlContext를, hiveContext를 사용해야 합니다. 그러나 DataSet 및 DataFrame의 API가 점차 표준 API로 자리잡으면서 이에 대한 액세스 포인트를 구축해야 합니다. 따라서 Spark2.0에서는 DataSet 및 DataFrame API의 진입점으로 SparkSession이 도입되었습니다.

SparkSession은 본질적으로 SQLContext와 HiveContext의 조합입니다(StreamingContext는 향후 추가될 수 있음). 따라서 SQLContext 및 HiveContext에서 사용 가능한 API를 SparkSession에서도 사용할 수 있습니다. SparkSession은 SparkContext를 내부적으로 캡슐화하므로 계산은 실제로 SparkContext에 의해 완료됩니다.

더 많은 Python 관련 기술 기사를 보려면 Python Tutorial 열을 방문하여 알아보세요!

위 내용은 Python에 스파크 라이브러리가 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.