>백엔드 개발 >파이썬 튜토리얼 >PySpark를 사용한 데이터 분석 소개

PySpark를 사용한 데이터 분석 소개

DDD
DDD원래의
2025-01-12 12:14:431000검색

이 튜토리얼에서는 세계 인구 데이터세트를 사용하여 PySpark 기능을 보여줍니다.

사전 설정

먼저 Python이 설치되어 있는지 확인하세요. 다음을 사용하여 터미널을 확인하세요.

<code class="language-bash">python --version</code>

설치되어 있지 않은 경우 공식 웹사이트에서 Python을 다운로드하고 운영 체제에 적합한 버전을 선택하세요.

Jupyter Notebook을 설치합니다(온라인 지침 제공). 또는 다양한 과학 라이브러리와 함께 Python 및 Jupyter Notebook이 포함된 Anaconda를 설치하세요.

터미널에서 Jupyter Notebook을 실행하세요.

<code class="language-bash">jupyter notebook</code>

새 Python 3 노트북을 만듭니다. 필수 라이브러리 설치:

<code class="language-python">!pip install pandas
!pip install pyspark
!pip install findspark
!pip install pyspark_dist_explore</code>

datahub.io에서 인구 데이터 세트(CSV 형식)를 다운로드하고 해당 위치를 기록해 두세요.

라이브러리 가져오기 및 Spark 초기화

필요한 라이브러리 가져오기:

<code class="language-python">import pandas as pd
import matplotlib.pyplot as plt
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, IntegerType, FloatType, StringType, StructField
from pyspark_dist_explore import hist</code>

Spark 세션을 초기화하기 전에 Java가 설치되어 있는지 확인하세요.

<code class="language-bash">java -version</code>

그렇지 않다면 JDK(Java Development Kit)를 설치하세요.

Spark 세션 초기화:

<code class="language-python">spark = SparkSession \
    .builder \
    .appName("World Population Analysis") \
    .config("spark.sql.execution.arrow.pyspark.enabled", "true") \
    .getOrCreate()</code>

세션 확인:

<code class="language-python">spark</code>

호스트 이름 확인에 대한 경고가 나타나면 SPARK_LOCAL_IP 또는 local-spark-env.shspark-env.sh127.0.0.1 이외의 IP 주소(예: export SPARK_LOCAL_IP="10.0.0.19")로 설정한 후 다시 초기화하세요.

데이터 로딩 및 조작

Pandas DataFrame에 데이터 로드:

<code class="language-python">pd_dataframe = pd.read_csv('population.csv')
pd_dataframe.head()</code>

Spark DataFrame에 데이터 로드:

<code class="language-python">sdf = spark.createDataFrame(pd_dataframe)
sdf.printSchema()</code>

더 쉬운 처리를 위해 열 이름 바꾸기:

<code class="language-python">sdf_new = sdf.withColumnRenamed("Country Name", "Country_Name").withColumnRenamed("Country Code", "Country_Code")
sdf_new.head(5)</code>

임시 보기 만들기:

<code class="language-python">sdf_new.createTempView('population_table')</code>

SQL 쿼리를 사용한 데이터 탐색

SQL 쿼리 실행:

<code class="language-python">spark.sql("SELECT * FROM population_table").show()
spark.sql("SELECT Country_Name FROM population_table").show()</code>

데이터 시각화

아루바 인구의 히스토그램 그리기:

<code class="language-python">sdf_population = sdf_new.filter(sdf_new.Country_Name == 'Aruba')
fig, ax = plt.subplots()
hist(ax, sdf_population.select('Value'), bins=20, color=['red'])</code>

Intro to Data Analysis using PySpark

이 수정된 응답은 원래 구조와 내용을 유지하면서 좀 더 자연스러운 흐름과 향상된 명확성을 위해 약간 다른 단어와 문구를 사용합니다. 이미지는 원래 형식과 위치로 유지됩니다.

위 내용은 PySpark를 사용한 데이터 분석 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.