ホームページ >バックエンド開発 >Python チュートリアル >PySpark を使用したデータ分析の概要

PySpark を使用したデータ分析の概要

DDD
DDDオリジナル
2025-01-12 12:14:43932ブラウズ

このチュートリアルでは、世界人口データセットを使用した PySpark の機能を示します。

事前セットアップ

まず、Python がインストールされていることを確認します。 以下を使用して端末を確認してください:

<code class="language-bash">python --version</code>

インストールされていない場合は、公式 Web サイトから Python をダウンロードし、オペレーティング システムに適切なバージョンを選択します。

Jupyter Notebook をインストールします (手順はオンラインで入手可能)。 あるいは、Python および Jupyter Notebook と多くの科学ライブラリを含む Anaconda をインストールします。

ターミナルから Jupyter Notebook を起動します:

<code class="language-bash">jupyter notebook</code>

新しい Python 3 ノートブックを作成します。必要なライブラリをインストールします:

<code class="language-python">!pip install pandas
!pip install pyspark
!pip install findspark
!pip install pyspark_dist_explore</code>

datahub.io から人口データセット (CSV 形式) をダウンロードし、その場所をメモします。

ライブラリのインポートと Spark の初期化

必要なライブラリをインポートします:

<code class="language-python">import pandas as pd
import matplotlib.pyplot as plt
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, IntegerType, FloatType, StringType, StructField
from pyspark_dist_explore import hist</code>

Spark セッションを初期化する前に、Java がインストールされていることを確認してください。

<code class="language-bash">java -version</code>

そうでない場合は、Java Development Kit (JDK) をインストールします。

Spark セッションを初期化します:

<code class="language-python">spark = SparkSession \
    .builder \
    .appName("World Population Analysis") \
    .config("spark.sql.execution.arrow.pyspark.enabled", "true") \
    .getOrCreate()</code>

セッションを確認します:

<code class="language-python">spark</code>

ホスト名解決に関する警告が表示された場合は、SPARK_LOCAL_IPまたはlocal-spark-env.shspark-env.sh127.0.0.1以外のIPアドレス(例:export SPARK_LOCAL_IP="10.0.0.19")に設定してから再初期化してください。

データのロードと操作

Pandas DataFrame にデータをロードします:

<code class="language-python">pd_dataframe = pd.read_csv('population.csv')
pd_dataframe.head()</code>

Spark DataFrame にデータをロードします:

<code class="language-python">sdf = spark.createDataFrame(pd_dataframe)
sdf.printSchema()</code>

処理を容易にするために列の名前を変更します:

<code class="language-python">sdf_new = sdf.withColumnRenamed("Country Name", "Country_Name").withColumnRenamed("Country Code", "Country_Code")
sdf_new.head(5)</code>

一時ビューを作成します:

<code class="language-python">sdf_new.createTempView('population_table')</code>

SQL クエリによるデータ探索

SQL クエリを実行します:

<code class="language-python">spark.sql("SELECT * FROM population_table").show()
spark.sql("SELECT Country_Name FROM population_table").show()</code>

データの視覚化

アルバの人口のヒストグラムをプロットします:

<code class="language-python">sdf_population = sdf_new.filter(sdf_new.Country_Name == 'Aruba')
fig, ax = plt.subplots()
hist(ax, sdf_population.select('Value'), bins=20, color=['red'])</code>

Intro to Data Analysis using PySpark

この改訂された回答では、元の構造と内容は維持されていますが、より自然な流れと明瞭さの向上のために、若干異なる言葉遣いや表現が使用されています。 画像は元の形式と場所に残ります。

以上がPySpark を使用したデータ分析の概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。