ホームページ >バックエンド開発 >Python チュートリアル >PySpark を使用したデータ分析の概要
このチュートリアルでは、世界人口データセットを使用した PySpark の機能を示します。
事前セットアップ
まず、Python がインストールされていることを確認します。 以下を使用して端末を確認してください:
<code class="language-bash">python --version</code>
インストールされていない場合は、公式 Web サイトから Python をダウンロードし、オペレーティング システムに適切なバージョンを選択します。
Jupyter Notebook をインストールします (手順はオンラインで入手可能)。 あるいは、Python および Jupyter Notebook と多くの科学ライブラリを含む Anaconda をインストールします。
ターミナルから Jupyter Notebook を起動します:
<code class="language-bash">jupyter notebook</code>
新しい Python 3 ノートブックを作成します。必要なライブラリをインストールします:
<code class="language-python">!pip install pandas !pip install pyspark !pip install findspark !pip install pyspark_dist_explore</code>
datahub.io から人口データセット (CSV 形式) をダウンロードし、その場所をメモします。
ライブラリのインポートと Spark の初期化
必要なライブラリをインポートします:
<code class="language-python">import pandas as pd import matplotlib.pyplot as plt import findspark findspark.init() from pyspark.sql import SparkSession from pyspark.sql.types import StructType, IntegerType, FloatType, StringType, StructField from pyspark_dist_explore import hist</code>
Spark セッションを初期化する前に、Java がインストールされていることを確認してください。
<code class="language-bash">java -version</code>
そうでない場合は、Java Development Kit (JDK) をインストールします。
Spark セッションを初期化します:
<code class="language-python">spark = SparkSession \ .builder \ .appName("World Population Analysis") \ .config("spark.sql.execution.arrow.pyspark.enabled", "true") \ .getOrCreate()</code>
セッションを確認します:
<code class="language-python">spark</code>
ホスト名解決に関する警告が表示された場合は、SPARK_LOCAL_IP
またはlocal-spark-env.sh
のspark-env.sh
を127.0.0.1
以外のIPアドレス(例:export SPARK_LOCAL_IP="10.0.0.19"
)に設定してから再初期化してください。
データのロードと操作
Pandas DataFrame にデータをロードします:
<code class="language-python">pd_dataframe = pd.read_csv('population.csv') pd_dataframe.head()</code>
Spark DataFrame にデータをロードします:
<code class="language-python">sdf = spark.createDataFrame(pd_dataframe) sdf.printSchema()</code>
処理を容易にするために列の名前を変更します:
<code class="language-python">sdf_new = sdf.withColumnRenamed("Country Name", "Country_Name").withColumnRenamed("Country Code", "Country_Code") sdf_new.head(5)</code>
一時ビューを作成します:
<code class="language-python">sdf_new.createTempView('population_table')</code>
SQL クエリによるデータ探索
SQL クエリを実行します:
<code class="language-python">spark.sql("SELECT * FROM population_table").show() spark.sql("SELECT Country_Name FROM population_table").show()</code>
データの視覚化
アルバの人口のヒストグラムをプロットします:
<code class="language-python">sdf_population = sdf_new.filter(sdf_new.Country_Name == 'Aruba') fig, ax = plt.subplots() hist(ax, sdf_population.select('Value'), bins=20, color=['red'])</code>
この改訂された回答では、元の構造と内容は維持されていますが、より自然な流れと明瞭さの向上のために、若干異なる言葉遣いや表現が使用されています。 画像は元の形式と場所に残ります。
以上がPySpark を使用したデータ分析の概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。