Heim >Backend-Entwicklung >Python-Tutorial >Einführung in die Datenanalyse mit PySpark

Einführung in die Datenanalyse mit PySpark

DDD
DDDOriginal
2025-01-12 12:14:43932Durchsuche

Dieses Tutorial demonstriert die PySpark-Funktionalität anhand eines Weltbevölkerungsdatensatzes.

Vorläufige Einrichtung

Stellen Sie zunächst sicher, dass Python installiert ist. Überprüfen Sie Ihr Terminal mit:

<code class="language-bash">python --version</code>

Wenn es nicht installiert ist, laden Sie Python von der offiziellen Website herunter und wählen Sie die entsprechende Version für Ihr Betriebssystem aus.

Installieren Sie Jupyter Notebook (Anleitung online verfügbar). Alternativ können Sie Anaconda installieren, das Python und Jupyter Notebook sowie viele wissenschaftliche Bibliotheken enthält.

Starten Sie Jupyter Notebook von Ihrem Terminal aus:

<code class="language-bash">jupyter notebook</code>

Erstellen Sie ein neues Python 3-Notebook. Erforderliche Bibliotheken installieren:

<code class="language-python">!pip install pandas
!pip install pyspark
!pip install findspark
!pip install pyspark_dist_explore</code>

Laden Sie den Bevölkerungsdatensatz (CSV-Format) von datahub.io herunter und notieren Sie seinen Speicherort.

Bibliotheken importieren und Spark initialisieren

Notwendige Bibliotheken importieren:

<code class="language-python">import pandas as pd
import matplotlib.pyplot as plt
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, IntegerType, FloatType, StringType, StructField
from pyspark_dist_explore import hist</code>

Bevor Sie die Spark-Sitzung initialisieren, überprüfen Sie, ob Java installiert ist:

<code class="language-bash">java -version</code>

Wenn nicht, installieren Sie das Java Development Kit (JDK).

Initialisieren Sie die Spark-Sitzung:

<code class="language-python">spark = SparkSession \
    .builder \
    .appName("World Population Analysis") \
    .config("spark.sql.execution.arrow.pyspark.enabled", "true") \
    .getOrCreate()</code>

Sitzung überprüfen:

<code class="language-python">spark</code>

Wenn eine Warnung zur Hostnamenauflösung erscheint, setzen Sie SPARK_LOCAL_IP in local-spark-env.sh oder spark-env.sh auf eine andere IP-Adresse als 127.0.0.1 (z. B. export SPARK_LOCAL_IP="10.0.0.19"), bevor Sie es erneut initialisieren.

Laden und Bearbeiten von Daten

Daten in einen Pandas DataFrame laden:

<code class="language-python">pd_dataframe = pd.read_csv('population.csv')
pd_dataframe.head()</code>

Daten in einen Spark DataFrame laden:

<code class="language-python">sdf = spark.createDataFrame(pd_dataframe)
sdf.printSchema()</code>

Spalten zur einfacheren Verarbeitung umbenennen:

<code class="language-python">sdf_new = sdf.withColumnRenamed("Country Name", "Country_Name").withColumnRenamed("Country Code", "Country_Code")
sdf_new.head(5)</code>

Erstellen Sie eine temporäre Ansicht:

<code class="language-python">sdf_new.createTempView('population_table')</code>

Datenexploration mit SQL-Abfragen

SQL-Abfragen ausführen:

<code class="language-python">spark.sql("SELECT * FROM population_table").show()
spark.sql("SELECT Country_Name FROM population_table").show()</code>

Datenvisualisierung

Zeichnen Sie ein Histogramm der Bevölkerung von Aruba:

<code class="language-python">sdf_population = sdf_new.filter(sdf_new.Country_Name == 'Aruba')
fig, ax = plt.subplots()
hist(ax, sdf_population.select('Value'), bins=20, color=['red'])</code>

Intro to Data Analysis using PySpark

Diese überarbeitete Antwort behält die ursprüngliche Struktur und den ursprünglichen Inhalt bei, verwendet jedoch leicht andere Formulierungen und Formulierungen für einen natürlicheren Ablauf und eine bessere Klarheit. Das Bild behält sein ursprüngliches Format und seinen ursprünglichen Speicherort.

Das obige ist der detaillierte Inhalt vonEinführung in die Datenanalyse mit PySpark. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Vorheriger Artikel:Leetcode Blind 75Nächster Artikel:Leetcode Blind 75