Einführung in die Datenanalyse mit PySpark-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Einführung in die Datenanalyse mit PySpark

DDD

Jan 12, 2025 pm 12:14 PM

Dieses Tutorial demonstriert die PySpark-Funktionalität anhand eines Weltbevölkerungsdatensatzes.

Vorläufige Einrichtung

Stellen Sie zunächst sicher, dass Python installiert ist. Überprüfen Sie Ihr Terminal mit:

python --version

Wenn es nicht installiert ist, laden Sie Python von der offiziellen Website herunter und wählen Sie die entsprechende Version für Ihr Betriebssystem aus.

Installieren Sie Jupyter Notebook (Anleitung online verfügbar). Alternativ können Sie Anaconda installieren, das Python und Jupyter Notebook sowie viele wissenschaftliche Bibliotheken enthält.

Starten Sie Jupyter Notebook von Ihrem Terminal aus:

jupyter notebook

Erstellen Sie ein neues Python 3-Notebook. Erforderliche Bibliotheken installieren:

!pip install pandas
!pip install pyspark
!pip install findspark
!pip install pyspark_dist_explore

Laden Sie den Bevölkerungsdatensatz (CSV-Format) von datahub.io herunter und notieren Sie seinen Speicherort.

Bibliotheken importieren und Spark initialisieren

Notwendige Bibliotheken importieren:

import pandas as pd
import matplotlib.pyplot as plt
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, IntegerType, FloatType, StringType, StructField
from pyspark_dist_explore import hist

Bevor Sie die Spark-Sitzung initialisieren, überprüfen Sie, ob Java installiert ist:

java -version

Wenn nicht, installieren Sie das Java Development Kit (JDK).

Initialisieren Sie die Spark-Sitzung:

spark = SparkSession \
    .builder \
    .appName("World Population Analysis") \
    .config("spark.sql.execution.arrow.pyspark.enabled", "true") \
    .getOrCreate()

Sitzung überprüfen:

spark

Wenn eine Warnung zur Hostnamenauflösung erscheint, setzen Sie SPARK_LOCAL_IP in local-spark-env.sh oder spark-env.sh auf eine andere IP-Adresse als 127.0.0.1 (z. B. export SPARK_LOCAL_IP="10.0.0.19"), bevor Sie es erneut initialisieren.

Laden und Bearbeiten von Daten

Daten in einen Pandas DataFrame laden:

pd_dataframe = pd.read_csv('population.csv')
pd_dataframe.head()

Daten in einen Spark DataFrame laden:

sdf = spark.createDataFrame(pd_dataframe)
sdf.printSchema()

Spalten zur einfacheren Verarbeitung umbenennen:

sdf_new = sdf.withColumnRenamed("Country Name", "Country_Name").withColumnRenamed("Country Code", "Country_Code")
sdf_new.head(5)

Erstellen Sie eine temporäre Ansicht:

sdf_new.createTempView('population_table')

Datenexploration mit SQL-Abfragen

SQL-Abfragen ausführen:

spark.sql("SELECT * FROM population_table").show()
spark.sql("SELECT Country_Name FROM population_table").show()

Datenvisualisierung

Zeichnen Sie ein Histogramm der Bevölkerung von Aruba:

sdf_population = sdf_new.filter(sdf_new.Country_Name == 'Aruba')
fig, ax = plt.subplots()
hist(ax, sdf_population.select('Value'), bins=20, color=['red'])

Intro to Data Analysis using PySpark

Diese überarbeitete Antwort behält die ursprüngliche Struktur und den ursprünglichen Inhalt bei, verwendet jedoch leicht andere Formulierungen und Formulierungen für einen natürlicheren Ablauf und eine bessere Klarheit. Das Bild behält sein ursprüngliches Format und seinen ursprünglichen Speicherort.

Das obige ist der detaillierte Inhalt vonEinführung in die Datenanalyse mit PySpark. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Python: Compiler oder Dolmetscher?May 13, 2025 am 12:10 AM

Python ist eine interpretierte Sprache, enthält aber auch den Zusammenstellungsprozess. 1) Python -Code wird zuerst in Bytecode zusammengestellt. 2) Bytecode wird von Python Virtual Machine interpretiert und ausgeführt. 3) Dieser Hybridmechanismus macht Python sowohl flexibel als auch effizient, aber nicht so schnell wie eine vollständig kompilierte Sprache.

Python für Loop vs während der Schleife: Wann zu verwenden, welches?May 13, 2025 am 12:07 AM

UseaforloopwheniteratoverasequenceOrforaPecificNumberoftimes; UseaWhileloopWencontiningUntilAconDitionisMet.ForloopsardealForknown -Sequencies, während whileloopSuituationen mithungeterminediterationen.

Python Loops: Die häufigsten FehlerMay 13, 2025 am 12:07 AM

PythonloopscanleadtoErors-ähnliche Finanzeloops, ModificingListsDuringiteration, Off-by-Oneerrors, Zero-Indexingissues und Nestroxinefficiens.toavoidthese: 1) Verwenden Sie

Für Schleife und während der Schleife in Python: Was sind die Vorteile von jedem?May 13, 2025 am 12:01 AM

ForloopSareadVantageousForknowniterations und Sequences, OfferingImplicity und Readability;

Python: Ein tiefes Eintauchen in Zusammenstellung und InterpretationMay 12, 2025 am 12:14 AM

PythonusesahybridmodelofCompilation und Interpretation: 1) thepythonInterPreterCompilessourceCodeIntoplatform-unintenpendentBytecode.2) Thepythonvirtualmachine (PVM) ThenexexexexecthisByTeCode, BalancingeAnsewusewithperformance.

Ist Python eine interpretierte oder eine kompilierte Sprache, und warum ist es wichtig?May 12, 2025 am 12:09 AM

Pythonisbothinterpreted und kompiliert.1) ItscompiledToByteCodeForPortabilityAcrossplatform.2) thytecodeTheninterpreted, und das ErlaubnisfordyNamictyPingandRapidDevelopment zulässt, obwohl es sich

Für Schleife vs während der Schleife in Python: Schlüsselunterschiede erklärtMay 12, 2025 am 12:08 AM

ForloopsaridealWenyouKnowtHenumberofofiterationssinadvance, während whileloopsarebetterForsituationswhereyouneedtoloopuntilaconditionismet.forloopsaremoreffictionAndable, geeigneter Verfaserungsverlust, whereaswiloopsofofermorcontrolanduseusefulfulf

Für und während Schleifen: ein praktischer LeitfadenMay 12, 2025 am 12:07 AM

Forloopsareusedwhenthenumberofiterationsisknowninadvance,whilewhileloopsareusedwhentheiterationsdependonacondition.1)Forloopsareidealforiteratingoversequenceslikelistsorarrays.2)Whileloopsaresuitableforscenarioswheretheloopcontinuesuntilaspecificcond

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vorByDDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Wie kann ich KB5055612 in Windows 10 nicht installieren?

3 Wochen vorByDDD

Nordhold: Fusionssystem, erklärt

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

VSCode Windows 64-Bit-Download

Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),