Dieses Tutorial demonstriert die PySpark-Funktionalität anhand eines Weltbevölkerungsdatensatzes.
Vorläufige Einrichtung
Stellen Sie zunächst sicher, dass Python installiert ist. Überprüfen Sie Ihr Terminal mit:
python --version
Wenn es nicht installiert ist, laden Sie Python von der offiziellen Website herunter und wählen Sie die entsprechende Version für Ihr Betriebssystem aus.
Installieren Sie Jupyter Notebook (Anleitung online verfügbar). Alternativ können Sie Anaconda installieren, das Python und Jupyter Notebook sowie viele wissenschaftliche Bibliotheken enthält.
Starten Sie Jupyter Notebook von Ihrem Terminal aus:
jupyter notebook
Erstellen Sie ein neues Python 3-Notebook. Erforderliche Bibliotheken installieren:
!pip install pandas !pip install pyspark !pip install findspark !pip install pyspark_dist_explore
Laden Sie den Bevölkerungsdatensatz (CSV-Format) von datahub.io herunter und notieren Sie seinen Speicherort.
Bibliotheken importieren und Spark initialisieren
Notwendige Bibliotheken importieren:
import pandas as pd import matplotlib.pyplot as plt import findspark findspark.init() from pyspark.sql import SparkSession from pyspark.sql.types import StructType, IntegerType, FloatType, StringType, StructField from pyspark_dist_explore import hist
Bevor Sie die Spark-Sitzung initialisieren, überprüfen Sie, ob Java installiert ist:
java -version
Wenn nicht, installieren Sie das Java Development Kit (JDK).
Initialisieren Sie die Spark-Sitzung:
spark = SparkSession \ .builder \ .appName("World Population Analysis") \ .config("spark.sql.execution.arrow.pyspark.enabled", "true") \ .getOrCreate()
Sitzung überprüfen:
spark
Wenn eine Warnung zur Hostnamenauflösung erscheint, setzen Sie SPARK_LOCAL_IP
in local-spark-env.sh
oder spark-env.sh
auf eine andere IP-Adresse als 127.0.0.1
(z. B. export SPARK_LOCAL_IP="10.0.0.19"
), bevor Sie es erneut initialisieren.
Laden und Bearbeiten von Daten
Daten in einen Pandas DataFrame laden:
pd_dataframe = pd.read_csv('population.csv') pd_dataframe.head()
Daten in einen Spark DataFrame laden:
sdf = spark.createDataFrame(pd_dataframe) sdf.printSchema()
Spalten zur einfacheren Verarbeitung umbenennen:
sdf_new = sdf.withColumnRenamed("Country Name", "Country_Name").withColumnRenamed("Country Code", "Country_Code") sdf_new.head(5)
Erstellen Sie eine temporäre Ansicht:
sdf_new.createTempView('population_table')
Datenexploration mit SQL-Abfragen
SQL-Abfragen ausführen:
spark.sql("SELECT * FROM population_table").show() spark.sql("SELECT Country_Name FROM population_table").show()
Datenvisualisierung
Zeichnen Sie ein Histogramm der Bevölkerung von Aruba:
sdf_population = sdf_new.filter(sdf_new.Country_Name == 'Aruba') fig, ax = plt.subplots() hist(ax, sdf_population.select('Value'), bins=20, color=['red'])
Diese überarbeitete Antwort behält die ursprüngliche Struktur und den ursprünglichen Inhalt bei, verwendet jedoch leicht andere Formulierungen und Formulierungen für einen natürlicheren Ablauf und eine bessere Klarheit. Das Bild behält sein ursprüngliches Format und seinen ursprünglichen Speicherort.
Das obige ist der detaillierte Inhalt vonEinführung in die Datenanalyse mit PySpark. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Python ist eine interpretierte Sprache, enthält aber auch den Zusammenstellungsprozess. 1) Python -Code wird zuerst in Bytecode zusammengestellt. 2) Bytecode wird von Python Virtual Machine interpretiert und ausgeführt. 3) Dieser Hybridmechanismus macht Python sowohl flexibel als auch effizient, aber nicht so schnell wie eine vollständig kompilierte Sprache.

UseaforloopwheniteratoverasequenceOrforaPecificNumberoftimes; UseaWhileloopWencontiningUntilAconDitionisMet.ForloopsardealForknown -Sequencies, während whileloopSuituationen mithungeterminediterationen.

PythonloopscanleadtoErors-ähnliche Finanzeloops, ModificingListsDuringiteration, Off-by-Oneerrors, Zero-Indexingissues und Nestroxinefficiens.toavoidthese: 1) Verwenden Sie

ForloopSareadVantageousForknowniterations und Sequences, OfferingImplicity und Readability;

PythonusesahybridmodelofCompilation und Interpretation: 1) thepythonInterPreterCompilessourceCodeIntoplatform-unintenpendentBytecode.2) Thepythonvirtualmachine (PVM) ThenexexexexecthisByTeCode, BalancingeAnsewusewithperformance.

Pythonisbothinterpreted und kompiliert.1) ItscompiledToByteCodeForPortabilityAcrossplatform.2) thytecodeTheninterpreted, und das ErlaubnisfordyNamictyPingandRapidDevelopment zulässt, obwohl es sich

ForloopsaridealWenyouKnowtHenumberofofiterationssinadvance, während whileloopsarebetterForsituationswhereyouneedtoloopuntilaconditionismet.forloopsaremoreffictionAndable, geeigneter Verfaserungsverlust, whereaswiloopsofofermorcontrolanduseusefulfulf

Forloopsareusedwhenthenumberofiterationsisknowninadvance,whilewhileloopsareusedwhentheiterationsdependonacondition.1)Forloopsareidealforiteratingoversequenceslikelistsorarrays.2)Whileloopsaresuitableforscenarioswheretheloopcontinuesuntilaspecificcond


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

VSCode Windows 64-Bit-Download
Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

WebStorm-Mac-Version
Nützliche JavaScript-Entwicklungstools

mPDF
mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

SAP NetWeaver Server-Adapter für Eclipse
Integrieren Sie Eclipse mit dem SAP NetWeaver-Anwendungsserver.

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor
