Heim >Backend-Entwicklung >Python-Tutorial >Erstellen Sie Ihren ersten Datenrahmen in PySpark
Erstellen eines Datenrahmens in PYSPARK, der Kerndatenstruktur für Spark, ist der grundlegende Schritt für jede Datenverarbeitungsaufgabe. Abhängig von Ihrer Datenquelle gibt es verschiedene Möglichkeiten, dies zu erreichen. Der einfachste und häufigste Ansatz ist die Verwendung der spark.read.csv()
-Methode, die wir später im Detail untersuchen werden. Bevor wir jedoch in Einzelheiten eintauchen, richten wir unsere Funkenumgebung ein. Sie müssen pyspark installieren lassen. Wenn nicht, können Sie es mit pip install pyspark
installieren. Anschließend müssen Sie eine SparkSession initialisieren, die der Einstiegspunkt für die Spark -Funktionalität ist. Dies erfolgt normalerweise wie folgt:
<code class="python">from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()</code>
Dies erstellt ein SparkSession -Objekt mit dem Namen spark
. Wir werden dieses Objekt während unserer Beispiele verwenden. Denken Sie daran, die Sitzung zu stoppen, wenn sie spark.stop()
beendet ist. Jetzt sind wir bereit, unseren ersten Datenrahmen zu erstellen. Die
spark.read.csv()
Hier ist, wie Sie einen Datenrahmen aus dieser CSV -Datei erstellen können: data.csv
<code class="csv">Name,Age,City Alice,25,New York Bob,30,London Charlie,28,Paris</code>
zeigt an, dass die ersten Zeile die Zeile enthält, und
(🎜> (🎜> Wenn diese Optionen nicht angegeben sind, geht Spark davon aus, dass die erste Zeile Daten ist und allen Spalten einen Standard -Datentyp (normalerweise Zeichenfolge) zuweist. Sie können das Schema explizit mithilfe eines<code class="python">from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate() df = spark.read.csv("data.csv", header=True, inferSchema=True) df.show() spark.stop()</code>-Objekts für mehr Kontrolle definieren, was für komplexe oder große Datensätze besonders vorteilhaft ist.
<code class="python">from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()</code>
<code class="csv">Name,Age,City Alice,25,New York Bob,30,London Charlie,28,Paris</code>bietet Methoden zum Zugriff auf diese Quellen. Das Schema explizit zu definieren ist oft sicherer, insbesondere für große Datensätze mit verschiedenen Datentypen. Erwägen Sie, Ihre Daten zu partitionieren oder andere Techniken wie
Das obige ist der detaillierte Inhalt vonErstellen Sie Ihren ersten Datenrahmen in PySpark. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!