Heim >Backend-Entwicklung >Python-Tutorial >Warum ist Spark langsam?

Warum ist Spark langsam?

Mary-Kate Olsen
Mary-Kate OlsenOriginal
2024-12-11 19:43:11878Durchsuche

Warum ist Spark langsam?

Beginnend mit dem auffälligen Titel „Warum ist Spark langsam?“ ist es wichtig zu beachten, dass die Bezeichnung Spark als „langsam“ verschiedene Bedeutungen haben kann. Ist es bei Aggregationen langsam? Daten werden geladen? Es gibt verschiedene Fälle. Außerdem ist „Spark“ ein weit gefasster Begriff und seine Leistung hängt von Faktoren wie der Programmiersprache und dem Nutzungskontext ab. Lassen Sie uns also den Titel präzisieren, bevor wir uns darauf einlassen.

Da ich Spark hauptsächlich mit Python auf Databricks verwende, werde ich den Umfang weiter eingrenzen.

Der verfeinerte Titel lautet:

„Erste Eindrücke von Spark: ‚Ich habe gehört, dass es schnell war, aber warum fühlt es sich langsam an?‘ Die Perspektive eines Anfängers“


Motivation zum Schreiben (Gelegenheitsgedanken)

Als jemand, der intensiv mit Pandas, NumPy und Bibliotheken für maschinelles Lernen arbeitet, bewunderte ich die Faszination der Fähigkeit von Spark, große Datenmengen mit paralleler und verteilter Verarbeitung zu verarbeiten. Als ich Spark endlich für die Arbeit nutzen konnte, war ich verwirrt über Szenarien, in denen es langsamer zu sein schien als Pandas. Da ich mir nicht sicher war, was los war, habe ich mehrere Erkenntnisse entdeckt und möchte sie gerne teilen.


Wann wird Ihr Spark langsam?

Bevor wir zum Hauptthema kommen

Lassen Sie uns kurz auf die grundlegende Architektur von Spark eingehen.

Why Is Spark Slow??

(Cluster-Modus-Übersicht)

Ein Spark-Cluster besteht aus Worker Nodes, die die eigentliche Verarbeitung durchführen, und einem Driver Node, der die Ausführung koordiniert und plant. Diese Architektur beeinflusst alles, was im Folgenden besprochen wird. Denken Sie also daran.

Nun zu den wichtigsten Punkten.


1. Der Datensatz ist nicht groß genug

Spark ist für die Verarbeitung großer Datenmengen optimiert, kann aber auch kleine Datensätze verarbeiten. Schauen Sie sich jedoch diesen Benchmark an:

Why Is Spark Slow??

(Benchmarking von Apache Spark auf einer Einzelknotenmaschine)

Die Ergebnisse zeigen, dass Pandas bei Datensätzen unter 15 GB Spark bei Aggregationsaufgaben übertrifft. Warum? Kurz gesagt: Der Aufwand der Spark-Optimierungen überwiegt die Vorteile für kleine Datensätze.

Der Link zeigt Fälle, in denen Spark nicht langsamer ist, diese befinden sich jedoch häufig in einem lokalen Clustermodus. Bei eigenständigen Setups können kleinere Datensätze aufgrund des Netzwerkkommunikationsaufwands zwischen Knoten von Nachteil sein.

  • Pandas: Verarbeitet alles im Arbeitsspeicher auf einer einzigen Maschine, ohne Netzwerk- oder Speicher-E/A.
  • Spark: Verwendet RDDs (Resilient Distributed Datasets), beinhaltet Netzwerkkommunikation zwischen Workern (falls verteilt) und verursacht Mehraufwand bei der Organisation von Daten für die parallele Verarbeitung.

2. Lazy Evaluation verstehen

Spark verwendet eine verzögerte Auswertung, was bedeutet, dass Transformationen nicht sofort ausgeführt werden, sondern verzögert werden, bis eine Aktion (z. B. Sammeln, Zählen, Anzeigen) eine Berechnung auslöst.

Beispiel (Pandas):

df = spark.read.table("tpch.lineitem").limit(1000).toPandas()
df["l_tax_percentage"] = df["l_tax"] * 100
for l_orderkey, group_df in df.groupby("l_orderkey"):
    print(l_orderkey, group_df["l_tax_percentage"].mean())

Ausführungszeit: 3,04 Sekunden

Äquivalent in Spark:

from pyspark.sql import functions as F
sdf = spark.read.table("tpch.lineitem").limit(1000)
sdf = sdf.withColumn("l_tax_percentage", F.col("l_tax") * 100)

for row in sdf.select("l_orderkey").distinct().collect():
    grouped_sdf = sdf.filter(F.col("l_orderkey") == row.l_orderkey).groupBy("l_orderkey").agg(
        F.mean("l_tax_percentage").alias("avg_l_tax_percentage")
    )
    print(grouped_sdf.show())

Ausführungszeit: Läuft immer noch nach 3 Minuten.


Warum?

  1. Lazy Evaluation: Alle Transformationen werden in die Warteschlange gestellt und nur während einer Aktion wie Show ausgeführt.
  2. Kommunikation zwischen Fahrer und Arbeiter: Vorgänge wie Abholen und Vorzeigen beinhalten die Datenübertragung vom Arbeiter zum Fahrer, was zu Verzögerungen führt.

Der Spark-Code erledigt dies effektiv in Pandas:

for l_orderkey, group_df in df.groupby("l_orderkey"):
    df["l_tax_percentage"] = df["l_tax"] * 100
    print(l_orderkey, group_df["l_tax_percentage"].mean())

Vermeiden Sie solche Muster, indem Sie den Cache von Spark verwenden oder die Logik umstrukturieren, um wiederholte Berechnungen zu minimieren.


3. Achten Sie auf Shuffles

https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations

Shuffles treten auf, wenn Daten zwischen Workern neu verteilt werden, typischerweise bei Vorgängen wie „groupByKey“, „Join“ oder „Repartition“. Das Mischen kann aus folgenden Gründen langsam sein:

  • Netzwerkkommunikation zwischen Knoten.
  • Globale Sortierung und Aggregation von Daten über Partitionen hinweg.

Wenn Sie beispielsweise mehr Arbeiter haben, verbessert sich die Leistung während eines Mischvorgangs nicht immer.

  • 32 GB x 8 Worker können langsamer sein als 64 GB x 4 Worker, da weniger Worker die Kommunikation zwischen Knoten reduzieren.

Abschluss

Fanden Sie das hilfreich? Spark ist ein hervorragendes Werkzeug, wenn es effektiv eingesetzt wird. Spark beschleunigt nicht nur die Verarbeitung großer Datenmengen, sondern glänzt auch mit seinem skalierbaren Ressourcenmanagement, insbesondere in der Cloud.

Testen Sie Spark, um Ihren Datenbetrieb und Ihre Datenverwaltung zu optimieren!

Das obige ist der detaillierte Inhalt vonWarum ist Spark langsam?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn