Heim >Backend-Entwicklung >Python-Tutorial >Warum ist Spark langsam?
Beginnend mit dem auffälligen Titel „Warum ist Spark langsam?“ ist es wichtig zu beachten, dass die Bezeichnung Spark als „langsam“ verschiedene Bedeutungen haben kann. Ist es bei Aggregationen langsam? Daten werden geladen? Es gibt verschiedene Fälle. Außerdem ist „Spark“ ein weit gefasster Begriff und seine Leistung hängt von Faktoren wie der Programmiersprache und dem Nutzungskontext ab. Lassen Sie uns also den Titel präzisieren, bevor wir uns darauf einlassen.
Da ich Spark hauptsächlich mit Python auf Databricks verwende, werde ich den Umfang weiter eingrenzen.
Der verfeinerte Titel lautet:
„Erste Eindrücke von Spark: ‚Ich habe gehört, dass es schnell war, aber warum fühlt es sich langsam an?‘ Die Perspektive eines Anfängers“
Als jemand, der intensiv mit Pandas, NumPy und Bibliotheken für maschinelles Lernen arbeitet, bewunderte ich die Faszination der Fähigkeit von Spark, große Datenmengen mit paralleler und verteilter Verarbeitung zu verarbeiten. Als ich Spark endlich für die Arbeit nutzen konnte, war ich verwirrt über Szenarien, in denen es langsamer zu sein schien als Pandas. Da ich mir nicht sicher war, was los war, habe ich mehrere Erkenntnisse entdeckt und möchte sie gerne teilen.
Lassen Sie uns kurz auf die grundlegende Architektur von Spark eingehen.
(Cluster-Modus-Übersicht)
Ein Spark-Cluster besteht aus Worker Nodes, die die eigentliche Verarbeitung durchführen, und einem Driver Node, der die Ausführung koordiniert und plant. Diese Architektur beeinflusst alles, was im Folgenden besprochen wird. Denken Sie also daran.
Nun zu den wichtigsten Punkten.
Spark ist für die Verarbeitung großer Datenmengen optimiert, kann aber auch kleine Datensätze verarbeiten. Schauen Sie sich jedoch diesen Benchmark an:
(Benchmarking von Apache Spark auf einer Einzelknotenmaschine)
Die Ergebnisse zeigen, dass Pandas bei Datensätzen unter 15 GB Spark bei Aggregationsaufgaben übertrifft. Warum? Kurz gesagt: Der Aufwand der Spark-Optimierungen überwiegt die Vorteile für kleine Datensätze.
Der Link zeigt Fälle, in denen Spark nicht langsamer ist, diese befinden sich jedoch häufig in einem lokalen Clustermodus. Bei eigenständigen Setups können kleinere Datensätze aufgrund des Netzwerkkommunikationsaufwands zwischen Knoten von Nachteil sein.
Spark verwendet eine verzögerte Auswertung, was bedeutet, dass Transformationen nicht sofort ausgeführt werden, sondern verzögert werden, bis eine Aktion (z. B. Sammeln, Zählen, Anzeigen) eine Berechnung auslöst.
Beispiel (Pandas):
df = spark.read.table("tpch.lineitem").limit(1000).toPandas() df["l_tax_percentage"] = df["l_tax"] * 100 for l_orderkey, group_df in df.groupby("l_orderkey"): print(l_orderkey, group_df["l_tax_percentage"].mean())
Ausführungszeit: 3,04 Sekunden
Äquivalent in Spark:
from pyspark.sql import functions as F sdf = spark.read.table("tpch.lineitem").limit(1000) sdf = sdf.withColumn("l_tax_percentage", F.col("l_tax") * 100) for row in sdf.select("l_orderkey").distinct().collect(): grouped_sdf = sdf.filter(F.col("l_orderkey") == row.l_orderkey).groupBy("l_orderkey").agg( F.mean("l_tax_percentage").alias("avg_l_tax_percentage") ) print(grouped_sdf.show())
Ausführungszeit: Läuft immer noch nach 3 Minuten.
Warum?
Der Spark-Code erledigt dies effektiv in Pandas:
for l_orderkey, group_df in df.groupby("l_orderkey"): df["l_tax_percentage"] = df["l_tax"] * 100 print(l_orderkey, group_df["l_tax_percentage"].mean())
Vermeiden Sie solche Muster, indem Sie den Cache von Spark verwenden oder die Logik umstrukturieren, um wiederholte Berechnungen zu minimieren.
https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations
Shuffles treten auf, wenn Daten zwischen Workern neu verteilt werden, typischerweise bei Vorgängen wie „groupByKey“, „Join“ oder „Repartition“. Das Mischen kann aus folgenden Gründen langsam sein:
Wenn Sie beispielsweise mehr Arbeiter haben, verbessert sich die Leistung während eines Mischvorgangs nicht immer.
Fanden Sie das hilfreich? Spark ist ein hervorragendes Werkzeug, wenn es effektiv eingesetzt wird. Spark beschleunigt nicht nur die Verarbeitung großer Datenmengen, sondern glänzt auch mit seinem skalierbaren Ressourcenmanagement, insbesondere in der Cloud.
Testen Sie Spark, um Ihren Datenbetrieb und Ihre Datenverwaltung zu optimieren!
Das obige ist der detaillierte Inhalt vonWarum ist Spark langsam?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!