Warum ist Spark langsam?
Beginnend mit dem auffälligen Titel „Warum ist Spark langsam?“ ist es wichtig zu beachten, dass die Bezeichnung Spark als „langsam“ verschiedene Bedeutungen haben kann. Ist es bei Aggregationen langsam? Daten werden geladen? Es gibt verschiedene Fälle. Außerdem ist „Spark“ ein weit gefasster Begriff und seine Leistung hängt von Faktoren wie der Programmiersprache und dem Nutzungskontext ab. Lassen Sie uns also den Titel präzisieren, bevor wir uns darauf einlassen.
Da ich Spark hauptsächlich mit Python auf Databricks verwende, werde ich den Umfang weiter eingrenzen.
Der verfeinerte Titel lautet:
„Erste Eindrücke von Spark: ‚Ich habe gehört, dass es schnell war, aber warum fühlt es sich langsam an?‘ Die Perspektive eines Anfängers“
Motivation zum Schreiben (Gelegenheitsgedanken)
Als jemand, der intensiv mit Pandas, NumPy und Bibliotheken für maschinelles Lernen arbeitet, bewunderte ich die Faszination der Fähigkeit von Spark, große Datenmengen mit paralleler und verteilter Verarbeitung zu verarbeiten. Als ich Spark endlich für die Arbeit nutzen konnte, war ich verwirrt über Szenarien, in denen es langsamer zu sein schien als Pandas. Da ich mir nicht sicher war, was los war, habe ich mehrere Erkenntnisse entdeckt und möchte sie gerne teilen.
Wann wird Ihr Spark langsam?
Bevor wir zum Hauptthema kommen
Lassen Sie uns kurz auf die grundlegende Architektur von Spark eingehen.
(Cluster-Modus-Übersicht)
Ein Spark-Cluster besteht aus Worker Nodes, die die eigentliche Verarbeitung durchführen, und einem Driver Node, der die Ausführung koordiniert und plant. Diese Architektur beeinflusst alles, was im Folgenden besprochen wird. Denken Sie also daran.
Nun zu den wichtigsten Punkten.
1. Der Datensatz ist nicht groß genug
Spark ist für die Verarbeitung großer Datenmengen optimiert, kann aber auch kleine Datensätze verarbeiten. Schauen Sie sich jedoch diesen Benchmark an:
(Benchmarking von Apache Spark auf einer Einzelknotenmaschine)
Die Ergebnisse zeigen, dass Pandas bei Datensätzen unter 15 GB Spark bei Aggregationsaufgaben übertrifft. Warum? Kurz gesagt: Der Aufwand der Spark-Optimierungen überwiegt die Vorteile für kleine Datensätze.
Der Link zeigt Fälle, in denen Spark nicht langsamer ist, diese befinden sich jedoch häufig in einem lokalen Clustermodus. Bei eigenständigen Setups können kleinere Datensätze aufgrund des Netzwerkkommunikationsaufwands zwischen Knoten von Nachteil sein.
- Pandas: Verarbeitet alles im Arbeitsspeicher auf einer einzigen Maschine, ohne Netzwerk- oder Speicher-E/A.
- Spark: Verwendet RDDs (Resilient Distributed Datasets), beinhaltet Netzwerkkommunikation zwischen Workern (falls verteilt) und verursacht Mehraufwand bei der Organisation von Daten für die parallele Verarbeitung.
2. Lazy Evaluation verstehen
Spark verwendet eine verzögerte Auswertung, was bedeutet, dass Transformationen nicht sofort ausgeführt werden, sondern verzögert werden, bis eine Aktion (z. B. Sammeln, Zählen, Anzeigen) eine Berechnung auslöst.
Beispiel (Pandas):
df = spark.read.table("tpch.lineitem").limit(1000).toPandas() df["l_tax_percentage"] = df["l_tax"] * 100 for l_orderkey, group_df in df.groupby("l_orderkey"): print(l_orderkey, group_df["l_tax_percentage"].mean())
Ausführungszeit: 3,04 Sekunden
Äquivalent in Spark:
from pyspark.sql import functions as F sdf = spark.read.table("tpch.lineitem").limit(1000) sdf = sdf.withColumn("l_tax_percentage", F.col("l_tax") * 100) for row in sdf.select("l_orderkey").distinct().collect(): grouped_sdf = sdf.filter(F.col("l_orderkey") == row.l_orderkey).groupBy("l_orderkey").agg( F.mean("l_tax_percentage").alias("avg_l_tax_percentage") ) print(grouped_sdf.show())
Ausführungszeit: Läuft immer noch nach 3 Minuten.
Warum?
- Lazy Evaluation: Alle Transformationen werden in die Warteschlange gestellt und nur während einer Aktion wie Show ausgeführt.
- Kommunikation zwischen Fahrer und Arbeiter: Vorgänge wie Abholen und Vorzeigen beinhalten die Datenübertragung vom Arbeiter zum Fahrer, was zu Verzögerungen führt.
Der Spark-Code erledigt dies effektiv in Pandas:
for l_orderkey, group_df in df.groupby("l_orderkey"): df["l_tax_percentage"] = df["l_tax"] * 100 print(l_orderkey, group_df["l_tax_percentage"].mean())
Vermeiden Sie solche Muster, indem Sie den Cache von Spark verwenden oder die Logik umstrukturieren, um wiederholte Berechnungen zu minimieren.
3. Achten Sie auf Shuffles
https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations
Shuffles treten auf, wenn Daten zwischen Workern neu verteilt werden, typischerweise bei Vorgängen wie „groupByKey“, „Join“ oder „Repartition“. Das Mischen kann aus folgenden Gründen langsam sein:
- Netzwerkkommunikation zwischen Knoten.
- Globale Sortierung und Aggregation von Daten über Partitionen hinweg.
Wenn Sie beispielsweise mehr Arbeiter haben, verbessert sich die Leistung während eines Mischvorgangs nicht immer.
- 32 GB x 8 Worker können langsamer sein als 64 GB x 4 Worker, da weniger Worker die Kommunikation zwischen Knoten reduzieren.
Abschluss
Fanden Sie das hilfreich? Spark ist ein hervorragendes Werkzeug, wenn es effektiv eingesetzt wird. Spark beschleunigt nicht nur die Verarbeitung großer Datenmengen, sondern glänzt auch mit seinem skalierbaren Ressourcenmanagement, insbesondere in der Cloud.
Testen Sie Spark, um Ihren Datenbetrieb und Ihre Datenverwaltung zu optimieren!
Das obige ist der detaillierte Inhalt vonWarum ist Spark langsam?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

In diesem Artikel wird erklärt, wie man schöne Suppe, eine Python -Bibliothek, verwendet, um HTML zu analysieren. Es beschreibt gemeinsame Methoden wie find (), find_all (), select () und get_text () für die Datenextraktion, die Behandlung verschiedener HTML -Strukturen und -Anternativen (SEL)

Dieser Artikel vergleicht TensorFlow und Pytorch für Deep Learning. Es beschreibt die beteiligten Schritte: Datenvorbereitung, Modellbildung, Schulung, Bewertung und Bereitstellung. Wichtige Unterschiede zwischen den Frameworks, insbesondere bezüglich des rechnerischen Graps

Dieser Artikel führt die Python-Entwickler in den Bauen von CLIS-Zeilen-Schnittstellen (CLIS). Es werden mit Bibliotheken wie Typer, Click und ArgParse beschrieben, die Eingabe-/Ausgabemedelung betonen und benutzerfreundliche Designmuster für eine verbesserte CLI-Usabilität fördern.

In dem Artikel werden beliebte Python-Bibliotheken wie Numpy, Pandas, Matplotlib, Scikit-Learn, TensorFlow, Django, Flask und Anfragen erörtert, die ihre Verwendung in wissenschaftlichen Computing, Datenanalyse, Visualisierung, maschinellem Lernen, Webentwicklung und h beschreiben

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

Der Artikel erörtert die Rolle virtueller Umgebungen in Python und konzentriert sich auf die Verwaltung von Projektabhängigkeiten und die Vermeidung von Konflikten. Es beschreibt ihre Erstellung, Aktivierung und Vorteile bei der Verbesserung des Projektmanagements und zur Verringerung der Abhängigkeitsprobleme.

Regelmäßige Ausdrücke sind leistungsstarke Tools für Musteranpassung und Textmanipulation in der Programmierung, wodurch die Effizienz bei der Textverarbeitung in verschiedenen Anwendungen verbessert wird.


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

PHPStorm Mac-Version
Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

Herunterladen der Mac-Version des Atom-Editors
Der beliebteste Open-Source-Editor

mPDF
mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

Dreamweaver Mac
Visuelle Webentwicklungstools