Warum ist Spark langsam?
Beginnend mit dem auffälligen Titel „Warum ist Spark langsam?“ ist es wichtig zu beachten, dass die Bezeichnung Spark als „langsam“ verschiedene Bedeutungen haben kann. Ist es bei Aggregationen langsam? Daten werden geladen? Es gibt verschiedene Fälle. Außerdem ist „Spark“ ein weit gefasster Begriff und seine Leistung hängt von Faktoren wie der Programmiersprache und dem Nutzungskontext ab. Lassen Sie uns also den Titel präzisieren, bevor wir uns darauf einlassen.
Da ich Spark hauptsächlich mit Python auf Databricks verwende, werde ich den Umfang weiter eingrenzen.
Der verfeinerte Titel lautet:
„Erste Eindrücke von Spark: ‚Ich habe gehört, dass es schnell war, aber warum fühlt es sich langsam an?‘ Die Perspektive eines Anfängers“
Motivation zum Schreiben (Gelegenheitsgedanken)
Als jemand, der intensiv mit Pandas, NumPy und Bibliotheken für maschinelles Lernen arbeitet, bewunderte ich die Faszination der Fähigkeit von Spark, große Datenmengen mit paralleler und verteilter Verarbeitung zu verarbeiten. Als ich Spark endlich für die Arbeit nutzen konnte, war ich verwirrt über Szenarien, in denen es langsamer zu sein schien als Pandas. Da ich mir nicht sicher war, was los war, habe ich mehrere Erkenntnisse entdeckt und möchte sie gerne teilen.
Wann wird Ihr Spark langsam?
Bevor wir zum Hauptthema kommen
Lassen Sie uns kurz auf die grundlegende Architektur von Spark eingehen.
(Cluster-Modus-Übersicht)
Ein Spark-Cluster besteht aus Worker Nodes, die die eigentliche Verarbeitung durchführen, und einem Driver Node, der die Ausführung koordiniert und plant. Diese Architektur beeinflusst alles, was im Folgenden besprochen wird. Denken Sie also daran.
Nun zu den wichtigsten Punkten.
1. Der Datensatz ist nicht groß genug
Spark ist für die Verarbeitung großer Datenmengen optimiert, kann aber auch kleine Datensätze verarbeiten. Schauen Sie sich jedoch diesen Benchmark an:
(Benchmarking von Apache Spark auf einer Einzelknotenmaschine)
Die Ergebnisse zeigen, dass Pandas bei Datensätzen unter 15 GB Spark bei Aggregationsaufgaben übertrifft. Warum? Kurz gesagt: Der Aufwand der Spark-Optimierungen überwiegt die Vorteile für kleine Datensätze.
Der Link zeigt Fälle, in denen Spark nicht langsamer ist, diese befinden sich jedoch häufig in einem lokalen Clustermodus. Bei eigenständigen Setups können kleinere Datensätze aufgrund des Netzwerkkommunikationsaufwands zwischen Knoten von Nachteil sein.
- Pandas: Verarbeitet alles im Arbeitsspeicher auf einer einzigen Maschine, ohne Netzwerk- oder Speicher-E/A.
- Spark: Verwendet RDDs (Resilient Distributed Datasets), beinhaltet Netzwerkkommunikation zwischen Workern (falls verteilt) und verursacht Mehraufwand bei der Organisation von Daten für die parallele Verarbeitung.
2. Lazy Evaluation verstehen
Spark verwendet eine verzögerte Auswertung, was bedeutet, dass Transformationen nicht sofort ausgeführt werden, sondern verzögert werden, bis eine Aktion (z. B. Sammeln, Zählen, Anzeigen) eine Berechnung auslöst.
Beispiel (Pandas):
df = spark.read.table("tpch.lineitem").limit(1000).toPandas() df["l_tax_percentage"] = df["l_tax"] * 100 for l_orderkey, group_df in df.groupby("l_orderkey"): print(l_orderkey, group_df["l_tax_percentage"].mean())
Ausführungszeit: 3,04 Sekunden
Äquivalent in Spark:
from pyspark.sql import functions as F sdf = spark.read.table("tpch.lineitem").limit(1000) sdf = sdf.withColumn("l_tax_percentage", F.col("l_tax") * 100) for row in sdf.select("l_orderkey").distinct().collect(): grouped_sdf = sdf.filter(F.col("l_orderkey") == row.l_orderkey).groupBy("l_orderkey").agg( F.mean("l_tax_percentage").alias("avg_l_tax_percentage") ) print(grouped_sdf.show())
Ausführungszeit: Läuft immer noch nach 3 Minuten.
Warum?
- Lazy Evaluation: Alle Transformationen werden in die Warteschlange gestellt und nur während einer Aktion wie Show ausgeführt.
- Kommunikation zwischen Fahrer und Arbeiter: Vorgänge wie Abholen und Vorzeigen beinhalten die Datenübertragung vom Arbeiter zum Fahrer, was zu Verzögerungen führt.
Der Spark-Code erledigt dies effektiv in Pandas:
for l_orderkey, group_df in df.groupby("l_orderkey"): df["l_tax_percentage"] = df["l_tax"] * 100 print(l_orderkey, group_df["l_tax_percentage"].mean())
Vermeiden Sie solche Muster, indem Sie den Cache von Spark verwenden oder die Logik umstrukturieren, um wiederholte Berechnungen zu minimieren.
3. Achten Sie auf Shuffles
https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations
Shuffles treten auf, wenn Daten zwischen Workern neu verteilt werden, typischerweise bei Vorgängen wie „groupByKey“, „Join“ oder „Repartition“. Das Mischen kann aus folgenden Gründen langsam sein:
- Netzwerkkommunikation zwischen Knoten.
- Globale Sortierung und Aggregation von Daten über Partitionen hinweg.
Wenn Sie beispielsweise mehr Arbeiter haben, verbessert sich die Leistung während eines Mischvorgangs nicht immer.
- 32 GB x 8 Worker können langsamer sein als 64 GB x 4 Worker, da weniger Worker die Kommunikation zwischen Knoten reduzieren.
Abschluss
Fanden Sie das hilfreich? Spark ist ein hervorragendes Werkzeug, wenn es effektiv eingesetzt wird. Spark beschleunigt nicht nur die Verarbeitung großer Datenmengen, sondern glänzt auch mit seinem skalierbaren Ressourcenmanagement, insbesondere in der Cloud.
Testen Sie Spark, um Ihren Datenbetrieb und Ihre Datenverwaltung zu optimieren!
Das obige ist der detaillierte Inhalt vonWarum ist Spark langsam?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

ARRAYSAREGENERARYMOREMORY-effizientesThanlistsforstoringNumericalDataduetototototheirfixed-SizenReanddirectMemoryAccess.1) ArraysStoreElementsInacontuTouNDdirectMemoryAccess.

ToconvertapythonListtoanArray, UsethearrayModule: 1) ImportThearrayModule, 2) Kreatelist, 3) Usearray (Typcode, Liste) Toconvertit, spezifizieren thetypecodelik'i'i'i'i'i'i'i'i'Itingers.ThiskonversionoptimizesMorySageForHomoGeenousData, EnhancingIntationSerance -Formance -FormanceConconcompomp

Python -Listen können verschiedene Arten von Daten speichern. Die Beispielliste enthält Ganzzahlen, Saiten, schwimmende Punktzahlen, Boolesche, verschachtelte Listen und Wörterbücher. Die Listenflexibilität ist bei der Datenverarbeitung und -prototypung wertvoll, muss jedoch mit Vorsicht verwendet werden, um die Lesbarkeit und Wartbarkeit des Codes sicherzustellen.

Pythondoesnothavebuilt-In-In-In-In-Grad; UsethearraymoduleformemoryeffizientHomogenousDatastorage, whilelistareversatileformixedDatatypes

ThemostcommonlyusedModuleforcreatreatraysinpythonisnumpy.1) NumpyprovideseffictionToolsforArrayoperationen, IdealfornicericalData.2) ArraysCanbesedusednp.Array () for1dand2dstructures.3) numpyexcelsusingnp.Array () und -Antenoperationen

ToAppendElementStoapythonList, UsTheAppend () methodForsingleElelements, Extend () FormultipleElements, und INSERSt () FORSPECIFIFICEPosition.1) UseAppend () ForaddingOneElementattheend.2) usextend () toaddmultiElementsefficction.3) useInsert () toaddanelementataspeci

TocreateApythonList, usequarebrackets [] andsparateItemswithcommas.1) ListaredynamicandcanholdmixedDatatypes.2) UseAppend (), REME () und SSLICINGFORMIPLUMILATION.3) LISTCOMPRAUMENS

In den Bereichen Finanzen, wissenschaftliche Forschung, medizinische Versorgung und KI ist es entscheidend, numerische Daten effizient zu speichern und zu verarbeiten. 1) In der Finanzierung kann die Verwendung von Speicherzuordnungsdateien und Numpy -Bibliotheken die Datenverarbeitungsgeschwindigkeit erheblich verbessern. 2) Im Bereich der wissenschaftlichen Forschung sind HDF5 -Dateien für die Datenspeicherung und -abnahme optimiert. 3) In der medizinischen Versorgung verbessern die Datenbankoptimierungstechnologien wie die Indexierung und die Partitionierung die Leistung der Datenabfrage. 4) In AI beschleunigen Daten, die Sharding und das verteilte Training beschleunigen, Modelltraining. Die Systemleistung und Skalierbarkeit können erheblich verbessert werden, indem die richtigen Tools und Technologien ausgewählt und Kompromisse zwischen Speicher- und Verarbeitungsgeschwindigkeiten abgewogen werden.


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

PHPStorm Mac-Version
Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.
