suchen

Warum ist Spark langsam?

Beginnend mit dem auffälligen Titel „Warum ist Spark langsam?“ ist es wichtig zu beachten, dass die Bezeichnung Spark als „langsam“ verschiedene Bedeutungen haben kann. Ist es bei Aggregationen langsam? Daten werden geladen? Es gibt verschiedene Fälle. Außerdem ist „Spark“ ein weit gefasster Begriff und seine Leistung hängt von Faktoren wie der Programmiersprache und dem Nutzungskontext ab. Lassen Sie uns also den Titel präzisieren, bevor wir uns darauf einlassen.

Da ich Spark hauptsächlich mit Python auf Databricks verwende, werde ich den Umfang weiter eingrenzen.

Der verfeinerte Titel lautet:

„Erste Eindrücke von Spark: ‚Ich habe gehört, dass es schnell war, aber warum fühlt es sich langsam an?‘ Die Perspektive eines Anfängers“


Motivation zum Schreiben (Gelegenheitsgedanken)

Als jemand, der intensiv mit Pandas, NumPy und Bibliotheken für maschinelles Lernen arbeitet, bewunderte ich die Faszination der Fähigkeit von Spark, große Datenmengen mit paralleler und verteilter Verarbeitung zu verarbeiten. Als ich Spark endlich für die Arbeit nutzen konnte, war ich verwirrt über Szenarien, in denen es langsamer zu sein schien als Pandas. Da ich mir nicht sicher war, was los war, habe ich mehrere Erkenntnisse entdeckt und möchte sie gerne teilen.


Wann wird Ihr Spark langsam?

Bevor wir zum Hauptthema kommen

Lassen Sie uns kurz auf die grundlegende Architektur von Spark eingehen.

Why Is Spark Slow??

(Cluster-Modus-Übersicht)

Ein Spark-Cluster besteht aus Worker Nodes, die die eigentliche Verarbeitung durchführen, und einem Driver Node, der die Ausführung koordiniert und plant. Diese Architektur beeinflusst alles, was im Folgenden besprochen wird. Denken Sie also daran.

Nun zu den wichtigsten Punkten.


1. Der Datensatz ist nicht groß genug

Spark ist für die Verarbeitung großer Datenmengen optimiert, kann aber auch kleine Datensätze verarbeiten. Schauen Sie sich jedoch diesen Benchmark an:

Why Is Spark Slow??

(Benchmarking von Apache Spark auf einer Einzelknotenmaschine)

Die Ergebnisse zeigen, dass Pandas bei Datensätzen unter 15 GB Spark bei Aggregationsaufgaben übertrifft. Warum? Kurz gesagt: Der Aufwand der Spark-Optimierungen überwiegt die Vorteile für kleine Datensätze.

Der Link zeigt Fälle, in denen Spark nicht langsamer ist, diese befinden sich jedoch häufig in einem lokalen Clustermodus. Bei eigenständigen Setups können kleinere Datensätze aufgrund des Netzwerkkommunikationsaufwands zwischen Knoten von Nachteil sein.

  • Pandas: Verarbeitet alles im Arbeitsspeicher auf einer einzigen Maschine, ohne Netzwerk- oder Speicher-E/A.
  • Spark: Verwendet RDDs (Resilient Distributed Datasets), beinhaltet Netzwerkkommunikation zwischen Workern (falls verteilt) und verursacht Mehraufwand bei der Organisation von Daten für die parallele Verarbeitung.

2. Lazy Evaluation verstehen

Spark verwendet eine verzögerte Auswertung, was bedeutet, dass Transformationen nicht sofort ausgeführt werden, sondern verzögert werden, bis eine Aktion (z. B. Sammeln, Zählen, Anzeigen) eine Berechnung auslöst.

Beispiel (Pandas):

df = spark.read.table("tpch.lineitem").limit(1000).toPandas()
df["l_tax_percentage"] = df["l_tax"] * 100
for l_orderkey, group_df in df.groupby("l_orderkey"):
    print(l_orderkey, group_df["l_tax_percentage"].mean())

Ausführungszeit: 3,04 Sekunden

Äquivalent in Spark:

from pyspark.sql import functions as F
sdf = spark.read.table("tpch.lineitem").limit(1000)
sdf = sdf.withColumn("l_tax_percentage", F.col("l_tax") * 100)

for row in sdf.select("l_orderkey").distinct().collect():
    grouped_sdf = sdf.filter(F.col("l_orderkey") == row.l_orderkey).groupBy("l_orderkey").agg(
        F.mean("l_tax_percentage").alias("avg_l_tax_percentage")
    )
    print(grouped_sdf.show())

Ausführungszeit: Läuft immer noch nach 3 Minuten.


Warum?

  1. Lazy Evaluation: Alle Transformationen werden in die Warteschlange gestellt und nur während einer Aktion wie Show ausgeführt.
  2. Kommunikation zwischen Fahrer und Arbeiter: Vorgänge wie Abholen und Vorzeigen beinhalten die Datenübertragung vom Arbeiter zum Fahrer, was zu Verzögerungen führt.

Der Spark-Code erledigt dies effektiv in Pandas:

for l_orderkey, group_df in df.groupby("l_orderkey"):
    df["l_tax_percentage"] = df["l_tax"] * 100
    print(l_orderkey, group_df["l_tax_percentage"].mean())

Vermeiden Sie solche Muster, indem Sie den Cache von Spark verwenden oder die Logik umstrukturieren, um wiederholte Berechnungen zu minimieren.


3. Achten Sie auf Shuffles

https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations

Shuffles treten auf, wenn Daten zwischen Workern neu verteilt werden, typischerweise bei Vorgängen wie „groupByKey“, „Join“ oder „Repartition“. Das Mischen kann aus folgenden Gründen langsam sein:

  • Netzwerkkommunikation zwischen Knoten.
  • Globale Sortierung und Aggregation von Daten über Partitionen hinweg.

Wenn Sie beispielsweise mehr Arbeiter haben, verbessert sich die Leistung während eines Mischvorgangs nicht immer.

  • 32 GB x 8 Worker können langsamer sein als 64 GB x 4 Worker, da weniger Worker die Kommunikation zwischen Knoten reduzieren.

Abschluss

Fanden Sie das hilfreich? Spark ist ein hervorragendes Werkzeug, wenn es effektiv eingesetzt wird. Spark beschleunigt nicht nur die Verarbeitung großer Datenmengen, sondern glänzt auch mit seinem skalierbaren Ressourcenmanagement, insbesondere in der Cloud.

Testen Sie Spark, um Ihren Datenbetrieb und Ihre Datenverwaltung zu optimieren!

Das obige ist der detaillierte Inhalt vonWarum ist Spark langsam?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Warum sind Arrays im Allgemeinen speichereffizienter als Listen für das Speichern numerischer Daten?Warum sind Arrays im Allgemeinen speichereffizienter als Listen für das Speichern numerischer Daten?May 05, 2025 am 12:15 AM

ARRAYSAREGENERARYMOREMORY-effizientesThanlistsforstoringNumericalDataduetototototheirfixed-SizenReanddirectMemoryAccess.1) ArraysStoreElementsInacontuTouNDdirectMemoryAccess.

Wie können Sie eine Python -Liste in ein Python -Array konvertieren?Wie können Sie eine Python -Liste in ein Python -Array konvertieren?May 05, 2025 am 12:10 AM

ToconvertapythonListtoanArray, UsethearrayModule: 1) ImportThearrayModule, 2) Kreatelist, 3) Usearray (Typcode, Liste) Toconvertit, spezifizieren thetypecodelik'i'i'i'i'i'i'i'i'Itingers.ThiskonversionoptimizesMorySageForHomoGeenousData, EnhancingIntationSerance -Formance -FormanceConconcompomp

Können Sie verschiedene Datentypen in derselben Python -Liste speichern? Geben Sie ein Beispiel an.Können Sie verschiedene Datentypen in derselben Python -Liste speichern? Geben Sie ein Beispiel an.May 05, 2025 am 12:10 AM

Python -Listen können verschiedene Arten von Daten speichern. Die Beispielliste enthält Ganzzahlen, Saiten, schwimmende Punktzahlen, Boolesche, verschachtelte Listen und Wörterbücher. Die Listenflexibilität ist bei der Datenverarbeitung und -prototypung wertvoll, muss jedoch mit Vorsicht verwendet werden, um die Lesbarkeit und Wartbarkeit des Codes sicherzustellen.

Was ist der Unterschied zwischen Arrays und Listen in Python?Was ist der Unterschied zwischen Arrays und Listen in Python?May 05, 2025 am 12:06 AM

Pythondoesnothavebuilt-In-In-In-In-Grad; UsethearraymoduleformemoryeffizientHomogenousDatastorage, whilelistareversatileformixedDatatypes

Welches Modul wird gewöhnlich verwendet, um Arrays in Python zu erstellen?Welches Modul wird gewöhnlich verwendet, um Arrays in Python zu erstellen?May 05, 2025 am 12:02 AM

ThemostcommonlyusedModuleforcreatreatraysinpythonisnumpy.1) NumpyprovideseffictionToolsforArrayoperationen, IdealfornicericalData.2) ArraysCanbesedusednp.Array () for1dand2dstructures.3) numpyexcelsusingnp.Array () und -Antenoperationen

Wie können Sie Elemente an eine Python -Liste anhängen?Wie können Sie Elemente an eine Python -Liste anhängen?May 04, 2025 am 12:17 AM

ToAppendElementStoapythonList, UsTheAppend () methodForsingleElelements, Extend () FormultipleElements, und INSERSt () FORSPECIFIFICEPosition.1) UseAppend () ForaddingOneElementattheend.2) usextend () toaddmultiElementsefficction.3) useInsert () toaddanelementataspeci

Wie erstellt man eine Python -Liste? Geben Sie ein Beispiel an.Wie erstellt man eine Python -Liste? Geben Sie ein Beispiel an.May 04, 2025 am 12:16 AM

TocreateApythonList, usequarebrackets [] andsparateItemswithcommas.1) ListaredynamicandcanholdmixedDatatypes.2) UseAppend (), REME () und SSLICINGFORMIPLUMILATION.3) LISTCOMPRAUMENS

Diskutieren Sie reale Anwendungsfälle, in denen eine effiziente Speicherung und Verarbeitung numerischer Daten von entscheidender Bedeutung ist.Diskutieren Sie reale Anwendungsfälle, in denen eine effiziente Speicherung und Verarbeitung numerischer Daten von entscheidender Bedeutung ist.May 04, 2025 am 12:11 AM

In den Bereichen Finanzen, wissenschaftliche Forschung, medizinische Versorgung und KI ist es entscheidend, numerische Daten effizient zu speichern und zu verarbeiten. 1) In der Finanzierung kann die Verwendung von Speicherzuordnungsdateien und Numpy -Bibliotheken die Datenverarbeitungsgeschwindigkeit erheblich verbessern. 2) Im Bereich der wissenschaftlichen Forschung sind HDF5 -Dateien für die Datenspeicherung und -abnahme optimiert. 3) In der medizinischen Versorgung verbessern die Datenbankoptimierungstechnologien wie die Indexierung und die Partitionierung die Leistung der Datenabfrage. 4) In AI beschleunigen Daten, die Sharding und das verteilte Training beschleunigen, Modelltraining. Die Systemleistung und Skalierbarkeit können erheblich verbessert werden, indem die richtigen Tools und Technologien ausgewählt und Kompromisse zwischen Speicher- und Verarbeitungsgeschwindigkeiten abgewogen werden.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

PHPStorm Mac-Version

PHPStorm Mac-Version

Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

SecLists

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.