cari
Kenapa Spark Lambat??Dec 11, 2024 pm 07:43 PM

Kenapa Spark Lambat??

Bermula dengan tajuk yang menarik perhatian, "Mengapa Spark lambat??," adalah penting untuk ambil perhatian bahawa memanggil Spark "perlahan" boleh membawa maksud pelbagai perkara. Adakah ia perlahan pada pengagregatan? Pemuatan data? Kes yang berbeza wujud. Selain itu, "Spark" ialah istilah yang luas dan prestasinya bergantung pada faktor seperti bahasa pengaturcaraan dan konteks penggunaan. Jadi, mari kita perhalusi tajuk menjadi lebih tepat sebelum menyelam.

Memandangkan saya terutamanya menggunakan Spark dengan Python pada Databricks, saya akan mengecilkan skop lagi.

Tajuk yang diperhalusi ialah:

"Kesan Pertama Spark: 'Saya Dengar Ia Cepat, Tetapi Mengapa Ia Terasa Perlahan?' Perspektif Seorang Pemula"


Motivasi untuk Menulis (Pemikiran Santai)

Sebagai seseorang yang bekerja secara meluas dengan perpustakaan panda, NumPy dan pembelajaran mesin, saya mengagumi daya tarikan keupayaan Spark untuk mengendalikan data besar dengan pemprosesan selari dan teragih. Apabila saya akhirnya dapat menggunakan Spark untuk bekerja, saya hairan dengan senario di mana ia kelihatan lebih perlahan daripada panda. Tidak pasti apa yang salah, saya menemui beberapa cerapan dan ingin berkongsinya.


Bilakah Percikan Anda Menjadi Perlahan?

Sebelum Ke Topik Utama

Mari kita kupas secara ringkas seni bina asas Spark.

Why Is Spark Slow??

(Gambaran Keseluruhan Mod Kluster)

Kluster Spark terdiri daripada Nod Pekerja, yang melaksanakan pemprosesan sebenar dan Nod Pemacu, yang menyelaras dan merancang pelaksanaan. Seni bina ini mempengaruhi semua yang dibincangkan di bawah, jadi ingatlah.

Sekarang, ke perkara utama.


1. Set Data Tidak Cukup Besar

Spark dioptimumkan untuk pemprosesan data berskala besar, walaupun ia boleh mengendalikan set data kecil juga. Walau bagaimanapun, lihat penanda aras ini:

Why Is Spark Slow??

(Menanda aras Apache Spark pada Mesin Nod Tunggal)

Hasilnya menunjukkan bahawa untuk set data di bawah 15GB, panda mengatasi Spark dalam tugas pengagregatan. kenapa? Secara ringkasnya, overhed pengoptimuman Spark mengatasi faedah untuk set data kecil.

Pautan menunjukkan kes di mana Spark tidak lebih perlahan, tetapi ini selalunya dalam mod kluster tempatan. Untuk persediaan kendiri, set data yang lebih kecil boleh menjadi kelemahan disebabkan oleh overhed komunikasi rangkaian antara nod.

  • pandas: Memproses semua dalam memori pada satu mesin, tanpa rangkaian atau storan I/O.
  • Spark: Menggunakan RDD (Resilient Distributed Datasets), melibatkan komunikasi rangkaian antara Pekerja (jika diedarkan), dan menanggung overhed dalam menyusun data untuk pemprosesan selari.

2. Memahami Penilaian Malas

Spark menggunakan penilaian malas, bermakna transformasi tidak dilaksanakan serta-merta tetapi ditangguhkan sehingga tindakan (cth., mengumpul, mengira, menunjukkan) mencetuskan pengiraan.

Contoh (panda):

df = spark.read.table("tpch.lineitem").limit(1000).toPandas()
df["l_tax_percentage"] = df["l_tax"] * 100
for l_orderkey, group_df in df.groupby("l_orderkey"):
    print(l_orderkey, group_df["l_tax_percentage"].mean())

Masa pelaksanaan: 3.04 saat

Setara dalam Spark:

from pyspark.sql import functions as F
sdf = spark.read.table("tpch.lineitem").limit(1000)
sdf = sdf.withColumn("l_tax_percentage", F.col("l_tax") * 100)

for row in sdf.select("l_orderkey").distinct().collect():
    grouped_sdf = sdf.filter(F.col("l_orderkey") == row.l_orderkey).groupBy("l_orderkey").agg(
        F.mean("l_tax_percentage").alias("avg_l_tax_percentage")
    )
    print(grouped_sdf.show())

Masa pelaksanaan: Masih berjalan selepas 3 minit.


Kenapa?

  1. Penilaian Malas: Semua transformasi akan beratur dan hanya dilaksanakan semasa aksi seperti pertunjukan.
  2. Komunikasi Pemandu-ke-Pekerja: Operasi seperti mengumpul dan menunjukkan melibatkan pemindahan data daripada Pekerja kepada Pemandu, menyebabkan kelewatan.

Kod Spark dengan berkesan melakukan perkara ini dalam panda:

for l_orderkey, group_df in df.groupby("l_orderkey"):
    df["l_tax_percentage"] = df["l_tax"] * 100
    print(l_orderkey, group_df["l_tax_percentage"].mean())

Elakkan corak sedemikian dengan menggunakan cache Spark atau menyusun semula logik untuk meminimumkan pengiraan berulang.


3. Berhati-hati dengan Kocok

https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations

Kocok berlaku apabila data diagihkan semula merentas Pekerja, biasanya semasa operasi seperti groupByKey, sertai atau partisi semula. Kocok boleh menjadi perlahan disebabkan oleh:

  • Komunikasi Rangkaian antara nod.
  • Pengisihan dan Pengagregatan Global data merentas partition.

Contohnya, mempunyai lebih ramai Pekerja tidak selalu meningkatkan prestasi semasa shuffle.

  • 32GB x 8 Pekerja boleh menjadi lebih perlahan daripada 64GB x 4 Pekerja, kerana kurang Pekerja mengurangkan komunikasi antara nod.

Kesimpulan

Adakah anda mendapati ini membantu? Spark adalah alat yang sangat baik apabila digunakan dengan berkesan. Selain mempercepatkan pemprosesan data berskala besar, Spark bersinar dengan pengurusan sumber berskalanya, terutamanya dalam awan.

Cuba Spark untuk mengoptimumkan operasi dan pengurusan data anda!

Atas ialah kandungan terperinci Kenapa Spark Lambat??. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Bagaimana untuk menyelesaikan masalah kebenaran yang dihadapi semasa melihat versi Python di Terminal Linux?Bagaimana untuk menyelesaikan masalah kebenaran yang dihadapi semasa melihat versi Python di Terminal Linux?Apr 01, 2025 pm 05:09 PM

Penyelesaian kepada Isu Kebenaran Semasa Melihat Versi Python di Terminal Linux Apabila anda cuba melihat versi Python di Terminal Linux, masukkan Python ...

Bagaimana saya menggunakan sup yang indah untuk menghuraikan html?Bagaimana saya menggunakan sup yang indah untuk menghuraikan html?Mar 10, 2025 pm 06:54 PM

Artikel ini menerangkan cara menggunakan sup yang indah, perpustakaan python, untuk menghuraikan html. Ia memperincikan kaedah biasa seperti mencari (), find_all (), pilih (), dan get_text () untuk pengekstrakan data, pengendalian struktur dan kesilapan HTML yang pelbagai, dan alternatif (sel

Serialization dan deserialisasi objek python: Bahagian 1Serialization dan deserialisasi objek python: Bahagian 1Mar 08, 2025 am 09:39 AM

Serialization dan deserialization objek Python adalah aspek utama dari mana-mana program bukan remeh. Jika anda menyimpan sesuatu ke fail python, anda melakukan siri objek dan deserialization jika anda membaca fail konfigurasi, atau jika anda menjawab permintaan HTTP. Dalam erti kata, siri dan deserialization adalah perkara yang paling membosankan di dunia. Siapa yang peduli dengan semua format dan protokol ini? Anda mahu berterusan atau mengalirkan beberapa objek python dan mengambilnya sepenuhnya pada masa yang akan datang. Ini adalah cara yang baik untuk melihat dunia pada tahap konseptual. Walau bagaimanapun, pada tahap praktikal, skim siri, format atau protokol yang anda pilih boleh menentukan kelajuan, keselamatan, kebebasan status penyelenggaraan, dan aspek lain dari program

Modul Matematik dalam Python: StatistikModul Matematik dalam Python: StatistikMar 09, 2025 am 11:40 AM

Modul Statistik Python menyediakan keupayaan analisis statistik data yang kuat untuk membantu kami dengan cepat memahami ciri -ciri keseluruhan data, seperti biostatistik dan analisis perniagaan. Daripada melihat titik data satu demi satu, cuma melihat statistik seperti min atau varians untuk menemui trend dan ciri dalam data asal yang mungkin diabaikan, dan membandingkan dataset besar dengan lebih mudah dan berkesan. Tutorial ini akan menjelaskan cara mengira min dan mengukur tahap penyebaran dataset. Kecuali dinyatakan sebaliknya, semua fungsi dalam modul ini menyokong pengiraan fungsi min () dan bukan hanya menjumlahkan purata. Nombor titik terapung juga boleh digunakan. Import secara rawak Statistik import dari fracti

Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch?Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch?Mar 10, 2025 pm 06:52 PM

Artikel ini membandingkan tensorflow dan pytorch untuk pembelajaran mendalam. Ia memperincikan langkah -langkah yang terlibat: penyediaan data, bangunan model, latihan, penilaian, dan penempatan. Perbezaan utama antara rangka kerja, terutamanya mengenai grap pengiraan

Mengikis halaman web dalam python dengan sup yang indah: carian dan pengubahsuaian domMengikis halaman web dalam python dengan sup yang indah: carian dan pengubahsuaian domMar 08, 2025 am 10:36 AM

Tutorial ini dibina pada pengenalan sebelumnya kepada sup yang indah, memberi tumpuan kepada manipulasi DOM di luar navigasi pokok mudah. Kami akan meneroka kaedah dan teknik carian yang cekap untuk mengubahsuai struktur HTML. Satu kaedah carian dom biasa ialah Ex

Apakah beberapa perpustakaan Python yang popular dan kegunaan mereka?Apakah beberapa perpustakaan Python yang popular dan kegunaan mereka?Mar 21, 2025 pm 06:46 PM

Artikel ini membincangkan perpustakaan Python yang popular seperti Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask, dan Permintaan, memperincikan kegunaan mereka dalam pengkomputeran saintifik, analisis data, visualisasi, pembelajaran mesin, pembangunan web, dan h

Bagaimana untuk membuat antara muka baris arahan (CLI) dengan python?Bagaimana untuk membuat antara muka baris arahan (CLI) dengan python?Mar 10, 2025 pm 06:48 PM

Artikel ini membimbing pemaju Python mengenai bangunan baris baris komando (CLI). Butirannya menggunakan perpustakaan seperti Typer, Klik, dan ArgParse, menekankan pengendalian input/output, dan mempromosikan corak reka bentuk mesra pengguna untuk kebolehgunaan CLI yang lebih baik.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

SublimeText3 Linux versi baharu

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft