Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana untuk Mengira Median dan Kuantil dengan Cekap dalam Set Data Besar dengan Apache Spark?

Bagaimana untuk Mengira Median dan Kuantil dengan Cekap dalam Set Data Besar dengan Apache Spark?

Patricia Arquette
Patricia Arquetteasal
2024-10-29 07:44:30695semak imbas

How to Efficiently Calculate Median and Quantiles in Large Datasets with Apache Spark?

Cara Mencari Median dan Kuantil Menggunakan Apache Spark

Menentukan median atau kuantiti set data yang besar adalah penting untuk analisis statistik dan memberikan cerapan tentang pengedaran data. Dalam konteks ini, Apache Spark menyediakan kaedah teragih untuk mengira nilai ini.

Kaedah 1: Menggunakan approxQuantile (Spark 2.0 )

Untuk Spark versi 2.0 dan ke atas, anda boleh menggunakan kaedah approxQuantile. Ia melaksanakan algoritma Greenwald-Khanna, menawarkan cara yang cekap untuk menganggarkan kuantiti.

Syntax (Python):

<code class="python">df.approxQuantile("column_name", [quantile value 0.5], relative_error)</code>

Syntax (Scala):

<code class="scala">df.stat.approxQuantile("column_name", Array[Double](0.5), relative_error)</code>

di mana relative_error ialah parameter yang mengawal ketepatan keputusan. Nilai yang lebih tinggi sepadan dengan pengiraan yang kurang tepat tetapi lebih pantas.

Kaedah 2: Pengiraan Manual Menggunakan Isih (Spark < 2.0)

Python:

  1. Isih RDD dalam tertib menaik: sorted_rdd = rdd.sortBy(lambda x: x)
  2. Kira panjang RDD: n = sorted_rdd.count()
  3. Kira indeks bagi elemen median menggunakan h = floor((n - 1) * nilai kuantil))
  4. Cari elemen median dengan mencari indeks dalam RDD yang diisih: median = sorted_rdd.lookup(floor(h))

Bahasa Bebas (UDAF):

Jika anda menggunakan HiveContext, anda boleh memanfaatkan UDAF Hive untuk mengira kuantiti. Contohnya:

<code class="sql">SELECT percentile_approx(column_name, quantile value) FROM table</code>

Nota

Untuk set data yang lebih kecil (sekitar 700,000 elemen dalam kes anda), mungkin lebih cekap untuk mengumpul data secara setempat dan mengira median selepas itu. Walau bagaimanapun, untuk set data yang lebih besar, kaedah teragih yang diterangkan di atas menyediakan penyelesaian yang cekap dan berskala.

Atas ialah kandungan terperinci Bagaimana untuk Mengira Median dan Kuantil dengan Cekap dalam Set Data Besar dengan Apache Spark?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn