Rumah >pangkalan data >tutorial mysql >Bagaimana untuk Mengekalkan Lajur Tambahan dalam Spark DataFrame GroupBy Operations?

Bagaimana untuk Mengekalkan Lajur Tambahan dalam Spark DataFrame GroupBy Operations?

Susan Sarandon
Susan Sarandonasal
2024-12-25 02:11:17559semak imbas

How to Preserve Additional Columns in Spark DataFrame GroupBy Operations?

Memelihara Lajur Tambahan dalam Spark DataFrame GroupBy Operations

Dalam Spark DataFrame groupBy pertanyaan, adalah perkara biasa untuk mendapatkan hanya lajur dan agregat berkaitan kumpulan . Walau bagaimanapun, mungkin terdapat senario di mana anda berhasrat untuk mengekalkan lajur tambahan di luar kunci kumpulan dan hasil fungsi agregat.

Pertimbangkan kumpulanBy operasi berikut:

df.groupBy(df("age")).agg(Map("id" -> "count"))

Pertanyaan ini akan mengembalikan DataFrame dengan hanya dua lajur: "umur" dan "bilangan(id)". Jika anda memerlukan lajur tambahan daripada DataFrame asal, seperti "nama", anda boleh menggunakan beberapa pendekatan.

Pendekatan 1: Sertai Hasil Agregat dengan Jadual Asal

Satu kaedah adalah untuk menyertai DataFrame dengan hasil agregat untuk mendapatkan semula lajur yang hilang. Contohnya:

val agg = df.groupBy(df("age")).agg(Map("id" -> "count"))
val result = df.join(agg, df("age") === agg("age"))

Teknik ini mengekalkan semua lajur daripada DataFrame asal tetapi boleh menjadi kurang cekap untuk set data yang besar.

Pendekatan 2: Agregat dengan Fungsi Tambahan (Pertama/Terakhir )

Anda juga boleh menggunakan fungsi agregat tambahan seperti pertama atau terakhir untuk disertakan lajur bukan kumpulan dalam hasil agregat. Contohnya:

df.groupBy(df("age")).agg(Map("id" -> "count", "name" -> "first"))

Ini akan mengembalikan DataFrame dengan tiga lajur: "umur," "count(id)" dan "first(name)."

Pendekatan 3: Fungsi Tetingkap Di Mana Penapis

Dalam sesetengah kes, anda boleh memanfaatkan fungsi tetingkap digabungkan dengan penapis tempat untuk mencapai yang diingini hasil. Walau bagaimanapun, pendekatan ini boleh mempunyai implikasi prestasi:

df.select(
  col("name"),
  col("age"),
  count("id").over(Window.partitionBy("age").rowsBetween(Window.unboundedPreceding, Window.currentRow))
).where(col("name").isNotNull)

Dengan menggunakan teknik ini, anda boleh mengekalkan lajur tambahan dengan berkesan apabila melaksanakan operasi groupBy dalam Spark DataFrames, yang menampung pelbagai keperluan analisis.

Atas ialah kandungan terperinci Bagaimana untuk Mengekalkan Lajur Tambahan dalam Spark DataFrame GroupBy Operations?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn