Rumah >pangkalan data >tutorial mysql >Bagaimanakah Saya Boleh Menetapkan Tarikh Became_Active dengan Cekap kepada Data Log Masuk Pengguna Menggunakan Fungsi Spark SQL Window?

Bagaimanakah Saya Boleh Menetapkan Tarikh Became_Active dengan Cekap kepada Data Log Masuk Pengguna Menggunakan Fungsi Spark SQL Window?

Barbara Streisand
Barbara Streisandasal
2025-01-10 11:04:43362semak imbas

How Can I Efficiently Assign Became_Active Dates to User Login Data Using Spark SQL Window Functions?

Mengoptimumkan Penetapan Tarikh Menjadi_Aktif dalam Spark SQL Menggunakan Fungsi Tetingkap

Contoh ini menunjukkan penetapan tarikh became_active kepada data log masuk pengguna, dengan mengambil kira tetingkap masa tertentu. Walaupun pendekatan fungsi tetingkap mudah mungkin kelihatan mencukupi, penyelesaian yang lebih mantap, terutamanya untuk versi Spark yang lebih lama, dibentangkan di bawah.

Spark 3.2 dan Kemudian

Spark 3.2 dan versi yang lebih baru menawarkan tetingkap sesi (SPARK-10816, SPARK-34893), memudahkan tugas ini dengan ketara. Fungsi terbina dalam ini secara langsung menangani pengenalan sesi dan penetapan tarikh. Rujuk dokumentasi Spark untuk butiran tentang menggunakan tetingkap sesi.

Versi Spark Sebelum 3.2

Untuk versi Spark sebelum 3.2, pendekatan berbilang langkah diperlukan:

  1. Import Fungsi yang Diperlukan:
<code class="language-scala">import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions.{coalesce, datediff, lag, lit, min, sum}</code>
  1. Tentukan Windows:
<code class="language-scala">val userWindow = Window.partitionBy("user_name").orderBy("login_date")
val userSessionWindow = Window.partitionBy("user_name", "session")</code>
  1. Pengenalan Sesi:

Langkah ini menentukan permulaan sesi pengguna baharu berdasarkan jurang 5 hari dalam tarikh log masuk.

<code class="language-scala">val newSession = (coalesce(
  datediff($"login_date", lag($"login_date", 1).over(userWindow)),
  lit(0)
) > 5).cast("bigint")

val sessionized = df.withColumn("session", sum(newSession).over(userWindow))</code>
  1. Tarikh Log Masuk Terawal setiap Sesi:

Akhir sekali, tarikh log masuk terawal dalam setiap sesi ditetapkan sebagai tarikh became_active.

<code class="language-scala">val result = sessionized
  .withColumn("became_active", min($"login_date").over(userSessionWindow))
  .drop("session")</code>

Kaedah ini mengisi lajur became_active dengan berkesan untuk setiap pengguna, mematuhi rangka masa yang ditetapkan, memberikan penyelesaian yang lebih bersih daripada pendekatan rekursif untuk versi pra-3.2 Spark. Lajur session, digunakan sebagai perantara, kemudiannya digugurkan.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Menetapkan Tarikh Became_Active dengan Cekap kepada Data Log Masuk Pengguna Menggunakan Fungsi Spark SQL Window?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn