Rumah >pangkalan data >tutorial mysql >Bagaimanakah Saya Boleh Menetapkan Tarikh Became_Active dengan Cekap kepada Data Log Masuk Pengguna Menggunakan Fungsi Spark SQL Window?
Mengoptimumkan Penetapan Tarikh Menjadi_Aktif dalam Spark SQL Menggunakan Fungsi Tetingkap
Contoh ini menunjukkan penetapan tarikh became_active
kepada data log masuk pengguna, dengan mengambil kira tetingkap masa tertentu. Walaupun pendekatan fungsi tetingkap mudah mungkin kelihatan mencukupi, penyelesaian yang lebih mantap, terutamanya untuk versi Spark yang lebih lama, dibentangkan di bawah.
Spark 3.2 dan Kemudian
Spark 3.2 dan versi yang lebih baru menawarkan tetingkap sesi (SPARK-10816, SPARK-34893), memudahkan tugas ini dengan ketara. Fungsi terbina dalam ini secara langsung menangani pengenalan sesi dan penetapan tarikh. Rujuk dokumentasi Spark untuk butiran tentang menggunakan tetingkap sesi.
Versi Spark Sebelum 3.2
Untuk versi Spark sebelum 3.2, pendekatan berbilang langkah diperlukan:
<code class="language-scala">import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.functions.{coalesce, datediff, lag, lit, min, sum}</code>
<code class="language-scala">val userWindow = Window.partitionBy("user_name").orderBy("login_date") val userSessionWindow = Window.partitionBy("user_name", "session")</code>
Langkah ini menentukan permulaan sesi pengguna baharu berdasarkan jurang 5 hari dalam tarikh log masuk.
<code class="language-scala">val newSession = (coalesce( datediff($"login_date", lag($"login_date", 1).over(userWindow)), lit(0) ) > 5).cast("bigint") val sessionized = df.withColumn("session", sum(newSession).over(userWindow))</code>
Akhir sekali, tarikh log masuk terawal dalam setiap sesi ditetapkan sebagai tarikh became_active
.
<code class="language-scala">val result = sessionized .withColumn("became_active", min($"login_date").over(userSessionWindow)) .drop("session")</code>
Kaedah ini mengisi lajur became_active
dengan berkesan untuk setiap pengguna, mematuhi rangka masa yang ditetapkan, memberikan penyelesaian yang lebih bersih daripada pendekatan rekursif untuk versi pra-3.2 Spark. Lajur session
, digunakan sebagai perantara, kemudiannya digugurkan.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Menetapkan Tarikh Became_Active dengan Cekap kepada Data Log Masuk Pengguna Menggunakan Fungsi Spark SQL Window?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!