ホームページ >データベース >mysql チュートリアル >ウィンドウ関数は 5 日間のアクティブ期間のリセットでユーザーのアクティブ化ステータスをどのように識別できますか?

ウィンドウ関数は 5 日間のアクティブ期間のリセットでユーザーのアクティブ化ステータスをどのように識別できますか?

Susan Sarandon
Susan Sarandonオリジナル
2025-01-10 11:09:42832ブラウズ

How Can Window Functions Identify User Activation Status with a 5-Day Active Period Reset?

Spark ウィンドウ関数を使用して複雑な条件のユーザー アクティビティを定義する

この例では、Spark ウィンドウ関数を使用して、以降のログイン時にリセットされる 5 日間のアクティブ期間を考慮して、ユーザーのアクティブ化ステータスを判断する方法を示します。 ユーザー ログインの DataFrame が与えられ、各ユーザーがいつアクティブになったかを示す列を追加することを目的としています。

方法論: ウィンドウ関数の活用

私たちのアプローチはウィンドウ関数を使用して、アクティブステータスのリセットをトリガーするログインイベントを特定します。 ユーザーおよび日付別にログインを順序付けるウィンドウが作成されます。 このウィンドウを遅らせると、現在と以前のログイン時間を比較できるようになります。

<code class="language-scala">import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions._

val window = Window.partitionBy("user_name").orderBy("login_date")
val df2 = df.withColumn("previous_login", lag("login_date", 1).over(window))</code>

アクティブステータスのリセットへの対処

became_active の日付は、前回のログイン ( previous_login ) が 5 日間のアクティブ期間内にあるかどうかを確認することによって決定されます。 previous_login が null (初回ログイン) または時差 (login_date - previous_login) が 5 日未満の場合、became_active は現在の login_date に設定されます。それ以外の場合、プロセスはこの条件が満たされるまで再帰的に続行されます。

Spark の実装 (バージョン >= 3.2)

Spark 3.2 以降ではネイ​​ティブ セッション ウィンドウ サポートが提供され、このタスクが簡素化されています (詳細については公式ドキュメントを参照してください)。

Spark の実装 (古いバージョン)

古い Spark バージョンの場合は、次の回避策が必要です。

  1. ユーザーのパーティショニングとセッション識別のためのウィンドウを定義します:
<code class="language-scala">val userWindow = Window.partitionBy("user_name").orderBy("login_date")
val userSessionWindow = Window.partitionBy("user_name", "session")</code>
  1. ログインギャップに基づいてセッションの開始ポイントを特定します:
<code class="language-scala">val newSession = (coalesce(
  datediff($"login_date", lag($"login_date", 1).over(userWindow)),
  lit(0)
) > 5).cast("bigint")</code>
  1. セッション化されたデータフレームを作成し、各セッション内の最も早いログイン日を見つけます:
<code class="language-scala">val sessionized = df.withColumn("session", sum(newSession).over(userWindow))
val result = sessionized
  .withColumn("became_active", min($"login_date").over(userSessionWindow))
  .drop("session")</code>

出力例

次の出力は、サンプル データセットを使用した結果を示しています。

<code>+----------------+----------+-------------+
|       user_name|login_date|became_active|
+----------------+----------+-------------+
|  OprahWinfreyJr|2012-01-10|    2012-01-10|
|SirChillingtonIV|2012-01-04|    2012-01-04|
|SirChillingtonIV|2012-01-11|    2012-01-11|
|SirChillingtonIV|2012-01-14|    2012-01-11|
|SirChillingtonIV|2012-08-11|    2012-08-11|
|Booooooo99900098|2012-01-04|    2012-01-04|
|Booooooo99900098|2012-01-06|    2012-01-04|
+----------------+----------+-------------+</code>

以上がウィンドウ関数は 5 日間のアクティブ期間のリセットでユーザーのアクティブ化ステータスをどのように識別できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。