Maison >base de données >tutoriel mysql >Comment déterminer les dates actives des utilisateurs dans Spark SQL à l'aide des fonctions de fenêtre ?
Question :
Un DataFrame contenant les enregistrements des utilisateurs se connectant au site Web. Vous devez déterminer quand un utilisateur est actif et considérer une période d'activité. Si l'utilisateur se reconnecte après cette période, sa date d'activité sera réinitialisée.
Méthode proposée :
À l'aide d'une fonction de fenêtre avec hystérésis et récursivité, identifiez la première ou la plus récente connexion au cours de la période d'activité pour déterminer la date d'activité.
Solution native Spark (>= 3.2) :
Spark 3.2 et versions ultérieures prennent en charge les fenêtres de session. Consultez la documentation officielle pour des exemples d'utilisation.
Solution héritée (Spark < 3.2) :
Fonction d'importation :
Window
est utilisé pour définir les fenêtrescoalesce
, datediff
, lag
, lit
, min
, sum
Fenêtre de définition :
userWindow
Partitionné par user_name
et trié par login_date
userSessionWindow
Partition user_name
par session
et Trouver le début d'une nouvelle session :
datediff
et lag
pour comparer les dates de connexion et vérifier s'il existe un écart supérieur à la période active. cast
pour convertir le résultat en bigint
. userWindow
sur sum
pour accumuler les nouveaux démarrages de session. Retrouvez la première date pour chaque séance :
withColumn
pour ajouter session
colonnes. userSessionWindow
sur min
pour trouver le premier login_date
pour chaque session. session
. Exemple :
<code class="language-scala"> val df = Seq( ("SirChillingtonIV", "2012-01-04"), ("Booooooo99900098", "2012-01-04"), ("Booooooo99900098", "2012-01-06"), ("OprahWinfreyJr", "2012-01-10"), ("SirChillingtonIV", "2012-01-11"), ("SirChillingtonIV", "2012-01-14"), ("SirChillingtonIV", "2012-08-11") ).toDF("user_name", "login_date") val result = sessionized //sessionized is assumed to be defined elsewhere, this is a crucial part missing from the original .withColumn("became_active", min($"login_date").over(userSessionWindow)) .drop("session") df.show(5) result.show(5)</code>
Notez que la définition de sessionized
est absente de l'exemple de code, qui est un élément clé pour compléter cette solution. La colonne session
doit être calculée en fonction de la période d'activité et de la date de connexion. Cela nécessite généralement une fonction personnalisée ou une logique de fonction de fenêtre plus complexe. Une solution complète nécessite l’ajout de ce morceau de code manquant.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!