在 Spark DataFrame GroupBy 操作中保留附加列
在 Spark DataFrame groupBy 查询中,通常只检索与组相关的列和聚合。但是,在某些情况下,您可能打算保留组键和聚合函数结果之外的其他列。
考虑以下 groupBy 操作:
df.groupBy(df("age")).agg(Map("id" -> "count"))
此查询将返回一个 DataFrame只有两列:“age”和“count(id)”。如果您需要原始 DataFrame 中的其他列(例如“名称”),您可以使用多种方法。
方法 1:将聚合结果与原始表连接
一种方法是将 DataFrame 与聚合结果连接起来以检索丢失的列。例如:
val agg = df.groupBy(df("age")).agg(Map("id" -> "count")) val result = df.join(agg, df("age") === agg("age"))
此技术保留了原始 DataFrame 中的所有列,但对于大型数据集效率可能较低。
方法 2:使用附加函数进行聚合(第一个/最后一个) )
您还可以使用其他聚合函数(例如第一个或最后一个)在聚合中包含非组列 结果。例如:
df.groupBy(df("age")).agg(Map("id" -> "count", "name" -> "first"))
这将返回一个包含三列的 DataFrame:“age”、“count(id)”和“first(name)”。
方法3:窗口函数Where过滤器
在某些情况下,您可以利用窗口函数与where过滤器相结合来实现所需的结果。然而,这种方法可能会对性能产生影响:
df.select( col("name"), col("age"), count("id").over(Window.partitionBy("age").rowsBetween(Window.unboundedPreceding, Window.currentRow)) ).where(col("name").isNotNull)
通过采用这些技术,您可以在 Spark DataFrame 中执行 groupBy 操作时有效地保留额外的列,从而满足各种分析要求。
以上是如何在 Spark DataFrame GroupBy 操作中保留附加列?的详细内容。更多信息请关注PHP中文网其他相关文章!