首页 >数据库 >mysql教程 >如何在 Spark DataFrame GroupBy 操作中保留附加列?

如何在 Spark DataFrame GroupBy 操作中保留附加列?

Susan Sarandon
Susan Sarandon原创
2024-12-25 02:11:17559浏览

How to Preserve Additional Columns in Spark DataFrame GroupBy Operations?

在 Spark DataFrame GroupBy 操作中保留附加列

在 Spark DataFrame groupBy 查询中,通常只检索与组相关的列和聚合。但是,在某些情况下,您可能打算保留组键和聚合函数结果之外的其他列。

考虑以下 groupBy 操作:

df.groupBy(df("age")).agg(Map("id" -> "count"))

此查询将返回一个 DataFrame只有两列:“age”和“count(id)”。如果您需要原始 DataFrame 中的其他列(例如“名称”),您可以使用多种方法。

方法 1:将聚合结果与原始表连接

一种方法是将 DataFrame 与聚合结果连接起来以检索丢失的列。例如:

val agg = df.groupBy(df("age")).agg(Map("id" -> "count"))
val result = df.join(agg, df("age") === agg("age"))

此技术保留了原始 DataFrame 中的所有列,但对于大型数据集效率可能较低。

方法 2:使用附加函数进行聚合(第一个/最后一个) )

您还可以使用其他聚合函数(例如第一个或最后一个)在聚合中包含非组列 结果。例如:

df.groupBy(df("age")).agg(Map("id" -> "count", "name" -> "first"))

这将返回一个包含三列的 DataFrame:“age”、“count(id)”和“first(name)”。

方法3:窗口函数Where过滤器

在某些情况下,您可以利用窗口函数与where过滤器相结合来实现所需的结果。然而,这种方法可能会对性能产生影响:

df.select(
  col("name"),
  col("age"),
  count("id").over(Window.partitionBy("age").rowsBetween(Window.unboundedPreceding, Window.currentRow))
).where(col("name").isNotNull)

通过采用这些技术,您可以在 Spark DataFrame 中执行 groupBy 操作时有效地保留额外的列,从而满足各种分析要求。

以上是如何在 Spark DataFrame GroupBy 操作中保留附加列?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn